2025 年 10 月 16 日
Bug0 通过 Gemini 2.5 Pro 将手动测试调试减少了 60%

传统的软件质量保证 (QA) 通常依赖于脆弱的基于选择器的测试,这些测试会在界面发生变化时中断。调试这些失败通常需要工程师手动查看测试日志和记录,这是一个耗时的过程,会降低开发速度。
Bug0 是一个由 AI 赋能的质量检查平台,可为工程团队自动执行浏览器和移动设备测试。该平台旨在大规模生成、维护和自动修复测试,从而减少与传统质量检查相关的摩擦。
为了提高测试可靠性并实现调试流程自动化,Bug0 利用 Gemini 2.5 Pro 的多模态推理功能来分析测试记录、验证结果并自动确定故障的根本原因。
使用多模态推理自动进行 QA 分析
Bug0 旨在减少对传统断言框架(例如 Playwright)的依赖,这些框架依赖于经常过时的特定代码选择器。他们还需要一种可扩缩的方式来分析测试结果,而无需人工干预。
“观看完整的测试记录来确定失败的根本原因非常耗时,而维护复杂的选择器或不稳定的断言会拖慢我们的速度,”Bug0 的联合创始人兼技术总监 Sandeep Panda 说道。“我们需要一种使用 AI 自动总结测试意图和结果的方法。”
Bug0 选择 Gemini 2.5 Pro 是看中了其先进的多模态功能,尤其是视频解读能力。
他们实现了 Gemini 2.5 Pro 的两项主要功能:
- AI 断言引擎:该引擎会根据视觉或结构证据(例如视频录制内容、网页屏幕截图或无障碍快照)评估测试目标是否已实现。此功能可使用强大的 AI 赋能断言来取代脆弱的代码定位器。
- 故障总结:AI 代理会分析失败测试的视频录制内容,并总结根本原因(例如缺少按钮或重定向不正确),从而减少工程师手动查看视频的需求。
实现基于视频的断言和摘要
Bug0 使用 Node.js 中的 Google Gen AI SDK 集成了 Gemini 2.5 Pro。初始集成(包括提示实验和调整)大约花费了三天时间。
其 AI 断言引擎将测试框架的操作与 Gemini 2.5 Pro 的评估功能相结合。框架会执行测试步骤,而 Gemini 2.5 Pro 会评估生成的输出。

“在我们的断言引擎中,我们将 Gemini 2.5 Pro 与 Playwright 相结合。Playwright 执行步骤。Panda 解释道:“Gemini 2.5 Pro 会评估视觉输出,并确认是否达到了预期结果。”“这样一来,我们就可以跳过编写脆弱的定位器或硬编码的预期,转而依赖由 Gemini 2.5 Pro 提供支持的自然语言断言。”
对于失败摘要,Bug0 使用一种专门的提示格式,其中包含视频录制内容、失败日志和预期行为。Gemini 2.5 Pro 会处理此输入内容,生成人类可读的摘要,说明测试失败的原因。Gemini 2.5 Pro 的准确性对于这些关键的 QA 任务至关重要。
将人工测试审核减少 60%
集成 Gemini 2.5 Pro 后,Bug0 的调试工作流程和平台整体可靠性都得到了显著提升。通过使用 AI 驱动的工作流程取代手动调试和断言编写,Bug0 提高了客户的开发速度。
主要成果包括:
- 工程师需要手动观看的测试失败视频数量减少了 60%
- 现在,超过 70% 的测试失败都能成功自动总结,并提供准确的根本原因说明
- 与基于传统选择器的方法相比,断言不确定性显著降低
Panda 表示:“Gemini 2.5 Pro 加快了我们的速度。”“它将测试审核从瓶颈转变为快速反馈环,从而提升了我们的核心产品体验。”
Bug0 正在开发 AI 测试编写功能。用户将能够提交用户流程的视频,而 Bug0 将使用 Gemini 2.5 Pro 分析该视频并自动生成相应的测试脚本和断言。
如需开始构建自己的应用,请参阅我们的 API 文档,了解 Gemini 模型的多模态功能。