2025 年 10 月 20 日

Bug0 通过 Gemini 2.5 Pro 将手动测试调试减少了 60%

Sandeep Panda

Bug0 的联合创始人兼首席技术官

Vishal Dharmadhikari

产品解决方案工程师

传统的软件质量保证 (QA) 通常依赖于脆弱的基于选择器的测试，这些测试会在界面发生变化时中断。调试这些失败通常需要工程师手动查看测试日志和记录，这是一个耗时的过程，会降低开发速度。

Bug0 是一个由 AI 赋能的质量检查平台，可为工程团队自动执行浏览器和移动设备测试。该平台旨在大规模生成、维护和自动修复测试，从而减少与传统 QA 相关的摩擦。

为了提高测试可靠性并实现调试流程自动化，Bug0 利用 Gemini 2.5 Pro 的多模态推理功能来分析测试记录、验证结果并自动确定故障的根本原因。

使用多模态推理自动进行 QA 分析

Bug0 旨在减少对传统断言框架（例如 Playwright）的依赖，这些框架依赖于经常过时的特定代码选择器。他们还需要一种可扩缩的方式来分析测试结果，而无需人工干预。

“观看完整的测试记录来确定失败的根本原因非常耗时，而维护复杂的选择器或不稳定的断言会减慢我们的速度，”Bug0 的联合创始人兼技术总监 Sandeep Panda 说道。“我们需要一种使用 AI 自动总结测试意图和结果的方法。”

Bug0 选择 Gemini 2.5 Pro 是看中了其先进的多模态功能，尤其是其解读视频的能力。

他们实现了 Gemini 2.5 Pro 的两项主要功能：

AI 断言引擎：该引擎会根据视觉或结构证据（例如视频录制内容、网页屏幕截图或无障碍快照）评估测试目标是否已实现。这会使用强大的 AI 赋能断言来取代脆弱的代码定位器。
失败总结：AI 代理会分析失败测试的视频录制内容，并总结根本原因（例如缺少按钮或重定向不正确），从而减少工程师手动查看视频的需求。

实现基于视频的断言和摘要

Bug0 使用 Node.js 中的 Google Gen AI SDK 集成了 Gemini 2.5 Pro。初始集成（包括提示实验和调整）大约花费了三天时间。

其 AI 断言引擎将测试框架的操作与 Gemini 2.5 Pro 的评估功能相结合。该框架会执行测试步骤，而 Gemini 2.5 Pro 会评估生成的输出。

“在我们的断言引擎中，我们将 Gemini 2.5 Pro 与 Playwright 相结合。Playwright 执行步骤。Panda 解释道：“Gemini 2.5 Pro 会评估视觉输出，并确认是否达到了预期结果。”“这样一来，我们就可以跳过编写脆弱的定位器或硬编码的预期，转而依赖由 Gemini 2.5 Pro 提供支持的自然语言断言。”

对于失败摘要，Bug0 使用专门的提示格式，其中包含视频录制内容、失败日志和预期行为。Gemini 2.5 Pro 会处理此输入内容，生成人类可读的摘要，说明测试失败的原因。Gemini 2.5 Pro 的准确性对于这些关键的 QA 任务至关重要。

将手动测试审核减少 60%

Gemini 2.5 Pro 的集成显著改进了 Bug0 的调试工作流程，并提升了其平台的整体可靠性。Bug0 通过 AI 驱动的工作流程取代了手动调试和断言编写，从而加快了客户的开发速度。

主要成果包括：

工程师需要手动观看的测试失败视频数量减少了 60%
现在，超过 70% 的测试失败都能成功自动总结，并提供准确的根本原因说明
与基于选择器的传统方法相比，断言不稳定性显著降低

“Gemini 2.5 Pro 加快了我们的开发速度，”Panda 说。“它将测试审核从瓶颈转变为快速反馈环，从而提升了我们的核心产品体验。”

Bug0 正在开发 AI 测试编写功能。用户将能够提交用户流程的视频，而 Bug0 将使用 Gemini 2.5 Pro 分析该视频并自动生成相应的测试脚本和断言。

如需开始构建自己的应用，请查看我们的 API 文档，了解 Gemini 模型的多模态功能。

Bug0 通过 Gemini 2.5 Pro 将手动测试调试减少了 60%

使用多模态推理自动进行 QA 分析

实现基于视频的断言和摘要

将手动测试审核减少 60%

相关案例研究