2025 年 10 月 16 日
Bug0 採用 Gemini 2.5 Pro 後,手動測試偵錯次數減少 60%

傳統的軟體品質保證 (QA) 通常依賴脆弱的選取器測試,一旦使用者介面變更,測試就會中斷。工程師通常需要手動檢查測試記錄和錄影畫面,才能偵錯這些失敗情形,這個過程相當耗時,會拖慢開發速度。
Bug0 是以 AI 技術為基礎的 QA 平台,可為工程團隊自動執行瀏覽器和行動裝置測試。他們的平台旨在大規模生成、維護及自動修復測試,減少傳統 QA 相關的摩擦。
為提升測試可靠性並自動執行偵錯程序,Bug0 會運用 Gemini 2.5 Pro 的多模態推理功能分析測試記錄、驗證結果,並自動判斷失敗的根本原因。
運用多模態推理技術自動執行 QA 分析
Bug0 致力於減少對傳統斷言架構 (例如 Playwright) 的依賴,因為這類架構依賴特定程式碼選取器,但這些選取器經常過時。他們也需要可擴充的方式來分析測試結果,不必手動介入。
「觀看完整的測試記錄來找出失敗的根本原因非常耗時,而且維護複雜的選取器或不穩定的斷言會拖慢我們的速度。」Bug0 共同創辦人兼技術長 Sandeep Panda 表示。「我們需要透過 AI 自動彙整測試意圖和結果。」
Bug0 選擇 Gemini 2.5 Pro,主要是看中其進階多模態功能,尤其是解讀影片的能力。
他們為兩項主要功能導入 Gemini 2.5 Pro:
- AI 判斷引擎:引擎會根據視覺或結構證據 (例如錄影畫面、網頁螢幕截圖或無障礙快照),評估是否達成測試目標。這項功能會以強大的 AI 輔助判斷,取代容易出錯的程式碼定位器。
- 失敗原因摘要:AI 代理程式會分析失敗測試的錄影畫面,並歸納根本原因 (例如缺少按鈕或重新導向錯誤),減少工程師手動審查影片的需求。
導入影片型斷言和摘要
Bug0 使用 Node.js 中的 Google Gen AI SDK 整合 Gemini 2.5 Pro。初步整合 (包括提示實驗和調整) 大約花了三天。
他們的 AI 斷言引擎結合了測試架構的動作和 Gemini 2.5 Pro 的評估功能。架構會執行測試步驟,Gemini 2.5 Pro 則會評估產生的輸出內容。

「在我們的斷言引擎中,我們結合了 Gemini 2.5 Pro 和 Playwright。Playwright 會執行步驟。Gemini 2.5 Pro 會評估視覺輸出內容,並確認是否達到預期結果。」Panda 說明道。「這樣一來,我們就能略過編寫脆弱的定位器或硬式編碼的期望值,改用 Gemini 2.5 Pro 支援的自然語言斷言。」
如要取得失敗摘要,Bug0 會使用專用提示格式,其中包含影片錄製內容、失敗記錄和預期行為。Gemini 2.5 Pro 會處理這項輸入內容,生成易於理解的摘要,說明測試失敗的原因。Gemini 2.5 Pro 的準確度對於這些重要的 QA 工作至關重要。
減少 60% 的手動測試審查
整合 Gemini 2.5 Pro 後,Bug0 的偵錯工作流程和平台整體可靠性都大幅提升。Bug0 運用 AI 驅動的工作流程,取代手動偵錯和斷言撰寫作業,協助客戶加快開發速度。
主要結果包括:
- 工程師需要手動觀看的測試失敗影片數量減少 60%
- 現在,超過 70% 的測試失敗案例都能成功自動摘要,並提供準確的根本原因說明
- 與傳統的選取器式方法相比,斷言不穩定性大幅降低
Panda 表示:「Gemini 2.5 Pro 加快了我們的速度,「這項功能將測試審查從瓶頸轉變為快速回饋迴路,提升了我們的核心產品體驗。」
Bug0 目前正在開發 AI 測試撰寫功能。使用者可以提交使用者流程影片,Bug0 會使用 Gemini 2.5 Pro 分析影片,並自動生成相應的測試指令碼和斷言。
如要開始建構自己的應用程式,請參閱 API 說明文件,瞭解 Gemini 模型的多元模態功能。