استفاده از کامپیوتر

ابزار Computer Use به شما امکان می‌دهد تا عامل‌های کنترل مرورگر، موبایل و دسکتاپ بسازید که با وظایف تعامل داشته و آنها را خودکار می‌کنند. با استفاده از اسکرین‌شات‌ها، مدل می‌تواند صفحه کامپیوتر را "ببیند" و با تولید اقدامات خاص رابط کاربری مانند کلیک ماوس و ورودی‌های صفحه کلید "عمل" کند. مشابه فراخوانی تابع، برای دریافت و اجرای اقدامات Computer Use به پیاده‌سازی محیط اجرای سمت کلاینت نیاز خواهید داشت.

Gemini 3.5 Flash مدل پیشنهادی برای استفاده در کامپیوتر است و چندین قابلیت جدید را معرفی می‌کند:

  • پشتیبانی از چند محیط: ساخت عامل‌ها برای محیط‌های مرورگر، موبایل و دسکتاپ .
  • اقدامات ساده‌شده با اهداف: اقدامات شامل یک فیلد intent هستند که استدلال مدل را در پشت هر مرحله توضیح می‌دهد.
  • سیاست‌های ایمنی قابل تنظیم: تنظیم دقیق رفتار ایمنی با دسته‌ها و لغوهای سیاست‌های داخلی.
  • تشخیص تزریق سریع: اسکن اسکرین‌شات با قابلیت انتخاب برای شناسایی دستورالعمل‌های خصمانه‌ی پنهان.

با استفاده از کامپیوتر، می‌توانید عامل‌هایی بسازید که:

  • خودکارسازی ورود اطلاعات تکراری یا پر کردن فرم در وب‌سایت‌ها.
  • انجام تست خودکار برنامه‌های وب و جریان‌های کاربری
  • انجام تحقیقات در وب‌سایت‌های مختلف (مثلاً جمع‌آوری اطلاعات محصول، قیمت‌ها و نظرات از سایت‌های تجارت الکترونیک برای اطلاع‌رسانی در مورد خرید)

در اینجا یک مثال ساده از مقداردهی اولیه کلاینت و ارسال اعلان به مدل با ابزار computer_use فعال برای محیط مرورگر آورده شده است:

پایتون

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Search for 'Gemini API' on Google.",
    tools=[{"type": "computer_use", "environment": "browser"}]
)

print(interaction)

جاوا اسکریپت

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI();

const interaction = await ai.interactions.create({
  model: 'gemini-3.5-flash',
  input: "Search for 'Gemini API' on Google.",
  tools: [{ type: "computer_use", environment: "browser" }]
});

console.log(interaction);


نحوه استفاده از کامپیوتر

برای ساخت یک عامل با مدل استفاده از کامپیوتر، باید یک حلقه پیوسته بین برنامه خود و API ایجاد کنید. در اینجا کاری که کد شما در هر مرحله انجام خواهد داد، آمده است:

  1. ارسال درخواست به مدل
    • برنامه شما یک درخواست API حاوی ابزار Computer Use، تنظیمات پیکربندی شما (مانند محیط هدف)، اعلان کاربر و یک اسکرین‌شات از صفحه فعلی ارسال می‌کند.
  2. پاسخ مدل را دریافت کنید
    • این مدل صفحه نمایش و اعلان را تجزیه و تحلیل می‌کند و پاسخی را برمی‌گرداند که شامل یک function_call پیشنهادی است که نشان‌دهنده یک عمل رابط کاربری (مانند کلیک، اسکرول یا فشردن کلید) است.
    • برای Gemini 3.5 Flash ، پاسخ همچنین شامل یک intent استدلالی است که توضیح می‌دهد چرا مدل آن اقدام را انتخاب کرده است.
    • برای مدل‌های قدیمی (مانند gemini-2.5-computer-use-preview-10-2025 )، پاسخ ممکن است شامل یک safety_decision از یک سیستم ایمنی داخلی باشد که اقدام را به عنوان منظم/مجاز، require_confirmation (نیازمند تأیید کاربر) یا مسدود شده طبقه‌بندی می‌کند.
  3. اجرای اکشن دریافتی
    • اگر عمل مجاز باشد (یا کاربر آن را تأیید کند)، کد سمت کلاینت شما function_call تجزیه می‌کند، مختصات نرمال‌شده را برای مطابقت با نمای شما مقیاس‌بندی می‌کند و عمل را در محیط هدف شما با استفاده از ابزارهای اتوماسیون (مانند Playwright) اجرا می‌کند. اگر عمل مسدود شده باشد، کلاینت شما باید اجرا را متوقف کند یا وقفه را مدیریت کند.
  4. ثبت وضعیت جدید محیط
    • پس از اتمام اجرای اکشن، برنامه شما یک اسکرین‌شات جدید می‌گیرد و آن را در یک function_result به مدل ارسال می‌کند تا مرحله بعدی را درخواست کند.

این فرآیند سپس از مرحله ۲ تکرار می‌شود و به طور مداوم اقدام بعدی را از مدل درخواست می‌کند تا زمانی که وظیفه تکمیل یا خاتمه یابد.

مرور کلی استفاده از کامپیوتر

نحوه پیاده‌سازی استفاده از کامپیوتر

قبل از ساخت با ابزار Computer Use، باید موارد زیر را تنظیم کنید:

  • محیط اجرای امن: عامل خود را در یک ماشین مجازی یا کانتینرِ سندباکس‌شده اجرا کنید تا آن را از سیستم میزبان خود جدا کرده و تأثیر بالقوه آن را محدود کنید. پیاده‌سازی مرجع شامل یک سندباکس آماده برای استفاده مبتنی بر داکر است که می‌توانید به عنوان نقطه شروع از آن استفاده کنید.
  • کنترل‌کننده‌ی عملیات سمت کلاینت: منطق سمت کلاینت را برای اجرای مختصات، تایپ متن و گرفتن اسکرین‌شات پیاده‌سازی کنید.

مثال‌های زیر از یک مرورگر وب به عنوان محیط اجرا و از Playwright به عنوان هندلر سمت کلاینت استفاده می‌کنند.

0. تنظیم نمایشنامه نویس

ابتدا بسته‌های مورد نیاز را نصب کنید:

pip install google-genai playwright
playwright install chromium

سپس، یک نمونه مرورگر Playwright را برای اجرا، مقداردهی اولیه کنید:

from playwright.sync_api import sync_playwright

# 1. Configure screen dimensions for the target environment
SCREEN_WIDTH = 1440
SCREEN_HEIGHT = 900

# 2. Start the Playwright browser
# In production, utilize a sandboxed environment.
playwright = sync_playwright().start()
# Set headless=False to see the actions performed on your screen
browser = playwright.chromium.launch(headless=False)

# 3. Create a context and page with the specified dimensions
context = browser.new_context(
    viewport={"width": SCREEN_WIDTH, "height": SCREEN_HEIGHT}
)
page = context.new_page()

# 4. Navigate to an initial page to start the task
page.goto("https://www.google.com")

# The 'page', 'SCREEN_WIDTH', and 'SCREEN_HEIGHT' variables
# will be used in the steps below.

۱. ارسال درخواست به مدل

کتابخانه کلاینت را مقداردهی اولیه کنید و ابزار استفاده از کامپیوتر را پیکربندی کنید. توجه داشته باشید که هنگام صدور درخواست نیازی به مشخص کردن اندازه صفحه نمایش نیست؛ مدل مختصات پیکسلی را که با ارتفاع و عرض صفحه نمایش مقیاس‌بندی شده‌اند، پیش‌بینی می‌کند.

پایتون

از google-genai Python SDK (نسخه 2.7.0 یا بالاتر) برای پیکربندی درخواستی که محیط مرورگر را هدف قرار می‌دهد، استفاده کنید:

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model='gemini-3.5-flash',
    input="Find a flight from SF to Hawaii on Jun 30th, coming back on Jul 6th",
    tools=[
        {
            "type": "computer_use",
            "environment": "browser",
            "enable_prompt_injection_detection": True
        }
    ]
)

print(interaction)

جاوا اسکریپت

از SDK نود.جی‌اس @google/genai برای پیکربندی درخواستی که محیط مرورگر را هدف قرار می‌دهد، استفاده کنید:

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI();

const interaction = await ai.interactions.create({
  model: 'gemini-3.5-flash',
  input: "Find a flight from SF to Hawaii on Jun 30th, coming back on Jul 6th",
  tools: [
    {
      type: "computer_use",
      environment: "browser",
      enable_prompt_injection_detection: true
    }
  ]
});

console.log(interaction);

استراحت

برای ارسال درخواست از curl استفاده کنید:

curl -X POST \
  "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Find me a flight from SF to Hawaii on Jun 30th, coming back on Jul 6th. Start by navigating directly to flights.google.com",
    "tools": [
      {
        "type": "computer_use",
        "environment": "browser",
        "enable_prompt_injection_detection": true
      }
    ]
  }'

جمینی ۲.۵ (لگسی)

پایتون

from google import genai

client = genai.Client()

# Specify predefined functions to exclude (optional)
excluded_functions = ["drag_and_drop"]

interaction = client.interactions.create(
    model='gemini-2.5-computer-use-preview-10-2025',
    input="Search for highly rated smart fridges on Google Shopping.",
    tools=[
        {
            "type": "computer_use",
            "environment": "browser",
            "excluded_predefined_functions": excluded_functions
        }
    ]
)

print(interaction)

جاوا اسکریپت

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI();

// Specify predefined functions to exclude (optional)
const excludedFunctions = ["drag_and_drop"];

const interaction = await ai.interactions.create({
  model: 'gemini-2.5-computer-use-preview-10-2025',
  input: "Search for highly rated smart fridges on Google Shopping.",
  tools: [
    {
      type: "computer_use",
      environment: "browser",
      excluded_predefined_functions: excludedFunctions
    }
  ]
});

console.log(interaction);

۲. پاسخ مدل را دریافت کنید

مدل پاسخ، فراخوانی یک تابع را پیشنهاد می‌دهد. برای Gemini 3.5 Flash ، پاسخ شامل یک هدف استدلالی متناسب با مختصات است. در زیر نمونه‌هایی از هر دو پاسخ نشان داده شده است:

فلش جمینی ۳.۵

{
  "steps": [
    {
      "type": "function_call",
      "name": "click",
      "arguments": {
        "x": 450,
        "y": 120,
        "intent": "Click the search box to type the destination."
      }
    }
  ]
}

جمینی ۲.۵ (لگسی)

{
  "steps": [
    {
      "type": "model_output",
      "content": [
        {
          "type": "text",
          "text": "I will type the search query into the search bar."
        }
      ]
    },
    {
      "type": "function_call",
      "name": "type_text_at",
      "arguments": {
        "x": 371,
        "y": 470,
        "text": "highly rated smart fridges",
        "press_enter": true
      }
    }
  ]
}

۳. اقدامات دریافتی را اجرا کنید

برنامه شما باید مختصات پاسخ را تجزیه کند، عمل را اجرا کند و آنها را از مختصات نرمال شده ۱۰۰۰x۱۰۰۰ مقیاس بندی کند.

کد زیر هم دستورات ابزار قدیمی ( click_at ، type_text_at ) و هم دستورات ساده‌شده‌ی Gemini 3.5 Flash ( click ، type ) را مدیریت می‌کند.

پایتون

from typing import Any, List, Tuple
import time

def denormalize_x(x: int, screen_width: int) -> int:
    """Convert normalized x coordinate (0-1000) to actual pixel coordinate."""
    return int(x / 1000 * screen_width)

def denormalize_y(y: int, screen_height: int) -> int:
    """Convert normalized y coordinate (0-1000) to actual pixel coordinate."""
    return int(y / 1000 * screen_height)

def execute_function_calls(interaction, page, screen_width, screen_height):
    results = []
    function_calls = [
        step for step in interaction.steps if step.type == "function_call"
    ]

    for function_call in function_calls:
        action_result = {}
        fname = function_call.name
        args = function_call.arguments
        print(f"  -> Executing: {fname} (Intent: {args.get('intent', 'N/A')})")

        try:
            if fname in ("open_web_browser", "open_app"):
                pass # Handled / already open
            elif fname in ("click", "click_at", "double_click", "triple_click", "middle_click", "right_click", "move", "long_press"):
                actual_x = denormalize_x(args["x"], screen_width)
                actual_y = denormalize_y(args["y"], screen_height)

                if fname in ("click", "click_at"):
                    page.mouse.click(actual_x, actual_y)
                elif fname == "double_click":
                    page.mouse.dblclick(actual_x, actual_y)
                elif fname == "right_click":
                    page.mouse.click(actual_x, actual_y, button="right")
                elif fname == "middle_click":
                    page.mouse.click(actual_x, actual_y, button="middle")
                elif fname == "move":
                    page.mouse.move(actual_x, actual_y)
            elif fname in ("type", "type_text_at"):
                actual_x = denormalize_x(args["x"], screen_width) if "x" in args else None
                actual_y = denormalize_y(args["y"], screen_height) if "y" in args else None
                text = args["text"]
                press_enter = args.get("press_enter", False)

                if actual_x is not None and actual_y is not None:
                    page.mouse.click(actual_x, actual_y)
                # Clear field first
                page.keyboard.press("Meta+A")
                page.keyboard.press("Backspace")
                page.keyboard.type(text)
                if press_enter:
                    page.keyboard.press("Enter")
            elif fname == "navigate":
                page.goto(args["url"])
            elif fname == "go_back":
                page.go_back()
            elif fname == "go_forward":
                page.go_forward()
            elif fname == "wait":
                time.sleep(args.get("seconds", 1))
            else:
                print(f"Warning: Custom or unhandled function {fname}")

            page.wait_for_load_state(timeout=5000)
            time.sleep(1)

        except Exception as e:
            print(f"Error executing {fname}: {e}")
            action_result = {"error": str(e)}

        results.append((fname, function_call.id, action_result))

    return results

جاوا اسکریپت

function denormalizeX(x, screenWidth) {
    // Convert normalized x coordinate (0-1000) to actual pixel coordinate.
    return Math.floor((x / 1000) * screenWidth);
}

function denormalizeY(y, screenHeight) {
    // Convert normalized y coordinate (0-1000) to actual pixel coordinate.
    return Math.floor((y / 1000) * screenHeight);
}

async function executeFunctionCalls(interaction, page, screenWidth, screenHeight) {
    const results = [];
    const functionCalls = interaction.steps.filter(step => step.type === "function_call");

    for (const functionCall of functionCalls) {
        const actionResult = {};
        const fname = functionCall.name;
        const args = functionCall.arguments;
        console.log(`  -> Executing: ${fname} (Intent: ${args.intent || 'N/A'})`);

        try {
            if (fname === "open_web_browser" || fname === "open_app") {
                // Handled / already open
            } else if (["click", "click_at", "double_click", "triple_click", "middle_click", "right_click", "move", "long_press"].includes(fname)) {
                const actualX = denormalizeX(args.x, screenWidth);
                const actualY = denormalizeY(args.y, screenHeight);

                if (fname === "click" || fname === "click_at") {
                    await page.mouse.click(actualX, actualY);
                } else if (fname === "double_click") {
                    await page.mouse.dblclick(actualX, actualY);
                } else if (fname === "right_click") {
                    await page.mouse.click(actualX, actualY, { button: "right" });
                } else if (fname === "middle_click") {
                    await page.mouse.click(actualX, actualY, { button: "middle" });
                } else if (fname === "move") {
                    await page.mouse.move(actualX, actualY);
                }
            } else if (fname === "type" || fname === "type_text_at") {
                const actualX = args.x !== undefined ? denormalizeX(args.x, screenWidth) : null;
                const actualY = args.y !== undefined ? denormalizeY(args.y, screenHeight) : null;
                const text = args.text;
                const pressEnter = args.press_enter || false;

                if (actualX !== null && actualY !== null) {
                    await page.mouse.click(actualX, actualY);
                }
                // Clear field first
                await page.keyboard.press("Meta+A");
                await page.keyboard.press("Backspace");
                await page.keyboard.type(text);
                if (pressEnter) {
                    await page.keyboard.press("Enter");
                }
            } else if (fname === "navigate") {
                await page.goto(args.url);
            } else if (fname === "go_back") {
                await page.goBack();
            } else if (fname === "go_forward") {
                await page.goForward();
            } else if (fname === "wait") {
                await new Promise(resolve => setTimeout(resolve, (args.seconds || 1) * 1000));
            } else {
                console.log(`Warning: Custom or unhandled function ${fname}`);
            }

            await page.waitForLoadState('load', { timeout: 5000 }).catch(() => {});
            await new Promise(resolve => setTimeout(resolve, 1000));
        } catch (e) {
            console.log(`Error executing ${fname}: ${e}`);
            actionResult.error = e.message;
        }

        results.push([fname, functionCall.id, actionResult]);
    }

    return results;
}

۴. ثبت وضعیت جدید محیط

پس از اجرای اقدامات، نتیجه اجرای تابع را به مدل ارسال کنید تا بتواند از این اطلاعات برای تولید اقدام بعدی استفاده کند. اگر چندین اقدام (فراخوانی‌های موازی) اجرا شده باشد، باید برای هر یک از آنها در نوبت بعدی کاربر، یک function_result ارسال کنید.

پایتون

import json
import base64

def get_function_responses(page, results):
    screenshot_bytes = page.screenshot(type="png")
    current_url = page.url
    function_responses = []
    for name, call_id, result in results:
        function_responses.append({
            "type": "function_result",
            "name": name,
            "call_id": call_id,
            "result": [
                {
                    "type": "text",
                    "text": json.dumps({"url": current_url, **result})
                },
                {
                    "type": "image",
                    "data": base64.b64encode(screenshot_bytes).decode("utf-8"),
                    "mime_type": "image/png"
                }
            ]
        })
    return function_responses

جاوا اسکریپت

async function getFunctionResponses(page, results) {
    const screenshotBuffer = await page.screenshot({ type: 'png' });
    const screenshotBase64 = screenshotBuffer.toString('base64');
    const currentUrl = page.url();
    const functionResponses = [];

    for (const [name, callId, result] of results) {
        functionResponses.push({
            type: "function_result",
            name: name,
            call_id: callId,
            result: [
                {
                    type: "text",
                    text: JSON.stringify({ url: currentUrl, ...result })
                },
                {
                    type: "image",
                    data: screenshotBase64,
                    mime_type: "image/png"
                }
            ]
        });
    }
    return functionResponses;
}

پس از اینکه نحوه ثبت و قالب‌بندی وضعیت محیط را تعریف کردید، می‌توانید تمام این مراحل را در یک حلقه اجرای پیوسته ترکیب کنید.

یک حلقه عامل بسازید

برای فعال کردن تعاملات چند مرحله‌ای، چهار مرحله از بخش «نحوه پیاده‌سازی استفاده از کامپیوتر» را در یک حلقه واحد ترکیب کنید. این حلقه به درخواست اقدامات و ارسال نتایج به مدل ادامه می‌دهد تا زمانی که وظیفه تکمیل شود.

به یاد داشته باشید که تاریخچه مکالمات را به درستی مدیریت کنید، به این صورت که در هر مرحله، هم پاسخ‌های مدل و هم پاسخ‌های تابع خود را به تاریخچه اضافه کنید.

پایتون

import time
from typing import Any, List, Tuple
from playwright.sync_api import sync_playwright

from google import genai

client = genai.Client()

# Constants for screen dimensions
SCREEN_WIDTH = 1440
SCREEN_HEIGHT = 900

# Setup Playwright
print("Initializing browser...")
playwright = sync_playwright().start()
browser = playwright.chromium.launch(headless=False)
context = browser.new_context(viewport={"width": SCREEN_WIDTH, "height": SCREEN_HEIGHT})
page = context.new_page()

# Define helper functions. Copy/paste from steps 3 and 4
# def denormalize_x(...)
# def denormalize_y(...)
# def execute_function_calls(...)
# def get_function_responses(...)

try:
    # Go to initial page
    page.goto("https://ai.google.dev/gemini-api/docs")

    # Take initial screenshot
    initial_screenshot = page.screenshot(type="png")
    USER_PROMPT = "Go to ai.google.dev/gemini-api/docs and search for pricing."
    print(f"Goal: {USER_PROMPT}")

    # First interaction
    interaction = client.interactions.create(
        model='gemini-3.5-flash',
        input=[
            {"type": "text", "text": USER_PROMPT},
            {"type": "image", "data": base64.b64encode(initial_screenshot).decode("utf-8"), "mime_type": "image/png"}
        ],
        tools=[{
            "type": "computer_use",
            "environment": "browser",
            "enable_prompt_injection_detection": True
        }]
    )

    # Agent Loop
    turn_limit = 5
    for i in range(turn_limit):
        print(f"\n--- Turn {i+1} ---")

        has_function_calls = any(
            step.type == "function_call"
            for step in interaction.steps
        )
        if not has_function_calls:
            text_response = " ".join([
                content_block.text for step in interaction.steps if step.type == "model_output"
                for content_block in step.content if content_block.type == "text"
            ])
            print("Agent finished:", text_response)
            break

        print("Executing actions...")
        results = execute_function_calls(interaction, page, SCREEN_WIDTH, SCREEN_HEIGHT)

        print("Capturing state...")
        function_responses = get_function_responses(page, results)

        # Continue conversation with function responses
        interaction = client.interactions.create(
            model='gemini-3.5-flash',
            previous_interaction_id=interaction.id,
            input=function_responses,
            tools=[{
                "type": "computer_use",
                "environment": "browser",
                "enable_prompt_injection_detection": True
            }]
        )

finally:
    # Cleanup
    print("\nClosing browser...")
    browser.close()
    playwright.stop()

جاوا اسکریپت

import { chromium } from 'playwright';
import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI();

// Constants for screen dimensions
const SCREEN_WIDTH = 1440;
const SCREEN_HEIGHT = 900;

console.log("Initializing browser...");
const browser = await chromium.launch({ headless: false });
const context = await browser.newContext({
    viewport: { width: SCREEN_WIDTH, height: SCREEN_HEIGHT }
});
const page = await context.newPage();

// Define helper functions. Copy/paste from steps 3 and 4:
// function denormalizeX(...)
// function denormalizeY(...)
// async function executeFunctionCalls(...)
// async function getFunctionResponses(...)

try {
    // Go to initial page
    await page.goto("https://ai.google.dev/gemini-api/docs");

    // Take initial screenshot
    const initialScreenshotBuffer = await page.screenshot({ type: 'png' });
    const initialScreenshotBase64 = initialScreenshotBuffer.toString('base64');
    const USER_PROMPT = "Go to ai.google.dev/gemini-api/docs and search for pricing.";
    console.log(`Goal: ${USER_PROMPT}`);

    // First interaction
    let interaction = await ai.interactions.create({
        model: 'gemini-3.5-flash',
        input: [
            { type: 'text', text: USER_PROMPT },
            { type: 'image', data: initialScreenshotBase64, mime_type: 'image/png' }
        ],
        tools: [{
            type: 'computer_use',
            environment: 'browser',
            enable_prompt_injection_detection: true
        }]
    });

    // Agent Loop
    const turnLimit = 5;
    for (let i = 0; i < turnLimit; i++) {
        console.log(`\n--- Turn ${i + 1} ---`);

        const hasFunctionCalls = interaction.steps.some(step => step.type === "function_call");
        if (!hasFunctionCalls) {
            const textResponses = [];
            for (const step of interaction.steps) {
                if (step.type === "model_output") {
                    for (const contentBlock of step.content || []) {
                        if (contentBlock.type === "text") {
                            textResponses.push(contentBlock.text);
                        }
                    }
                }
            }
            console.log("Agent finished:", textResponses.join(" "));
            break;
        }

        console.log("Executing actions...");
        const results = await executeFunctionCalls(interaction, page, SCREEN_WIDTH, SCREEN_HEIGHT);

        console.log("Capturing state...");
        const functionResponses = await getFunctionResponses(page, results);

        // Continue conversation with function responses
        interaction = await ai.interactions.create({
            model: 'gemini-3.5-flash',
            previous_interaction_id: interaction.id,
            input: functionResponses,
            tools: [{
                type: 'computer_use',
                environment: 'browser',
                enable_prompt_injection_detection: true
            }]
        });
    }
} finally {
    // Cleanup
    console.log("\nClosing browser...");
    await browser.close();
}

محیط‌های پشتیبانی‌شده (Gemini 3.5 Flash)

فلش Gemini 3.5 از سه محیط مشخص شده در تنظیمات computer_use پشتیبانی می‌کند:

محیط مرورگر ( ENVIRONMENT_BROWSER )

اقدامات موجود در ابزار مرورگر:

نام فرمان توضیحات آرگومان‌ها (در فراخوانی تابع)
کلیک کلیک چپ در مختصات. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
intent : خیابان
دوبار_کلیک روی مختصات دوبار کلیک کنید. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
intent : خیابان
کلیک سه‌تایی سه بار کلیک در مختصات. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
intent : خیابان
کلیک_وسط کلیک‌های میانی در مختصات. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
intent : خیابان
کلیک راست کلیک راست روی مختصات. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
intent : خیابان
mouse_down دکمه ماوس را در مختصات فشار داده و نگه می‌دارد. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
intent : خیابان
mouse_up دکمه ماوس را در مختصات رها می‌کند. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
intent : خیابان
حرکت مکان نما را به موقعیت مشخص شده منتقل می کند. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
intent : خیابان
نوع متن را تایپ می‌کند. text : خیابان
press_enter : bool (اختیاری، پیش‌فرض false )
intent : خیابان
کشیدن و رها کردن یک آیتم را از مختصات شروع به مختصات پایان می‌کشد. start_y : عدد صحیح (0-999)
start_x : عدد صحیح (0-999)
end_y : عدد صحیح (0-999)
end_x : عدد صحیح (0-999)
intent : خیابان
صبر کن اجرا را برای مدت زمان مشخصی (بر حسب ثانیه) متوقف می‌کند. seconds : عدد صحیح (اختیاری، پیش‌فرض 1 )
intent : خیابان
کلید_فشاری کلید مشخص شده را فشار داده و رها می‌کند. key : خیابان
intent : خیابان
کلید_پایین کلید مشخص شده را فشار داده و نگه می‌دارد. key : خیابان
intent : خیابان
کلید_بالا کلید مشخص شده را آزاد می‌کند. key : خیابان
intent : خیابان
کلید میانبر ترکیب کلید مشخص شده را فشار می‌دهد. keys : List[str]
intent : str
گرفتن_اسکرین_شات یک اسکرین‌شات از صفحه نمایش فعلی برمی‌گرداند. intent : خیابان
اسکرول با فاصله پیکسلی، به بالا، پایین، چپ یا راست پیمایش می‌کند. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
direction : str ( "up" ، "down" ، "left" ، "right" )
magnitude_in_pixels : عدد صحیح (0-999، اختیاری، پیش‌فرض 300 )
intent : خیابان
برو_برگشت به صفحه وب قبلی در تاریخچه مرورگر برمی‌گردد. intent : خیابان
پیمایش مستقیماً به یک URL مشخص شده هدایت می‌شود. url : خیابان
intent : خیابان
برو_به_جلو به صفحه وب بعدی در تاریخچه مرورگر می‌رود. intent : خیابان

محیط موبایل ( ENVIRONMENT_MOBILE )

اقدامات محیطی بهینه شده برای اندروید:

نام فرمان توضیحات آرگومان‌ها (در فراخوانی تابع)
باز_برنامه یک برنامه را با استفاده از نام آن باز می‌کند. app_name : str
intent : خیابان
کلیک کلیک چپ در مختصات. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
intent : خیابان
لیست_اپلیکیشن‌ها برنامه‌های موجود روی دستگاه را فهرست می‌کند و نام و نام بسته‌ی آن‌ها را برمی‌گرداند. intent : خیابان
صبر کن اجرا را برای مدت زمان مشخصی (بر حسب ثانیه) متوقف می‌کند. seconds : عدد صحیح (اختیاری، پیش‌فرض 1 )
intent : خیابان
برو_برگشت به صفحه یا صفحه وب قبلی برمی‌گردد. intent : خیابان
نوع متن را تایپ می‌کند. text : خیابان
press_enter : bool (اختیاری، پیش‌فرض false )
intent : خیابان
کشیدن و رها کردن یک آیتم را از مختصات شروع به مختصات پایان می‌کشد. start_y : عدد صحیح (0-999)
start_x : عدد صحیح (0-999)
end_y : عدد صحیح (0-999)
end_x : عدد صحیح (0-999)
intent : خیابان
فشار طولانی یک فشار طولانی روی یک مختصات روی صفحه انجام می‌دهد. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
seconds : عدد صحیح (اختیاری، پیش‌فرض 2 )
intent : خیابان
کلید_فشاری کلید مشخص شده را فشار داده و رها می‌کند. key : خیابان
intent : خیابان
گرفتن_اسکرین_شات یک اسکرین‌شات از صفحه نمایش فعلی برمی‌گرداند. intent : خیابان

محیط دسکتاپ ( ENVIRONMENT_DESKTOP )

دستورات مکان‌نما در سطح سیستم‌عامل در محیط‌های دسکتاپ:

نام فرمان توضیحات آرگومان‌ها (در فراخوانی تابع)
کلیک کلیک چپ در مختصات. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
intent : خیابان
دوبار_کلیک روی مختصات دوبار کلیک کنید. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
intent : خیابان
کلیک سه‌تایی سه بار کلیک در مختصات. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
intent : خیابان
کلیک_وسط کلیک‌های میانی در مختصات. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
intent : خیابان
کلیک راست کلیک راست روی مختصات. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
intent : خیابان
mouse_down دکمه ماوس را در مختصات فشار داده و نگه می‌دارد. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
intent : خیابان
mouse_up دکمه ماوس را در مختصات رها می‌کند. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
intent : خیابان
حرکت مکان نما را به موقعیت مشخص شده منتقل می کند. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
intent : خیابان
نوع متن را تایپ می‌کند. text : خیابان
press_enter : bool (اختیاری، پیش‌فرض false )
intent : خیابان
کشیدن و رها کردن یک آیتم را از مختصات شروع به مختصات پایان می‌کشد. start_y : عدد صحیح (0-999)
start_x : عدد صحیح (0-999)
end_y : عدد صحیح (0-999)
end_x : عدد صحیح (0-999)
intent : خیابان
صبر کن اجرا را برای مدت زمان مشخصی (بر حسب ثانیه) متوقف می‌کند. seconds : عدد صحیح (اختیاری، پیش‌فرض 1 )
intent : خیابان
کلید_فشاری کلید مشخص شده را فشار داده و رها می‌کند. key : خیابان
intent : خیابان
کلید_پایین کلید مشخص شده را فشار داده و نگه می‌دارد. key : خیابان
intent : خیابان
کلید_بالا کلید مشخص شده را آزاد می‌کند. key : خیابان
intent : خیابان
کلید میانبر ترکیب کلید مشخص شده را فشار می‌دهد. keys : List[str]
intent : str
گرفتن_اسکرین_شات یک اسکرین‌شات از صفحه نمایش فعلی برمی‌گرداند. intent : خیابان
اسکرول با فاصله پیکسلی، به بالا، پایین، چپ یا راست پیمایش می‌کند. y : عدد صحیح (0-999)
x : عدد صحیح (0-999)
direction : str ( "up" ، "down" ، "left" ، "right" )
magnitude_in_pixels : عدد صحیح (0-999، اختیاری، پیش‌فرض 300 )
intent : خیابان

اقدامات رابط کاربری قدیمی پشتیبانی شده (Gemini 2.5)

برای مدل‌های قدیمی ( gemini-2.5-computer-use-preview-10-2025 )، اقدامات زیر پشتیبانی می‌شوند:

نام فرمان توضیحات آرگومان‌ها (در فراخوانی تابع) مثال فراخوانی تابع
مرورگر وب را باز کنید مرورگر وب را باز می‌کند. هیچکدام {"name": "open_web_browser", "arguments": {}}
صبر_5_ثانیه اجرا را به مدت ۵ ثانیه متوقف می‌کند. هیچکدام {"name": "wait_5_seconds", "arguments": {}}
برو_برگشت به صفحه قبلی در تاریخچه می‌رود. هیچکدام {"name": "go_back", "arguments": {}}
برو_به_جلو به صفحه بعدی در تاریخچه می‌رود. هیچکدام {"name": "go_forward", "arguments": {}}
جستجو به موتور جستجوی پیش‌فرض هدایت می‌شود. هیچکدام {"name": "search", "arguments": {}}
پیمایش مرورگر را مستقیماً به آدرس اینترنتی مشخص شده هدایت می‌کند. url : خیابان {"name": "navigate", "arguments": {"url": "https://www.wikipedia.org"}}
کلیک_در کلیک‌ها در یک مختصات خاص. y : عدد صحیح (0-999) ، x : عدد صحیح (0-999) {"name": "click_at", "arguments": {"y": 300, "x": 500}}
hover_at ماوس را روی یک مختصات خاص نگه می‌دارد. y : عدد صحیح (0-999) ، x : عدد صحیح (0-999) {"name": "hover_at", "arguments": {"y": 150, "x": 250}}
type_text_at متن را در یک مختصات تایپ می‌کند. y : عدد صحیح (0-999)، x : عدد صحیح (0-999)، text : رشته، press_enter : عدد صحیح (اختیاری، پیش‌فرض صحیح)، clear_before_typing : عدد صحیح (اختیاری، پیش‌فرض صحیح) {"name": "type_text_at", "arguments": {"y": 250, "x": 400, "text": "search", "press_enter": false}}
ترکیب_کلید کلیدها یا ترکیبی از کلیدها را فشار دهید. keys : خیابان {"name": "key_combination", "arguments": {"keys": "Control+A"}}
scroll_document کل صفحه وب را پیمایش می‌کند. direction : خیابان {"name": "scroll_document", "arguments": {"direction": "down"}}
scroll_at در مختصات (x,y) اسکرول می‌کند. y : عدد صحیح، x : عدد صحیح، direction : عدد اعشاری، magnitude : عدد صحیح (اختیاری، پیش‌فرض ۸۰۰) {"name": "scroll_at", "arguments": {"y": 500, "x": 500, "direction": "down"}}
کشیدن و رها کردن بین دو مختصات جابجا می‌شود. y : عدد صحیح، x : عدد صحیح، destination_y : عدد صحیح، destination_x : عدد صحیح {"name": "drag_and_drop", "arguments": {"y": 100, "destination_y": 500, "destination_x": 500, "x": 100}}

توابع سفارشی تعریف شده توسط کاربر

شما می‌توانید با اضافه کردن توابع سفارشی تعریف‌شده توسط کاربر، عملکرد مدل را گسترش دهید. برای مثال، در سناریوهای انسان در حلقه (HITL) می‌توانید اقدامات از پیش تعریف‌شده پیش‌فرض را حذف کرده و اقدامات سفارشی را ثبت کنید.

ابزار سفارشی فلش Gemini 3.5

پایتون

اقدامات استاندارد و از پیش تعریف شده مرورگر (مانند click ) را حذف کنید و یک ابزار yield_to_user سفارشی ثبت کنید:

from google import genai

client = genai.Client()

yield_to_user_tool = {
    "type": "function",
    "name": "yield_to_user",
    "description": "Yields control back to the user for assistance or verification when an automated action is unsafe or ambiguous.",
    "parameters": {
        "type": "object",
        "properties": {
            "reason": {
                "type": "string",
                "description": "The reason why the agent is yielding control to the human."
            }
        },
        "required": ["reason"]
    }
}

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Click the submit button. If you need a second factor authentication code, ask me.",
    tools=[
        {
            "type": "computer_use",
            "environment": "mobile",
            "excluded_predefined_functions": ["click"]
        },
        yield_to_user_tool
    ]
)

جاوا اسکریپت

اقدامات استاندارد و از پیش تعریف شده مرورگر (مانند click ) را حذف کنید و یک ابزار yield_to_user سفارشی ثبت کنید:

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI();

const yieldToUserTool = {
    type: "function",
    name: "yield_to_user",
    description: "Yields control back to the user for assistance or verification when an automated action is unsafe or ambiguous.",
    parameters: {
        type: "object",
        properties: {
            reason: {
                type: "string",
                description: "The reason why the agent is yielding control to the human."
            }
        },
        required: ["reason"]
    }
};

const interaction = await ai.interactions.create({
    model: "gemini-3.5-flash",
    input: "Click the submit button. If you need a second factor authentication code, ask me.",
    tools: [
        {
            type: "computer_use",
            environment: "mobile",
            excluded_predefined_functions: ["click"]
        },
        yieldToUserTool
    ]
});

ابزارهای سفارشی Gemini 2.5 (Legacy)

پایتون

from google import genai

client = genai.Client()

# Define custom tools here
custom_functions = [...]  # Describe parameters as function declarations

excluded_functions = [
    "open_web_browser",
    "wait_5_seconds",
    "go_back",
    "go_forward",
    "search",
    "navigate",
    "hover_at",
    "scroll_document",
    "key_combination",
    "drag_and_drop",
]

interaction = client.interactions.create(
    model='gemini-2.5-computer-use-preview-10-2025',
    input="Open Chrome, then long-press at 200,400.",
    tools=[
        {
            "type": "computer_use",
            "environment": "browser",
            "excluded_predefined_functions": excluded_functions
        },
        *custom_functions
    ]
)

print(interaction)

جاوا اسکریپت

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI();

// Define custom tools here
const customFunctions = [...]; // Describe parameters as function declarations

const excludedFunctions = [
    "open_web_browser",
    "wait_5_seconds",
    "go_back",
    "go_forward",
    "search",
    "navigate",
    "hover_at",
    "scroll_document",
    "key_combination",
    "drag_and_drop",
];

const interaction = await ai.interactions.create({
    model: 'gemini-2.5-computer-use-preview-10-2025',
    input: "Open Chrome, then long-press at 200,400.",
    tools: [
        {
            type: "computer_use",
            environment: "browser",
            excluded_predefined_functions: excludedFunctions
        },
        ...customFunctions
    ]
});

console.log(interaction);

مدیریت سطوح تفکر (Gemini 3.5 Flash)

برای عامل‌های کاربری کامپیوتر، می‌توانید سطوح تفکر مختلفی را پیکربندی کنید تا کیفیت عمل و سرعت اجرا را متعادل کنید. سطوح تفکر پایین‌تر معمولاً تعادل خوبی را برای وظایف استاندارد اتوماسیون ایجاد می‌کنند.

ایمنی و امنیت

پیکربندی سیاست‌های ایمنی (Gemini 3.5 Flash)

مدل Gemini 3.5 Flash شامل یک دسته‌بندی خدمات ایمنی داخلی است که به طور خودکار تعیین می‌کند که آیا تأیید کاربر لازم است یا خیر.

دسته بندی سیاست ایمنی توضیحات
FINANCIAL_TRANSACTIONS تأیید اقدامات مربوط به پرداخت‌ها، تسویه حساب خرده‌فروشی یا کالاهای تحت نظارت را مسدود یا فعال می‌کند.
SENSITIVE_DATA_MODIFICATION از سوابق بهداشتی، مالی یا دولتی در برابر تغییرات غیرمجاز محافظت می‌کند.
COMMUNICATION_TOOL عامل را از ارسال خودکار ایمیل، پیام‌های چت یا پیش‌نویس‌ها محدود می‌کند.
ACCOUNT_CREATION عامل را از ثبت خودکار حساب‌های جدید در وب‌سایت‌ها محدود می‌کند.
DATA_MODIFICATION تغییرات کلی سیستم فایل، اشتراک‌گذاری داده‌ها و حذف فضای ذخیره‌سازی را تنظیم می‌کند.
USER_CONSENT_MANAGEMENT برای بنرهای رضایت کوکی و درخواست‌های حریم خصوصی، نیاز به تصاحب کاربر دارد.
LEGAL_TERMS_AND_AGREEMENTS مانع از پذیرش خودکار شرایط خدمات یا قراردادهای الزام‌آور قانونی توسط مدل می‌شود.

ایمنی نادیده گرفته می‌شود

شما می‌توانید با ارسال overrideها، سیاست‌های select را لغو کنید:

پایتون

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Clean up the local folder by archiving old logs.",
    tools=[
        {
            "type": "computer_use",
            "environment": "desktop",
            "safety_policy_overrides": [
                {"category": "DATA_MODIFICATION"}
            ]
        }
    ]
)

جاوا اسکریپت

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI();

const interaction = await ai.interactions.create({
    model: "gemini-3.5-flash",
    input: "Clean up the local folder by archiving old logs.",
    tools: [
        {
            type: "computer_use",
            environment: "desktop",
            safety_policy_overrides: [
                { category: "DATA_MODIFICATION" }
            ]
        }
    ]
});

تشخیص سریع تزریق (Gemini 3.5 Flash)

مکانیزم ایمنی انتخابی که پیکسل‌های اسکرین‌شات را برای یافتن دستورالعمل‌های مخفی خصمانه (مثلاً «دستورات قبلی را نادیده بگیر») اسکن می‌کند و در صورت شناسایی، اجرا را مسدود می‌کند.

تأیید تصمیم ایمنی (Gemini 2.5 Legacy)

برای مدل‌های قدیمی، پاسخ ممکن است شامل پارامتر safety_decision باشد:

{
  "steps": [
    {
      "type": "function_call",
      "name": "click_at",
      "arguments": {
        "x": 60,
        "y": 100,
        "safety_decision": {
          "explanation": "Must check check-box",
          "decision": "require_confirmation"
        }
      }
    }
  ]
}

اگر safety_decision require_confirmation باشد، به کاربر نهایی اطلاع دهید. اگر کاربر تأیید کرد، safety_acknowledgement در function_result تنظیم کنید.

پایتون

def get_safety_confirmation(safety_decision):
    # Prompt user
    return "CONTINUE" # Or TERMINATE

# Inside execute_function_calls:
if 'safety_decision' in function_call.arguments:
    decision = get_safety_confirmation(function_call.arguments['safety_decision'])
    if decision == "TERMINATE":
        break
    extra_fr_fields["safety_acknowledgement"] = True

بهترین شیوه‌های ایمنی

استفاده از کامپیوتر خطرات امنیتی و عملیاتی منحصر به فردی را به همراه دارد، زیرا مدلی که از طرف کاربر عمل می‌کند ممکن است با محتوای غیرقابل اعتماد روی صفحه نمایش مواجه شود یا در اجرای اقدامات اشتباه کند. بهترین شیوه‌های زیر را برای محافظت از داده‌ها و سیستم‌های کاربر اجرا کنید:

  1. انسان در حلقه (HITL):

    • اجرای تأیید کاربر: هنگامی که پاسخ ایمنی نشان‌دهنده‌ی require_confirmation است (یا تصمیم ایمنی قدیمی آن را الزامی می‌داند)، از کاربر درخواست تأیید کنید.
    • دستورالعمل‌های ایمنی سفارشی ارائه دهید: یک دستورالعمل سیستمی سفارشی برای تعریف و اجرای مرزهای ایمنی خود پیاده‌سازی کنید. به عنوان مثال:

      پایتون

      from google import genai
      
      client = genai.Client()
      
      system_instruction = """
      ## **RULE 1: Seek User Confirmation (USER_CONFIRMATION)**
      
      This is your first and most important check. If the next required action falls
      into any of the following categories, you MUST stop immediately, and seek the
      user's explicit permission.
      
      **Procedure for Seeking Confirmation:**
      * **For Consequential Actions:** Perform all preparatory steps (e.g., navigating,
        filling out forms, typing a message). You will ask for confirmation **AFTER**
        all necessary information is entered on the screen, but **BEFORE** you perform
        the final, irreversible action (e.g., before clicking "Send", "Submit",
        "Confirm Purchase", "Share").
      * **For Prohibited Actions:** If the action is strictly forbidden (e.g., accepting
        legal terms, solving a CAPTCHA), you must first inform the user about the
        required action and ask for their confirmation to proceed.
      
      **USER_CONFIRMATION Categories:**
      
      *   **Consent and Agreements:** You are FORBIDDEN from accepting, selecting, or
          agreeing to any of the following on the user's behalf. You must ask the
          user to confirm before performing these actions.
          *   Terms of Service
          *   Privacy Policies
          *   Cookie consent banners
          *   End User License Agreements (EULAs)
          *   Any other legally significant contracts or agreements.
      *   **Robot Detection:** You MUST NEVER attempt to solve or bypass the
          following. You must ask the user to confirm before performing these actions.
          *   CAPTCHAs (of any kind)
          *   Any other anti-robot or human-verification mechanisms, even if you are
              capable.
      *   **Financial Transactions:**
          *   Completing any purchase.
          *   Managing or moving money (e.g., transfers, payments).
          *   Purchasing regulated goods or participating in gambling.
      *   **Sending Communications:**
          *   Sending emails.
          *   Sending messages on any platform (e.g., social media, chat apps).
          *   Posting content on social media or forums.
      *   **Accessing or Modifying Sensitive Information:**
          *   Health, financial, or government records (e.g., medical history, tax
              forms, passport status).
          *   Revealing or modifying sensitive personal identifiers (e.g., SSN, bank
              account number, credit card number).
      *   **User Data Management:**
          *   Accessing, downloading, or saving files from the web.
          *   Sharing or sending files/data to any third party.
          *   Transferring user data between systems.
      *   **Browser Data Usage:**
          *   Accessing or managing Chrome browsing history, bookmarks, autofill data,
              or saved passwords.
      *   **Security and Identity:**
          *   Logging into any user account.
          *   Any action that involves misrepresentation or impersonation (e.g.,
              creating a fan account, posting as someone else).
      *   **Insurmountable Obstacles:** If you are technically unable to interact with
          a user interface element or are stuck in a loop you cannot resolve, ask the
          user to take over.
      ---
      
      ## **RULE 2: Default Behavior (ACTUATE)**
      
      If an action does **NOT** fall under the conditions for `USER_CONFIRMATION`,
      your default behavior is to **Actuate**.
      
      **Actuation Means:**  You MUST proactively perform all necessary steps to move
      the user's request forward. Continue to actuate until you either complete the
      non-consequential task or encounter a condition defined in Rule 1.
      
      *   **Example 1:** If asked to send money, you will navigate to the payment
          portal, enter the recipient's details, and enter the amount. You will then
          **STOP** as per Rule 1 and ask for confirmation before clicking the final
          "Send" button.
      *   **Example 2:** If asked to post a message, you will navigate to the site,
          open the post composition window, and write the full message. You will then
          **STOP** as per Rule 1 and ask for confirmation before clicking the final
          "Post" button.
      
          After the user has confirmed, remember to get the user's latest screen
          before continuing to perform actions.
      
      # Final Response Guidelines:
      Write final response to the user in the following cases:
      - User confirmation
      - When the task is complete or you have enough information to respond to the user
      """
      
      interaction = client.interactions.create(
          model="gemini-3.5-flash",
          system_instruction=system_instruction,
          input="Prepare a draft but do not send.",
          tools=[{
              "type": "computer_use",
              "environment": "browser"
          }]
      )
      

      جاوا اسکریپت

      import { GoogleGenAI } from '@google/genai';
      
      const ai = new GoogleGenAI();
      
      const systemInstruction = `
      ## **RULE 1: Seek User Confirmation (USER_CONFIRMATION)**
      
      This is your first and most important check. If the next required action falls
      into any of the following categories, you MUST stop immediately, and seek the
      user's explicit permission.
      
      **Procedure for Seeking Confirmation:**
      * **For Consequential Actions:** Perform all preparatory steps (e.g., navigating,
        filling out forms, typing a message). You will ask for confirmation **AFTER**
        all necessary information is entered on the screen, but **BEFORE** you perform
        the final, irreversible action (e.g., before clicking "Send", "Submit",
        "Confirm Purchase", "Share").
      * **For Prohibited Actions:** If the action is strictly forbidden (e.g., accepting
        legal terms, solving a CAPTCHA), you must first inform the user about the
        required action and ask for their confirmation to proceed.
      
      **USER_CONFIRMATION Categories:**
      
      *   **Consent and Agreements:** You are FORBIDDEN from accepting, selecting, or
          agreeing to any of the following on the user's behalf. You must ask the
          user to confirm before performing these actions.
          *   Terms of Service
          *   Privacy Policies
          *   Cookie consent banners
          *   End User License Agreements (EULAs)
          *   Any other legally significant contracts or agreements.
      *   **Robot Detection:** You MUST NEVER attempt to solve or bypass the
          following. You must ask the user to confirm before performing these actions.
          *   CAPTCHAs (of any kind)
          *   Any other anti-robot or human-verification mechanisms, even if you are
              capable.
      *   **Financial Transactions:**
          *   Completing any purchase.
          *   Managing or moving money (e.g., transfers, payments).
          *   Purchasing regulated goods or participating in gambling.
      *   **Sending Communications:**
          *   Sending emails.
          *   Sending messages on any platform (e.g., social media, chat apps).
          *   Posting content on social media or forums.
      *   **Accessing or Modifying Sensitive Information:**
          *   Health, financial, or government records (e.g., medical history, tax
              forms, passport status).
          *   Revealing or modifying sensitive personal identifiers (e.g., SSN, bank
              account number, credit card number).
      *   **User Data Management:**
          *   Accessing, downloading, or saving files from the web.
          *   Sharing or sending files/data to any third party.
          *   Transferring user data between systems.
      *   **Browser Data Usage:**
          *   Accessing or managing Chrome browsing history, bookmarks, autofill data,
              or saved passwords.
      *   **Security and Identity:**
          *   Logging into any user account.
          *   Any action that involves misrepresentation or impersonation (e.g.,
              creating a fan account, posting as someone else).
      *   **Insurmountable Obstacles:** If you are technically unable to interact with
          a user interface element or are stuck in a loop you cannot resolve, ask the
          user to take over.
      ---
      
      ## **RULE 2: Default Behavior (ACTUATE)**
      
      If an action does **NOT** fall under the conditions for `USER_CONFIRMATION`,
      your default behavior is to **Actuate**.
      
      **Actuation Means:**  You MUST proactively perform all necessary steps to move
      the user's request forward. Continue to actuate until you either complete the
      non-consequential task or encounter a condition defined in Rule 1.
      
      *   **Example 1:** If asked to send money, you will navigate to the payment
          portal, enter the recipient's details, and enter the amount. You will then
          **STOP** as per Rule 1 and ask for confirmation before clicking the final
          "Send" button.
      *   **Example 2:** If asked to post a message, you will navigate to the site,
          open the post composition window, and write the full message. You will then
          **STOP** as per Rule 1 and ask for confirmation before clicking the final
          "Post" button.
      
          After the user has confirmed, remember to get the user's latest screen
          before continuing to perform actions.
      
      # Final Response Guidelines:
      Write final response to the user in the following cases:
      - User confirmation
      - When the task is complete or you have enough information to respond to the user
      `;
      
      const interaction = await ai.interactions.create({
          model: "gemini-3.5-flash",
          system_instruction: systemInstruction,
          input: "Prepare a draft but do not send.",
          tools: [{
              type: "computer_use",
              environment: "browser"
          }]
      });
      
  2. محیط اجرای امن: عامل خود را در یک محیط امن و محافظت‌شده اجرا کنید تا تأثیر بالقوه آن را محدود کنید. این می‌تواند یک ماشین مجازی (VM) محافظت‌شده، یک کانتینر (مثلاً داکر) یا یک پروفایل مرورگر اختصاصی با مجوزهای محدود باشد. برای راهنمایی راه‌اندازی محافظت‌شده با استفاده از داکر، به پیاده‌سازی مرجع گیت‌هاب مراجعه کنید.

  3. پاکسازی ورودی: تمام متن‌های تولید شده توسط کاربر در اعلان‌ها را پاکسازی کنید تا خطر دستورالعمل‌های ناخواسته یا تزریق اعلان را کاهش دهید. این یک لایه امنیتی مفید است، اما جایگزینی برای یک محیط اجرای امن نیست.

  4. محافظان محتوا: از محافظان و APIهای ایمنی محتوا برای ارزیابی ورودی‌های کاربر، ورودی‌ها و خروجی‌های ابزار و پاسخ‌های عامل برای مناسب بودن، تزریق سریع و تشخیص فرار از زندان استفاده کنید.

  5. لیست‌های مجاز و لیست‌های مسدود: مکانیزم‌های فیلترینگ را برای کنترل اینکه مدل کجا می‌تواند پیمایش کند و چه کاری می‌تواند انجام دهد، پیاده‌سازی کنید. یک لیست مسدود از وب‌سایت‌های ممنوعه نقطه شروع خوبی است، در حالی که یک لیست مجاز محدودتر، حتی امن‌تر نیز هست.

  6. قابلیت مشاهده و ثبت وقایع: گزارش‌های دقیقی را برای اشکال‌زدایی، حسابرسی و پاسخ به حوادث نگهداری کنید. کلاینت شما باید اعلان‌ها، تصاویر، اقدامات پیشنهادی مدل ( function_call )، پاسخ‌های ایمنی و تمام اقداماتی که در نهایت توسط کلاینت اجرا می‌شوند را ثبت کند.

  7. مدیریت محیط: اطمینان حاصل کنید که محیط رابط کاربری گرافیکی (GUI) سازگار است. پنجره‌های بازشو، اعلان‌ها یا تغییرات غیرمنتظره در طرح‌بندی می‌تواند مدل را گیج کند. در صورت امکان، برای هر کار جدید از یک حالت شناخته شده و تمیز شروع کنید.

نسخه‌های مدل

شما می‌توانید از Computer Use با مدل‌های زیر استفاده کنید:

  • Gemini 3.5 Flash ( gemini-3.5-flash ): مدل پیشنهادی برای استفاده در کامپیوتر، شامل اقدامات ساده با اهداف، پشتیبانی از محیط‌های مرورگر، موبایل و دسکتاپ، سیاست‌های ایمنی قابل تنظیم و تشخیص سریع تزریق.
  • پیش‌نمایش Gemini 3 Flash ( gemini-3-flash-preview ): مدل پیش‌نمایش که از استفاده در کامپیوتر پشتیبانی می‌کند.
  • Gemini 2.5 (پیش‌نمایش قدیمی) ( gemini-2.5-computer-use-preview-10-2025 ): مدل پیش‌نمایش قدیمی که برای استفاده از کامپیوتر مبتنی بر مرورگر بهینه شده است.

قدم بعدی چیست؟