股票配资查询平台而是通过模拟人类的使用行为

Google近日公开预览全新AI模型Gemini 2.5 Computer Use，主打一项突破性功能：不只看得懂画面、理解需求，更能主动“动手操作UI”，像人类一样在网页或App上点击、输入与滑动。

在多项基准测试中，这款模型表现超越OpenAI与Anthropic竞品，更以超低延迟与高准确率成为目前业界表现最佳的“计算机代理人模型”。

Gemini 2.5 Computer Use模型构建在Gemini 2.5 Pro基础上，具备强大的视觉理解与推理能力。它不靠API，而是通过模拟人类的使用行为，来完成任务，例如：

在网页上填写与送出表单

拖拽画面上的项目

操作菜单、下拉菜单、登录系统

甚至在遇到关键操作（如付款）时，主动请求用户确认

这些操作过程会持续进行，直到任务完成为止，就像人类在执行工作流程一样自然。

模型运行的关键流程如下：

开发者将用户请求、屏幕截屏与以往动作历史提供给模型

模型分析这些数据后回传一个UI操作（如点击、输入）

客户端执行该动作，并回传最新画面与网址给模型

循环开始下一轮，直到任务完成、错误发生，或用户终止

在Browserbase与Google自行执行的基准测试中，Gemini 2.5 Computer Use的表现如下：

在“准确率70%以上”的前提下，Gemini 2.5仍保持极低延迟

适合用于需要快速决策、连续操作的使用场景

Google表示，这类能控制计算机的AI引入了新的风险（如恶意指令、诈骗网站、模型误判），因此他们设计了三层安全机制：

模型内置安全训练：防止滥用与潜在危害行为

推论阶段即时风控（Per-step safety service）：每步操作都经过外部安全系统审核

开发者可自订高风险行为是否需用户确认（例如付款、登录等）

Google自家与早期合作伙伴已经实际部署此模型，应用场景包括：

Firebase Testing Agent：自动执行UI测试，提高开发速度

Project Mariner：作为搜索AI模式的一部分

Google支付平台团队：原先常出错的E2E测试流程，通过模型修复成功率提升60%

第三方如Poke.com、Autotab：用于行动助理、数据截取、自动调度等

目前模型已于Google AI Studio与Vertex AI开放开发者预览，而用户也可以通过Browserbase试用范例环境来尝试看看。

七星配资-短线炒股配资-七倍杠杆-在线配资提示：文章来自网络，不代表本站观点。

网上炒股加杠杆控制组件也巧妙藏于车把内侧