Google近日公开预览全新AI模型Gemini 2.5 Computer Use,主打一项突破性功能:不只看得懂画面、理解需求,更能主动“动手操作UI”,像人类一样在网页或App上点击、输入与滑动。
在多项基准测试中,这款模型表现超越OpenAI与Anthropic竞品,更以超低延迟与高准确率成为目前业界表现最佳的“计算机代理人模型”。
Gemini 2.5 Computer Use模型构建在Gemini 2.5 Pro基础上,具备强大的视觉理解与推理能力。它不靠API,而是通过模拟人类的使用行为,来完成任务,例如:
在网页上填写与送出表单
拖拽画面上的项目
操作菜单、下拉菜单、登录系统
甚至在遇到关键操作(如付款)时,主动请求用户确认
这些操作过程会持续进行,直到任务完成为止,就像人类在执行工作流程一样自然。
模型运行的关键流程如下:
开发者将用户请求、屏幕截屏与以往动作历史提供给模型
模型分析这些数据后回传一个UI操作(如点击、输入)
客户端执行该动作,并回传最新画面与网址给模型
循环开始下一轮,直到任务完成、错误发生,或用户终止
在Browserbase与Google自行执行的基准测试中,Gemini 2.5 Computer Use的表现如下:
在“准确率70%以上”的前提下,Gemini 2.5仍保持极低延迟
适合用于需要快速决策、连续操作的使用场景
Google表示,这类能控制计算机的AI引入了新的风险(如恶意指令、诈骗网站、模型误判),因此他们设计了三层安全机制:
模型内置安全训练:防止滥用与潜在危害行为
推论阶段即时风控(Per-step safety service):每步操作都经过外部安全系统审核
开发者可自订高风险行为是否需用户确认(例如付款、登录等)
Google自家与早期合作伙伴已经实际部署此模型,应用场景包括:
Firebase Testing Agent:自动执行UI测试,提高开发速度
Project Mariner:作为搜索AI模式的一部分
Google支付平台团队:原先常出错的E2E测试流程,通过模型修复成功率提升60%
第三方如Poke.com、Autotab:用于行动助理、数据截取、自动调度等
目前模型已于Google AI Studio与Vertex AI开放开发者预览,而用户也可以通过Browserbase试用范例环境来尝试看看。
七星配资-短线炒股配资-七倍杠杆-在线配资提示:文章来自网络,不代表本站观点。