谷歌公布首款自动化数字生活的新型浏览器代理Project Mariner
谷歌推出 AI 代理项目 Project Mariner 可以理解并推理浏览器屏幕上的信息帮助完成任务处理。该项目目前仅可在单一活动的选项卡中进行键入、滚动和点击操作,但可以理解诸如像素点、文本、代码、图像、表单等数据,然后 AI 根据用户指令自己操作完成用户指定的任务。
昨天夜里谷歌宣布推出 Google Gemini 2.0 版,这是谷歌人工智能团队推出的最新模型,且该模型具有多模态支持,例如可以理解图片乃至视频等内容。
借助该模型谷歌开发了人工智能代理项目 Project Mariner,这是谷歌基于 Gemini 2.0 构建的早期研究原型,旨在从浏览器开始探索人机交互的未来。
这个 AI 代理能够理解和推理浏览器屏幕上的信息,包括每个像素点、文本内容、代码、图像和表单等网络元素,然后通过实验性的 Chrome 扩展程序使用这些信息完成任务。
还是以表格类为例:
当你通过浏览器打开某个存储大量数据的网页,这些数据需要复制到电子表格中并进行整理,这时候就可以通过 AI 代理完成。
向 Project Mariner 提供指令后,AI 代理便会自动与浏览器进行交互操作,然后将数据整理并填充到网页其他区域,同时还会将数据按照你的要求整理好。
作为早期原型项目,目前 Project Mariner 只能在浏览器的活动选项卡 (也就是当前打开的页面) 中执行键入、滚动和点击操作,并且如果 AI 识别到存在敏感操作例如购物和付款时将要求用户进行最终确认。
根据 WebVoyager 基准进行评估,Project Mariner 作为单一代理设置实现了 83.5% 的最佳工作结果,该基准测试是专门评估 AI 代理在端到端真实世界上的网络任务性能。
目前谷歌率先将 Project Mariner 提供给值得信赖的开发者们进行测试,后续应该会逐渐扩大测试范围,让更多开发者和普通用户也能使用 Project Mariner 进行人机交互。