
AI智能体正在加快尝试代替东说念主类去作念一些“力所能及”的事情。
当地时分1月23日,OpenAI发布了首个AI智能Operator。据该公司CEO奥特曼先容,这款智能体能像东说念主类相似使用网页浏览器,并点击按钮、打字输入内容等,能自动完成预订旅行住宿、餐厅预约、在线购物等复杂任务。
不仅如斯,系统还救济多任务并行处置,比如在某购物网站上订购珐琅马克杯之时,也能同步在另一平台预定露营地。
Operator救济个性定制,用户可为特定网页或全站添加自界说教唆,并在主页保存,齐备跨聊天窗口的多任务处置,如成立订机票时的首选航司等。
其本领旨趣主要由Computer-Using Agent(CUA)模子驱动,并议论了GPT-4o的视觉识别才协调基于强化学习的高等推理功能,使得Operator能 “看见” 网页,使用鼠标和键盘与网页互动。
现在,Operator询查预览版领先向订阅200好意思元Pro假想的好意思国用户通达,后续将缓缓膨大至Plus、Team和 Enterprise级别用户。OpenAI暗意,但愿很快将Operator集成到其总共ChatGPT哄骗中。
从现存体验来看,Operator在基础网页操作和重迭性任务方面领略出色,如搜索筛选、创建购物清单和音乐播放列表等任务成效用较高。但在处置复杂的房产搜索等任务时,成效用相对较低;在处置不老到的UI界面和文本裁剪时领略欠佳。
在发布演示和用户测试中,Operator出现了网页无法成效加载等情况,标明其在运行踏实性上存在不及。此外,由于部分网站可能会屏蔽AI访谒,导致智能体无法在这些网站上推行任务,使其哄骗范围受到一定收尾。
据OpenAI方面先容,这款智能体在WebArena测试中得分58.1%,而在WebVoyager测试中本体网站导航成效用达87%,OSWorld测试的得分则为38.1%。WebArena是由卡耐基梅隆大学等机构推出的一项用于测试智能代理在网络环境中推行任务才调的测试。WebVoyager测试主要在亚马逊、开源网站GitHub和谷歌舆图等竟然网站上测试模子的性能。而OSWorld测试用于评估模子活动Windows和macOS等完整操作系统的才调。
尽管还谈不上完满,但“这款家具是咱们攻击智能体规模的运行。”奥特曼在直播中这么暗意。
不错说开yun体育网,Operator是OpenAI向通用东说念主工智能(AGI)主义迈进的遑急一步,也将进一步增强该公司在AI规模的竞争力。但接洽到Operator在代替用户推行任务时可能需要输入敏锐信息,若何幸免潜在安全风险将成为遑急问题。
