让大模子成为可以操控计算机的智能体,作者带
作者:[db:作者]日期:2025/03/06 浏览:
图形用户界面(GUI)主动化须要智能体可能懂得并交互用户界面。但是,应用通用年夜型言语模子(LLM)作为 GUI 智能面子临多个挑衅:1. 牢靠辨认 UI 中的可交互图标, 2.懂得截图中各元素的语义,并正确关系预期操纵跟屏幕地区。OmniParser 经由过程将 UI 截图从像素空间 tokenize 为构造化元素,使其可被 LLM 懂得,从而支撑基于检索的下一步操纵猜测。比拟上个版本,OmniParser V2 在检测较小的可交互元素时能到达更高的精度,而且推理速率更快。Om开元捕鱼官方网站niParser V2 应用了更年夜的数据集包含交互元素检测数据跟交互图标描写数据停止练习。经由过程减小交互图标标注模子的图像尺寸,OmniParser V2 与前一版原形比耽误下降了 60%best365足球官网。在近来宣布的以高辨别率屏幕跟小图标为特色基准测试 ScreenSpot Pro 中,Omniparser+GPT-4o 以 39.6 的均匀分值取得 SOTA,这比拟 GPT-4o 底本的 0.8 分有了年夜幅晋升。为了更好的辅助各人懂得 OmniParser V2,呆板之心最新一期线上分享约请到微软研讨院 AI Frontiers Lab 资深研讨员鲁亚东,为各人停止具体先容。分享主题:OmniParser V2 跟高品质 web agent trajectory 分解体系高朋先容:鲁亚东是微软研讨院 AI Frontiers Lab 资深研讨员, computer use agent project lead,专一于 multimodal LLM 在 UI 剖析跟 GUI 主动化方面的研讨:https://www.microsoft.cobet356体育官方网站m/en-us/research/people/yadonglu/
分享择要:Project 1:OmniParser V2 经由过程更年夜范围的交互元素检测数据跟图标功效描写数据练习,实现更高效的 GUI 剖析。比拟前一版本,它的推理耽误下降 60%,在 ScreenSpot Pro 基准测试中,OmniParser+GPT-4o 获得了 39.6 的SOTA正确率。本次分享将先容 OmniParser V2 的中心技巧、机能晋升以及利用场景。Project 2:Explorer web agent,咱们构建了一套数据分解体系,用在 5 万个热点网站上,主动天生了 100k 高品质网页阅读 trajectory,每条 trajectory 只要 28 美分,并在此基本上练习了explorer model (4B/7B), 在多项agent benchmark失掉 sota 表示。直播时光:北京时光3月4日10:00-11:00直播预定:本次直播设有 QA 环节,欢送各人加群一同来聊。
相关文章