微软近日宣布了一项重大开源项目——OmniParser,这是一款专为解析和识别屏幕上可交互图标设计的AI工具。传统自动化方法受限于HTML或视图层次结构,而现有的视觉语言模型在处理复杂GUI元素时又显得力不从心。为此,微软推出了这款纯视觉基础的工具,旨在解决当前屏幕解析技术的局限性。

OmniParser结合了可交互区域检测模型、图标描述模型和OCR模块,无需依赖HTML标签或视图层次结构等显式基础数据。这一特性使得它能够在桌面、移动设备和网页等多种平台上跨平台工作,显著提高了用户界面的解析准确性。OmniParser还能将识别出的屏幕元素转换成结构化的数据。




在实际测试中,OmniParser展现出了卓越的性能。在ScreenSpot数据集中,它的准确率提高了73%,远超依赖HTML解析的模型。同时,当GPT-4V使用OmniParser的输出后,图标的正确标记率从70.5%提升至93.8%。这些改进充分证明了OmniParser在解决当前GUI交互模型根本缺陷方面的有效性。
微软已在Hugging Face上发布了OmniParser,这一举措将有助于普及这一前沿技术,进一步推动多模态AI的发展,特别是在无障碍、自动化和智能用户辅助等领域。
东华软件斥资3亿,天津新设科技公司布局AI多领域
鞭牛士 10月29日消息,天眼查App显示,近日,天津东华智讯科技有限公司成立,法定代表人为杨军,注册资本3亿人民币,经营范围含大数据服务、互联网数据服务、人工智能公共数据平台、人工智能理论与算法软件开发、人…
2024-10-29
两市融资余额增加161.33亿元
截至10月28日,上交所融资余额报8668.26亿元,较前一交易日增加68.49亿元;深交所融资余额报8010.87亿元,较前一交易日增加92.84亿元;两市合计16679.13亿元,较前一交易日增加161.…
2024-10-29
中国航天新篇章:第四批预备航天员将启载人登月征程
10 月 29 日消息,据新华社消息,我国第四批预备航天员已于今年 8月入队参加训练,不仅要执行空间站任务,未来也将执行载人登月任务。2024 年 6 月,我国载人航天工程第四批预备航天员选拔工作…
2024-10-29
马斯克兄弟等特斯拉三董事拟套现3亿美元,为何?
在特斯拉提交给美国证券交易委员会的 10Q 文件中,该汽车制造商披露,其三名董事会成员,包括董事长罗宾·丹霍姆 (Robyn Denholm)和首席执行官埃隆·马斯克 (Elon Musk) 的兄弟金博尔…
2024-10-29