微软近日宣布了一项重大开源项目——OmniParser,这是一款专为解析和识别屏幕上可交互图标设计的AI工具。传统自动化方法受限于HTML或视图层次结构,而现有的视觉语言模型在处理复杂GUI元素时又显得力不从心。为此,微软推出了这款纯视觉基础的工具,旨在解决当前屏幕解析技术的局限性。

OmniParser结合了可交互区域检测模型、图标描述模型和OCR模块,无需依赖HTML标签或视图层次结构等显式基础数据。这一特性使得它能够在桌面、移动设备和网页等多种平台上跨平台工作,显著提高了用户界面的解析准确性。OmniParser还能将识别出的屏幕元素转换成结构化的数据。




在实际测试中,OmniParser展现出了卓越的性能。在ScreenSpot数据集中,它的准确率提高了73%,远超依赖HTML解析的模型。同时,当GPT-4V使用OmniParser的输出后,图标的正确标记率从70.5%提升至93.8%。这些改进充分证明了OmniParser在解决当前GUI交互模型根本缺陷方面的有效性。
微软已在Hugging Face上发布了OmniParser,这一举措将有助于普及这一前沿技术,进一步推动多模态AI的发展,特别是在无障碍、自动化和智能用户辅助等领域。
厨房科技解读:格力电器以跨界技术创新完成降维打击!
10月23日,郑州黄河文化公园的炎黄二帝巨塑前,《将进酒》的剑舞刚落,另一处演示台的黄河水正通过格力净水机逐渐变清。当“黄河家宴”上三代同堂共饮净化水的那一刻,格力已然将厨房电器从功能性的硬件,重塑为维系
2025-11-13
《缔造者放逐之地》更新卡顿?三招助你快速解决更新难题
《缔造者放逐之地》作为一款深受欢迎的沙盒创造游戏,玩家在更新时常会遇到“正在更新服务”或“卡更新服务”的问题,导致无法正常进入游戏。这类问题通常与网络环境、系统缓存或文件完整性有关,下面提供三个实用的解决方…
2025-10-23
LHDC-RAW重磅登场,以零压缩技术还原声音本真魅力
该等级蓝牙音频编解码支持24bit/96kH的高解析音频传输,可提供无压缩的Bit-Perfect串流,让发烧级玩家可以听到最原始、最纯净的好声音。 根据不同应用场景的音频传输需求,盛微先进将LHDC标准分级…
2025-10-23
手机定位功能别闲置!提前注册账号,输入手机号就能知对方位置
就在慌乱中,她猛地想起我之前跟她提过一嘴的手机定位功能。很多时候,我们的家人在首次设置手机时就已经自动注册过了,你只要知道对方的账号就可以了。 所以,手机其实一直都自带定位功能,只是很多人怕麻烦从来没用过而已…
2025-10-22