#開源分享 微軟開源了一款可以解析和識別螢幕上可交互圖示的工具:OmniParser,它能準確的識別出用戶界面中的可交互圖示,在解析方面優於GPT-4V
特點:
1、雙重識別能力,能找出界面上所有可以點擊的地方,具備語義理解能力,能理解按鈕或圖示的具體功能
2、可以作為插件,與Phi-3.5-V、 Llama-3.2-V以及其他模型結合使用
3、支持結構化輸出,除了識別螢幕上的元素,還能將這些元素轉換成結構化的數據
專案地址: github.com/microsoft/OmniParser
網站: microsoft.github.io/OmniParser