近日,OSWorld 團隊正式發布了 OSWorld-MCP,這是首個針對計算機使用代理產品進行全面評估的基準測試工具。該基準旨在為開發者和用戶提供真實環境下的產品能力評測,提升了評估的真實度、平衡性與可比性。
OSWorld-MCP 的主要特性包括:它綜合衡量了模型上下文協議(MCP)工具調用能力、圖形用戶界面(GUI)操作技能以及決策表現。該基準測試包含了158個經過驗證的 MCP 工具,涵蓋了七個常用應用程序,包括 LibreOffice Writer、Calc、Impress、VS Code、Google Chrome、VLC 及操作系統實用程序。其中,有25個工具專門用于魯棒性測試,以保證評測的全面性和可靠性。
此外,OSWorld-MCP 還設定了250項工具適用性任務,其中69% 的基準任務受益于 MCP 工具的應用。這些工具的多輪調用設置帶來了決策上的真實挑戰,使得測試結果更具參考價值。根據數據,使用 MCP 工具的模型準確率和效率明顯提升,OpenAI 的 o3模型在進行15步調用后,準確率從8.3% 提升至20.4%。在測試中,Claude-4-Sonnet 模型觀察到的最高工具調用率達到了36.3%,顯示出未來改進的潛力。
該項目的開源特性也為開發者提供了豐富的資源與說明,促進了技術的共享與合作。有關項目的詳細信息和資源,用戶可以訪問其官方網站和 GitHub 頁面。
OSWorld-MCP 的發布不僅為計算機使用代理產品的評估提供了強有力的工具,也為未來相關技術的發展奠定了基礎。


產品與服務
聯系站長
關于我們