本文概要:
1. 研究發現,語言模型通過閱讀文檔成功學會使用工具,甚至能夠發明新的方法。
2. 使用文檔訓練的模型在零樣本性能上與僅使用演示訓練的模型相當甚至更好。
3. 通過閱讀文檔,語言模型可以學習復雜的圖像處理和視頻跟蹤功能。
根據一篇新的研究論文,語言模型可以通過閱讀工具和API文檔來學習使用工具,并在某些情況下甚至發明新的方法。與傳統的通過演示訓練的方法相比,僅使用文檔的模型在零樣本性能上表現相當或更好。
該團隊使用文檔和演示對六種不同任務的多個模型進行了訓練,并比較了它們的性能。僅使用文檔,零樣本性能等于或優于僅從演示中學習的模型。然后,在擴展到包含200個工具的數據集后,第一個模型的性能顯著優于第二個模型。
在圖像處理領域,該模型能夠通過學習新的、最先進的圖像處理模塊的文檔來執行復雜的圖像處理和視頻跟蹤功能,而無需進一步演示。該團隊特別強調,該模型能夠重現最近發布的圖像處理技術,例如 Grounded-SAM 和 Track Anything 的視頻跟蹤,展示了該方法在自動知識發現方面的潛力。
論文指出:“總的來說,我們通過關注LLM的內部規劃和文檔推理能力,而不是通過演示明確指導他們的行為,揭示了LLM使用工具的新視角。”
這項研究揭示了閱讀文檔對于語言模型學習工具使用的重要性,以及文檔對于擴展和自動知識發現的潛力。


產品與服務
聯系站長
關于我們