微軟公司的研究團隊最近提出了一種獨特且簡單的方法,用于生成高質量的文本嵌入。這種新方法僅使用合成數據和極少的訓練步驟(少于1,000步),就取得了令人矚目的成果。相比于現有的方法,該方法不依賴于多階段的預訓練和有限的標記數據微調,避免了繁瑣的訓練流程和手動收集數據集的問題,這些數據集通常在任務多樣性和語言覆蓋方面存在問題。

該方法利用專有的大型語言模型在約100種語言的文本嵌入任務中生成了各種合成數據。與復雜的預訓練階段不同,該方法使用基本的對比損失函數,將開源的僅解碼的大型語言模型在生成的合成數據上進行微調。
研究團隊進行了一些測試以驗證該方法的有效性。該模型在激烈競爭的文本嵌入基準測試中展現了出色的結果,而無需使用任何標記數據。當使用合成數據和標記數據的組合進行改進時,該模型在 BEIR 和 MTEB 基準測試上取得了新的記錄,成為了文本嵌入領域的最先進方法。
專利的大型語言模型如 GPT-4被用來生成包括多語言指令在內的各種合成數據。通過利用 Mistral 模型強大的語言理解能力,該方法在幾乎所有工作類別上在激烈競爭的 MTEB 基準測試中取得了出色的性能。
該研究表明使用大型語言模型可以顯著提高文本嵌入的質量。該研究的訓練過程極大地減少了對中間預訓練的需求,相較于當前的多階段系統,更加簡潔高效。


產品與服務
聯系站長
關于我們