近日,智譜AI發布了高質量、低成本的評分模型CritiqueLLM,用于評估文本生成模型的性能。
傳統的評價指標如 BLEU 和 ROUGE 主要基于 n-gram 重合度來計算評分,缺乏對整體語義的把握。而基于模型的評價方法則對基座模型的選取非常依賴,只有頂級的大模型才能取得令人滿意的效果。
為了解決這些問題,CritiqueLLM 提出了一種可解釋、可擴展的文本質量評價模型。它能夠針對各種任務生成高質量的評分和評價解釋。在含參考文本的場景下,CritiqueLLM 將大模型生成文本和參考文本進行對比,并給出了評分。
在8類常見的任務中,CritiqueLLM 的評價分數與人工評分的相關系數顯著超過了其他模型,尤其是在無參考文本設定下,CritiqueLLM 在3個任務上超過了 GPT-4,達到了最優的評價性能。
CritiqueLLM 的方法包括四個主要步驟:用戶詢問增廣、含參考文本評價數據收集、無參考文本評價數據改寫和訓練 CritiqueLLM 模型。通過這些步驟,可以得到適用于含參考文本和無參考文本設定的兩種 CritiqueLLM 模型,用于評估文本生成模型的性能。


產品與服務
聯系站長
關于我們