企業人工智能技術領先者 Galileo 近日發布了一款名為 Luna 的全新產品,這一革命性的 Evaluation Foundation Models 套件重新定義了企業對 GenAI 系統的評估方式。Luna 承諾在速度、成本和準確性方面進行了前所未有的突破。
“Galileo 推出 Luna,旨在解決當前 GenAI 評估方法的局限性,這些方法通常速度緩慢、成本高昂,而且往往不準確。”Galileo 聯合創始人兼首席執行官 Vikram Chatterji 在接受 VentureBeat 采訪時表示。“推動我們開發 Luna 的初衷源自對在生產環境中進行超低延遲、成本效益高和高準確性評估的需求。”

Luna 的研發標志著 Galileo 取得了重要的里程碑,該公司自2021年初成立以來一直處于企業 GenAI 的最前沿。公司對推動人工智能評估邊界的執著可從 Luna 的開發過程中窺見端倪,該過程歷時近一年,進行了密集的研發工作。
Luna,Galileo 劃時代的 Evaluation Foundation Models 套件,在接收器操作特征曲線下面積(AUROC)得分的基準比較中勝過了領先的人工智能評估方法。更高的 AUROC 值達到了0.78,表明 Luna 在評估企業生成式人工智能系統的準確性方面更勝一籌,超越了 GPT-3.5、Trulens Groundedness 和 RAGAS Faithfulness 等競爭對手。
Luna 創新的核心在于其專為特定評估任務設計的小型語言模型,精心為幻覺檢測、語境質量評估、數據泄漏防護和惡意提示識別等任務量身定制。這種專業設計使得 Luna 在速度、成本和準確性三個關鍵指標上表現卓越。
“Luna 通過幾項創新的方式超越了 GPT-3.5在速度、成本和準確性方面,”Chatterji 解釋道。“Luna 利用專為特定評估任務量身定制的小型語言模型,大大降低了計算開銷和成本。這種設計選擇使得評估的成本比使用 GPT-3.5低97%,速度則比使用 GPT-3.5快11倍。”

然而,這并不僅僅是關于速度和成本。Luna 還以行業領先的準確性脫穎而出,在檢測幻覺、提示注入、個人可識別信息(PII)等方面,其性能比以往方法高出多達20%。“多頭小型語言模型和智能分塊等先進技術確保 Luna 模型更好地保持上下文并提供更準確的評估,”Chatterji 補充道。
在對評估100萬次查詢的月度成本進行比較時,Galileo 的 Luna 大幅低于其他方法,僅需每月175美元。Luna 的專為特定評估任務設計的小型語言模型實現了超低成本的評估,使其比 GPT-3.5(每月6248美元)、RAGAS Faithfulness(每月7994美元)和 Trulens Groundedness(每月16641美元)等替代方案高效率低至97%。

Luna 最引人注目的一個方面是其能夠在不需要傳統基準數據集的情況下運行。通過利用在多樣、領域特定數據集上微調的預訓練評估模型,Luna 消除了創建定制測試集的耗時和昂貴過程。這一創新簡化了評估流程,減少了對大量人工生成數據的依賴。
Luna 的潛在應用廣泛,Chatterji 強調了它在需要人工智能評估具有高可靠性和速度的行業中的相關性。“Luna 在需要大規模應用、吞吐量大的企業應用中尤為強大(比如每月數百萬次查詢)。我們發現在醫療保健、金融和電信等行業,財富100強企業特別喜歡使用 Luna。” 他說道。
Galileo 的 Luna 在人工智能評估方面提供了無與倫比的速度,處理單個查詢的延遲僅為0.232秒。這較之其他方法,例如 GPT-3.5的2.5秒、Galileo Chainpoll 的3.0秒、Trulens Groundedness 的3.4秒和 RAGAS Faithfulness 的5.4秒,有了顯著提升。Luna 的專為特定評估任務設計的小型語言模型實現了超低延遲的評估,使其比競爭方法快至多達11倍。

用例涵蓋了對人工智能輸出的實時監控、檢測人工智能生成內容中的幻覺,以確保聊天機器人交互的安全性和質量。通過 Galileo 的 Fine Tune 產品,Luna 可定制以滿足特定客戶需求,為制藥和金融服務等行業的關鍵任務實現95% 以上的準確性。
隨著生成式人工智能領域的快速發展,Galileo 致力于保持創新的最前沿。Chatterji 強調,Luna 將在三個關鍵方面擴展規模:擴大對更多評估任務類型的支持、持續提高準確性,以及進一步降低成本和延遲。
“Galileo 致力于突破人工智能評估的可能邊界,幫助組織將可信賴的人工智能引入生產環境,激發消費者的信心和信任。”Chatterji 表示。“隨著生成式人工智能領域的不斷演進,Galileo 將繼續致力于為客戶提供尖端的評估能力,使人工智能在業務部署中變得實用,并在消費者中產生信心和信任。”
隨著 Luna 的推出,Galileo 在企業 GenAI 評估領域鞏固了其領先地位。隨著越來越多的組織尋求利用生成式人工智能的力量,Luna 提供快速、成本效益高和準確的評估能力將成為推動廣泛采用和釋放這一變革性技術全部潛力的關鍵因素。


產品與服務
聯系站長
關于我們