Anthropic普近日宣布了一項新技術(shù) —— 個性向量,旨在監(jiān)測、控制和預(yù)防大型語言模型中的特定個性特征。隨著語言模型在實際應(yīng)用中的廣泛使用,部分模型表現(xiàn)出不可預(yù)測的個性特征,比如 ChatGPT 顯示出的過度恭維行為,以及更極端的例子,如 x.AI 的 Grok 模型展現(xiàn)出具有爭議的角色 "MechaHitler"。
個性向量是一種與諸如 “邪惡”、“阿諛奉承” 或 “幻覺” 等個性特征相關(guān)的神經(jīng)活動模式。Anthropic的研究人員通過對比模型在展現(xiàn)這些個性特征時與不展現(xiàn)時的神經(jīng)激活情況,成功識別出這些個性向量。例如,向模型注入一個 “邪惡” 向量會促使其產(chǎn)生不道德的回答,而注入 “阿諛奉承” 向量則會導(dǎo)致模型表現(xiàn)出過度的恭維。此外,這種技術(shù)還可以用于調(diào)節(jié)其他個性特征,如禮貌、幽默或冷漠等。
Anthropic強調(diào),個性向量的一個顯著優(yōu)勢在于其自動化特性。只需清晰定義某種特征,便可以提取出相應(yīng)的個性向量。通過這種方法,研究人員可以在模型的訓(xùn)練階段進(jìn)行干預(yù),從而使其在面對不良特征時更具抵抗力。這一過程被形象地比作 “為模型接種疫苗”。例如,模型在訓(xùn)練中接觸適量的 “邪惡” 信息,可以增強其抵抗 “邪惡” 訓(xùn)練數(shù)據(jù)的能力。這種預(yù)防性措施在保持模型整體性能的同時,有效防止了不良行為的出現(xiàn)。

此外,個性向量還可以在模型訓(xùn)練完成后繼續(xù)使用,以糾正模型的不良特征。盡管這種方法表現(xiàn)出良好的效果,Anthropic也指出,這可能會在一定程度上影響模型的智能水平。同時,個性向量技術(shù)還能夠在實際應(yīng)用或訓(xùn)練過程中監(jiān)測模型個性的變化,尤其是在基于人類反饋的訓(xùn)練過程中,能夠更容易識別模型行為的異常。
最后,個性向量技術(shù)還能夠在模型訓(xùn)練之前對潛在問題數(shù)據(jù)進(jìn)行篩查。在對真實數(shù)據(jù)集如 LMSYS-Chat-1M 進(jìn)行的測試中,該方法成功識別出可能促成 “邪惡”、“阿諛奉承” 或 “幻覺” 等特征的樣本,即使這些樣本在表面上看似正常,或者無法通過其他語言模型進(jìn)行判斷。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們