賓夕法尼亞州立大學(xué)最近發(fā)布了一項引人注目的研究,標(biāo)題為《Mind Your Tone》,探討了與大語言模型互動時提問方式對回答準(zhǔn)確性的影響。研究顯示,使用直白甚至粗魯?shù)恼Z氣進(jìn)行提問,往往能夠獲得比禮貌表達(dá)更準(zhǔn)確的答案。
為此,研究團(tuán)隊設(shè)計了一個包含50道中等難度選擇題的測試集,題目涵蓋了數(shù)學(xué)、科學(xué)和歷史等多個領(lǐng)域。針對每道題,研究人員準(zhǔn)備了五種不同的提問方式。
研究的對象是 OpenAI最新的 GPT-4o 模型。為了確保實驗的客觀性,研究者要求模型忽略先前對話,僅輸出選項字母作為答案。結(jié)果顯示,當(dāng)使用粗魯語氣提問時,GPT-4o 的正確率高達(dá)84.8%,而禮貌提問的準(zhǔn)確率僅為80.8%,二者之間的差距達(dá)到4個百分點(diǎn)。
研究人員認(rèn)為,過于客氣的表達(dá)往往會摻雜大量不必要的修飾和客套,這些內(nèi)容可能干擾模型抓取核心問題。而直接的提問方式雖然缺乏禮貌,卻能使模型更集中于問題本身,從而提升回答的準(zhǔn)確性。
需要注意的是,這一規(guī)律并不適用于所有 AI 模型。研究團(tuán)隊還對比了 GPT-3.5和 Llama2-70B 等較早期模型,發(fā)現(xiàn)這些模型對禮貌提問的反應(yīng)更為積極,粗魯語氣反而可能導(dǎo)致回答質(zhì)量下降。這說明,新一代模型在訓(xùn)練過程中接觸了更多樣化的提問語氣數(shù)據(jù),使其能夠在非禮貌語境下保持或提升表現(xiàn)。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們