哥倫比亞大學(xué)數(shù)字新聞研究中心近期對八款A(yù)I搜索引擎進(jìn)行了深入研究,包括ChatGPT Search、Perplexity及其付費(fèi)版、Gemini、DeepSeek Search、Grok-2和Grok-3 Search以及Copilot。研究人員從20家新聞機(jī)構(gòu)隨機(jī)挑選了200篇報(bào)道,確保這些文章在谷歌搜索中排名靠前,隨后用相同的查詢方式測試各AI工具的準(zhǔn)確性和引用情況。
結(jié)果顯示,除Perplexity及其付費(fèi)版外,其他AI引擎的表現(xiàn)普遍不佳。整體來看,AI提供的答案有60%不準(zhǔn)確,且它們往往以絕對肯定的語氣陳述錯(cuò)誤信息,加劇了問題的嚴(yán)重性。例如,ChatGPT Search雖然回答了所有200個(gè)查詢,但其完全正確率僅為28%,完全錯(cuò)誤率卻高達(dá)57%。相比之下,X旗下的Grok-3 Search錯(cuò)誤率更是達(dá)到了驚人的94%。
微軟的Copilot也表現(xiàn)欠佳,在200次查詢中有104次拒絕作答,而剩下的96次中,僅16次完全正確,總體錯(cuò)誤率接近70%。盡管這些問題存在,相關(guān)公司并未公開承認(rèn),仍繼續(xù)向用戶收取高額訂閱費(fèi)用。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們