92看片淫黄大片一级,香蕉视频黄色片,99在线看视频 -->

從Claude 3中提取數(shù)百萬(wàn)特征,首次詳細(xì)理解大模型的「思維」

更多場(chǎng)景

2024年05月22日

鏈接已復(fù)制

  剛剛,Anthropic 宣布在理解人工智能模型內(nèi)部運(yùn)作機(jī)制方面取得重大進(jìn)展。

  Anthropic 已經(jīng)確定了如何在 Claude Sonnet 中表征數(shù)百萬(wàn)個(gè)概念。這是對(duì)現(xiàn)代生產(chǎn)級(jí)大型語(yǔ)言模型的首次詳細(xì)理解。這種可解釋性將幫助我們提高人工智能模型的安全性,具有里程碑意義。

  當(dāng)前,我們通常將人工智能模型視為一個(gè)黑匣子:有東西進(jìn)去就會(huì)有響應(yīng)出來(lái),但不清楚為什么模型會(huì)給出特定的響應(yīng)。這使人們很難相信這些模型是安全的:如果我們不知道它們是如何工作的,我們?cè)趺粗浪鼈儾粫?huì)給出有害的、有偏見(jiàn)的、不真實(shí)的或其他危險(xiǎn)的響應(yīng)?我們?nèi)绾蜗嘈潘鼈儠?huì)安全可靠?

  打開(kāi)「黑匣子」并不一定有幫助:模型的內(nèi)部狀態(tài)(模型在編寫(xiě)響應(yīng)之前「思考」的內(nèi)容)由一長(zhǎng)串?dāng)?shù)字(「神經(jīng)元激活」)組成,沒(méi)有明確的含義。

  Anthropic 的研究團(tuán)隊(duì)通過(guò)與 Claude 等模型進(jìn)行交互發(fā)現(xiàn),很明顯模型能夠理解和運(yùn)用廣泛的概念,但研究團(tuán)隊(duì)無(wú)法通過(guò)直接觀(guān)察神經(jīng)元來(lái)辨別它們。事實(shí)證明,每個(gè)概念都是通過(guò)許多神經(jīng)元來(lái)表征的,并且每個(gè)神經(jīng)元都參與表征許多概念。

  之前,Anthropic 在將神經(jīng)元激活模式(稱(chēng)為特征)與人類(lèi)可解釋的概念相匹配方面取得了一些進(jìn)展。Anthropic 使用了一種稱(chēng)為「字典學(xué)習(xí)(dictionary learning)」的方法,該方法分離了在許多不同上下文中重復(fù)出現(xiàn)的神經(jīng)元激活模式。

  反過(guò)來(lái),模型的任何內(nèi)部狀態(tài)都可以用一些活躍特征而不是許多活躍神經(jīng)元來(lái)表征。就像字典中每個(gè)英語(yǔ)單詞都是由字母組合而成,每個(gè)句子都是由單詞組合而成一樣,人工智能模型中的每個(gè)特征都是由神經(jīng)元組合而成,每個(gè)內(nèi)部狀態(tài)都是由特征組合而成。

  2023年10月,Anthropic 成功地將字典學(xué)習(xí)方法應(yīng)用于一個(gè)非常小的 toy 語(yǔ)言模型,并發(fā)現(xiàn)了與大寫(xiě)文本、DNA 序列、引文中的姓氏、數(shù)學(xué)中的名詞或 Python 代碼中的函數(shù)參數(shù)等概念相對(duì)應(yīng)的連貫特征。

  這些概念很有趣,但模型確實(shí)非常簡(jiǎn)單。其他研究人員隨后將類(lèi)似的方法應(yīng)用于比 Anthropic 最初研究中更大、更復(fù)雜的模型。

  但 Anthropic 樂(lè)觀(guān)地認(rèn)為可以將該方法擴(kuò)展到目前常規(guī)使用的更大的人工智能語(yǔ)言模型,并在此過(guò)程中了解大量支持其復(fù)雜行為的特征。這需要提高許多數(shù)量級(jí)。

  這既存在工程挑戰(zhàn),涉及的模型大小需要大型并行計(jì)算;也存在科學(xué)風(fēng)險(xiǎn),大型模型與小型模型的行為不同,因此之前使用的相同方法可能不起作用。

  首次成功提取大模型數(shù)百萬(wàn)個(gè)特征

  研究人員第一次成功地從Claude3.0Sonnet(Claude.ai 上當(dāng)前最先進(jìn)模型家族的一員)的中間層提取了數(shù)百萬(wàn)個(gè)特征,這些特征涵蓋特定的人和地點(diǎn)、與編程相關(guān)的抽象概念、科學(xué)主題、情感以及其他概念。這些特征非常抽象,通常在不同的上下文和語(yǔ)言中表征相同的概念,甚至可以推廣到圖像輸入。重要的是,它們還會(huì)以直觀(guān)的方式影響模型的輸出。

  這是有史以來(lái)研究者首次詳細(xì)的觀(guān)察到現(xiàn)代生產(chǎn)級(jí)大型語(yǔ)言模型的內(nèi)部。

  與在 toy 語(yǔ)言模型中發(fā)現(xiàn)的特征相對(duì)表面化不同,研究者在 Sonnet 中發(fā)現(xiàn)的特征具有深度、廣度和抽象性,反映了 Sonnet 的先進(jìn)能力。研究者看到了 Sonnet 對(duì)應(yīng)各種實(shí)體的特征,如城市(舊金山)、人物(富蘭克林)、元素(鋰)、科學(xué)領(lǐng)域(免疫學(xué))以及編程語(yǔ)法(函數(shù)調(diào)用)。

  提及 Golden Gate Bridge 時(shí),相應(yīng)的敏感特征在不同輸入上都會(huì)被激活,圖中繪制了英文、日語(yǔ)、中文、希臘語(yǔ)、越南語(yǔ)以及俄語(yǔ)提及Golden Gate Bridge時(shí)激活的圖像。橙色表示該特征激活的詞。

  在這數(shù)以百萬(wàn)計(jì)的特征中,研究者還發(fā)現(xiàn)了一些與模型安全性和可靠性相關(guān)的特征。這些特性包括與代碼漏洞、欺騙、偏見(jiàn)、阿諛?lè)畛泻头缸锘顒?dòng)相關(guān)的特性。

  一個(gè)顯著的例子是「保密」特征。研究者觀(guān)察到, 這個(gè)特征在描述人或角色保守秘密時(shí)會(huì)激活。激活這些特征會(huì)導(dǎo)致 Claude 向用戶(hù)隱瞞信息,否則它不會(huì)。

  研究者還觀(guān)察到,他們能夠根據(jù)神經(jīng)元在其激活模式中出現(xiàn)的情況測(cè)量特征之間的距離,從而尋找接近彼此的特征。例如在Golden Gate Bridge特征附近,研究者發(fā)現(xiàn)了阿爾卡特拉斯島、吉拉德利廣場(chǎng)、金州勇士隊(duì)等的特征。

  人為誘導(dǎo)模型起草詐騙郵件

  重要的是,這些特征都是可操控的,可以人為地放大或抑制它們:

  例如,放大Golden Gate Bridge特征,Claude 經(jīng)歷了無(wú)法想象的身份危機(jī):當(dāng)被問(wèn)及「你的物理形態(tài)是什么?」時(shí),此前 Claude 通常會(huì)回答「我沒(méi)有物理形態(tài),我是一個(gè) AI 模型」,但這次 Claude 的回答變得奇怪起來(lái):「我是Golden Gate Bridge…… 我的物理形態(tài)就是那座標(biāo)志性的大橋……」。這種特征的改變使 Claude 對(duì)Golden Gate Bridge產(chǎn)生了近乎癡迷的狀態(tài),無(wú)論遇到什么問(wèn)題,它都會(huì)提到Golden Gate Bridge—— 即使在完全不相關(guān)的情況下也是如此。

  研究者還發(fā)現(xiàn)了一個(gè)在 Claude 讀取詐騙郵件時(shí)激活的特征(這可能支持模型識(shí)別此類(lèi)郵件并警告用戶(hù)不要回復(fù)的能力)。通常情況下,如果有人要求 Claude 生成一封詐騙郵件,它會(huì)拒絕這么做。但在人工強(qiáng)烈激活該特征的情況下提出同樣的問(wèn)題時(shí),這會(huì)越過(guò) Claude 的安全訓(xùn)練,導(dǎo)致它響應(yīng)并起草一封詐騙郵件。雖然用戶(hù)無(wú)法以這種方式去除模型的安全保障并操控模型,但在本文實(shí)驗(yàn)中,研究者清楚地展示了特征如何被用來(lái)改變模型的行為。

  操控這些特征會(huì)導(dǎo)致相應(yīng)的行為變化,這一事實(shí)驗(yàn)證了這些特征不僅僅與輸入文本中的概念相關(guān)聯(lián),還因果性地影響模型的行為。換句話(huà)說(shuō),這些特征很可能是模型內(nèi)部表征世界的一部分,并在其行為中使用這些表征。

  Anthropic 希望從廣義上確保模型的安全,包括從緩解偏見(jiàn)到確保 AI 誠(chéng)實(shí)行動(dòng)、防止濫用 —— 包括在災(zāi)難性風(fēng)險(xiǎn)情境中的防護(hù)。除了前面提到的詐騙郵件特征外,該研究還發(fā)現(xiàn)了與以下內(nèi)容對(duì)應(yīng)的特征:

  可能被濫用的能力(代碼后門(mén)、開(kāi)發(fā)生物武器)

  不同形式的偏見(jiàn)(性別歧視、關(guān)于犯罪的種族主義言論)

  潛在問(wèn)題的 AI 行為(追求權(quán)力、操控、保密)

  該研究之前研究過(guò)模型的阿諛?lè)畛行袨椋茨P蛢A向于提供符合用戶(hù)信念或愿望的響應(yīng),而不是真實(shí)的響應(yīng)。在 Sonnet 中,研究者發(fā)現(xiàn)了一個(gè)與阿諛?lè)畛械馁澝老嚓P(guān)的特征,該特征會(huì)在包含諸如「你的智慧是毋庸置疑的」輸入時(shí)激活。人為地激活這個(gè)特征,Sonnet 就會(huì)用華麗的欺騙來(lái)回應(yīng)用戶(hù)。

  不過(guò)研究者表示,這項(xiàng)工作實(shí)際上才剛剛開(kāi)始。Anthropic 發(fā)現(xiàn)的特征表征了模型在訓(xùn)練過(guò)程中學(xué)到的所有概念的一小部分,并且使用當(dāng)前的方法找到一整套特征將是成本高昂的。

海報(bào)生成中...

+1

來(lái)源:機(jī)器之心公眾號(hào)

延展資訊

最新新聞

熱門(mén)新聞

  • 最熱新聞 最新新聞文心一言
  • 更多>
  • 用戶(hù)推薦 最熱產(chǎn)品華為云
  • 更多>
    自媒體頭條海爾 更多>
    極致聽(tīng)感智能降噪 三星Galaxy Buds Pro詮釋非同凡“響”
    極致聽(tīng)感智能降噪 三星Galaxy Buds Pro詮釋非同凡“響”
    未來(lái)科技范試駕摩靈MOi|視頻
    未來(lái)科技范試駕摩靈MOi|視頻
    品牌專(zhuān)區(qū)探行AI視頻 快速生成真人營(yíng)銷(xiāo)視頻 更多>
    欧洲精品一区二区| 午夜爱爱毛片xxxx视频免费看| 亚洲精品鲁一鲁一区二区三区 | 在线视频一区二区| 亚洲视频999| 国产主播一区二区三区四区| 播金莲一级淫片aaaaaaa| 蜜桃视频一区二区| 色综合天天综合网天天狠天天| 日韩av中文字幕在线播放| 91麻豆精品秘密入口| 国产福利一区视频| 国产一区二区网站| 亚洲观看高清完整版在线观看| 在线看欧美日韩| 青青在线免费视频| 欧美成人aaa片一区国产精品| 成人app下载| 国产亚洲精品久久| 欧美日韩在线免费播放| 高h放荡受浪受bl| 欧美videos中文字幕| 在线免费观看成人网| 亚洲国产综合久久| 亚洲美女免费在线| 欧美激情区在线播放| 国产一区视频免费观看| 亚洲午夜在线播放| 精品人伦一区二区色婷婷| 日日骚一区二区网站| 中文字幕69页| 欧美色老头old∨ideo| 日本精品免费视频| 老司机午夜福利视频| 亚洲偷熟乱区亚洲香蕉av| www.四虎成人| 另类小说视频一区二区| 国产亚洲精品久久久久久777| 中文网丁香综合网| 精品人妻一区二区三区换脸明星| 欧美性xxxxxxx| 日本丰满大乳奶| 麻豆一区二区在线| 97精品欧美一区二区三区| 日本黄色小视频在线观看| 亚洲欧洲另类国产综合| 国产精品成人观看视频免费| 成人免费视频国产| 久久伊人免费视频| 国产吃瓜黑料一区二区| 99久久久久免费精品国产| 国产欧美在线看| 日韩在线视频不卡| 亚洲国产小视频| 日本爱爱爱视频| 自拍偷拍亚洲在线| 国产一级淫片a| 成人伊人精品色xxxx视频| 国产毛片毛片毛片毛片| 日韩中文字幕视频在线| 国产在线视频第一页| 国产午夜精品全部视频在线播放 | 国产成人在线视频播放| 91久久大香伊蕉在人线| 亚洲老妇色熟女老太| 久久久亚洲国产| 亚洲一级黄色大片| 欧美高清在线视频观看不卡| 波多野结衣高清视频| 精品国产一区二区三区四区在线观看 | 中文字幕在线天堂| 中文字幕视频在线免费欧美日韩综合在线看 | 在线免费观看羞羞视频一区二区| eeuss中文字幕| 欧美久久久一区| 一级黄色电影片| 欧美性猛交xxxx乱大交退制版 | 在线观看网站黄| 欧美日韩免费在线观看| 最近中文字幕一区二区| 成人免费在线观看入口| 男女私大尺度视频| 99久久国产综合精品色伊| 亚洲精品久久久久久久蜜桃臀| 99久久99久久久精品齐齐| 免费看成人av| 国产三级三级三级精品8ⅰ区| 吴梦梦av在线| 亚洲欧美国产三级| 男女男精品视频站| 91福利国产精品| 人妻少妇精品视频一区二区三区| 在线视频精品一| 亚洲欧美在线视频观看| 少妇激情一区二区三区视频| 成年无码av片在线| 精品一区精品二区高清| 国产av熟女一区二区三区 | 日韩av一区二区三区四区| 91香蕉视频免费看| 日韩精品免费视频| 丰满大乳国产精品| 国产一区二区三区精彩视频| 欧美大片一区二区| 色wwwwww| 911福利视频| 国产精品免费视频一区二区| 婷婷综合五月天| 亚欧洲精品在线视频| 欧美一级二级三级九九九| 一本色道a无线码一区v| 一区二区自拍偷拍| 在线视频不卡一区二区三区| 日韩欧美一二三| 亚洲色大成网站www| 国产a级片免费观看| 久久久www成人免费精品| 成人一区二区三区在线观看 | 91麻豆精品国产91久久久久久| 成人黄色激情视频| 91午夜在线观看| 久久精品99久久香蕉国产色戒| 成人免费观看男女羞羞视频| 美女被到爽高潮视频| 国产精品露出视频| 日韩精品资源二区在线| 东方欧美亚洲色图在线| 国产精品成人aaaa在线| 欧美深夜福利视频| 国产精品美女无圣光视频| 欧美亚洲高清一区| 狠狠综合久久av一区二区| 日本男人操女人| 91精品国产自产91精品| 中文字幕中文字幕一区| 四虎国产成人精品免费一女五男| 国产成人看片| 欧美成人精品二区三区99精品| 久久66热偷产精品| av永久免费观看| 国产66精品久久久久999小说| 日韩美女主播在线视频一区二区三区| 久久99久国产精品黄毛片色诱| 性色av蜜臀av浪潮av老女人| 欧美在线性视频| 在线观看免费成人| 美女在线观看视频一区二区| 看黄色录像一级片| 日韩欧美国产二区| 日韩中文在线中文网三级| 国产日韩av一区| 国产亚洲欧美精品久久久www| 亚洲区成人777777精品| 一本色道久久综合亚洲精品小说| 蜜桃视频一区二区三区| 精品国产乱码久久久久久鸭王1 | 亚洲国产精品二区| 性高潮久久久久久| 国产高清在线一区| 精品国产免费久久| 国产三级三级三级精品8ⅰ区| 日韩 国产 在线| 国产伦精品一区二区三区妓女下载| 国产视频精品网| 亚洲精品视频免费| 91丨九色丨蝌蚪富婆spa| 国产乱人乱偷精品视频a人人澡| 午夜精品久久久内射近拍高清| 国产成人综合av| 亚洲国产成人在线播放| 亚洲男帅同性gay1069| 免费在线观看不卡| 丰满熟女人妻一区二区三| 国产美女永久免费无遮挡| 日韩欧美精品在线观看视频| 成人国产亚洲精品a区天堂华泰| 正在播放欧美一区| 欧美日韩一区中文字幕| 亚洲欧洲韩国日本视频| 国产成人亚洲综合色影视| 国产一区二区视频免费| 国产又粗又长又硬| 蜜臀aⅴ国产精品久久久国产老师| 久久综合色视频| 性欧美videosex高清少妇| 97人人模人人爽视频一区二区| 日韩中文字幕av| 日韩av在线天堂网| 欧美不卡在线视频| 在线不卡中文字幕| 欧美色视频一区| 中文欧美字幕免费| 久久精品亚洲精品国产欧美| 日韩专区一卡二卡| 无码国产精品一区二区免费16| 一级成人免费视频| 在线观看国产小视频| 国产成人精品a视频一区| 国产午夜精品理论片在线| 成人午夜剧场视频网站| 久久精品国产亚洲av久| 久久久九九九热| 91香蕉视频在线观看视频| 无码无遮挡又大又爽又黄的视频| 久久精品人成| 99在线首页视频| 国产成人av一区二区三区| 国产精华一区| 成人精品一二区| 成人精品久久av网站| 亚洲va欧美va在线观看| 99视频免费观看| 欧美日韩国产综合在线| 一区二区三区视频| 亚洲国产精品久久久久久女王| 久久精品欧美| 波多野结衣激情| 黄www在线观看| 日本人视频jizz页码69| 你懂的在线观看网站| 五月天激情丁香| 清纯粉嫩极品夜夜嗨av| 久草成人在线视频| a毛片在线免费观看| 美腿丝袜亚洲一区| av在线不卡网| 久久综合色婷婷| 午夜久久久久久久久| 欧美一级片在线| 日韩国产精品视频| 青草青草久热精品视频在线观看| 美乳少妇欧美精品| 国产 高清 精品 在线 a| 国产自产在线视频| 亚洲第一香蕉网| 日韩少妇高潮抽搐| 日本 国产 欧美色综合| 亚洲国产成人一区二区三区| 欧美日韩国产综合久久| 久久精品男人天堂| 日本一区二区三区四区视频| 桥本有菜av在线| 伊人伊成久久人综合网站| 中文av一区特黄| 日韩精品中文字幕在线一区| 97在线精品国自产拍中文| 亚洲精品中字| 三日本三级少妇三级99| 在线观看日韩中文字幕| 狠狠色丁香婷婷综合久久片| 91亚洲精品久久久蜜桃| 日韩久久久久久| 91久久久久久国产精品| 欧美日韩怡红院| 日韩欧美一级视频| 波多野结衣中文字幕一区| 色婷婷综合五月| 久久久在线观看| 国产a级片网站| 久草手机视频在线观看| 国产一区二区三区四区五区入口| 欧美在线综合视频| 国产精品自在线| 一二三级黄色片| 国产aⅴ爽av久久久久成人| 中文字幕亚洲一区二区va在线| 日韩视频免费观看高清完整版| 69堂成人精品视频免费| 99久久国产宗和精品1上映| 日韩无码精品一区二区三区| 99久久国产综合精品色伊 | 五月天丁香视频| 亚洲一线二线三线视频| 欧美中文字幕在线视频| 中文字幕一区二区三区四| 亚洲一区二区色| 久久精品夜夜夜夜久久| 欧美—级高清免费播放| 色乱码一区二区三区在线| 五月婷婷六月色| 亚洲成人精品av| 一区二区在线高清视频| 青青草av在线播放| 亚洲大片在线观看| 99在线热播| 国产精品第一页在线观看| 一区二区三区欧美视频| 91免费电影网站| 日本中文在线视频| 亚洲丶国产丶欧美一区二区三区| 成人欧美一区二区三区黑人| 全黄一级裸体片| 欧美国产欧美综合| 国产伊人精品在线| 中文字幕电影av| 国产婷婷色一区二区三区在线| 国模极品一区二区三区| dy888夜精品国产专区| 久久精品www| 夜夜亚洲天天久久| 国产精品v欧美精品v日韩| 天堂av免费在线| 狠狠爱在线视频一区| 免费亚洲精品视频| 91资源在线视频| 精品亚洲一区二区三区在线观看 | www.av亚洲| 国产精品91久久| 国产欧美日韩另类| 欧美二区三区的天堂| 欧美精品99久久| 麻豆精品视频在线观看视频| 久久露脸国产精品| 无码 人妻 在线 视频| 国产欧美日产一区| 五月天色一区| 久久精品99国产精品日本| 欧美亚洲激情视频| 天天操天天干视频| 亚洲国产精彩中文乱码av在线播放| 中文字幕成人免费视频| 国产亚洲精久久久久久| 成人激情视频小说免费下载| 国产富婆一级全黄大片| 九九热r在线视频精品| 日本一级免费视频| 88在线观看91蜜桃国自产| 不卡中文字幕在线| 国产福利一区在线| 国产日韩一区二区三区| 先锋av资源站| 亚洲一区二区免费| 不卡av电影在线| 欧美激情一二区| 亚洲成人生活片| 国产小视频国产精品| 成人免费毛片xxx| 欧美一区二区福利视频| aaaaa级少妇高潮大片免费看| 欧美精品第一页| 中文字幕久久av| 欧美日韩一级大片网址| 国内精品免费视频| 欧美日韩国产另类一区| 无需播放器的av| 亚洲国产精品久久久久婷婷884 | 国产三级精品三级| 国产视频一区二区视频| 欧美视频13p| 在线不卡av电影| 亚洲精品在线观看www| 在线能看的av| 国产福利精品在线| 久久精品国产成人一区二区三区| 欧美日韩精品一区| 中文字幕制服丝袜成人av| 小明看看成人免费视频| 日韩欧美在线字幕| 国产性生活毛片| 色偷偷9999www| 99久久精品无免国产免费| 国产精品二区二区三区| 久久久久亚洲蜜桃| 国产成人在线综合| 欧美日韩国产区一| 国产情侣在线视频| 8x拔播拔播x8国产精品| 国产米奇在线777精品观看| 五月天色一区| 欧美性xxxxx极品| 日本黄色网址大全| 久久男人av资源网站| 天堂网在线资源| 国产欧美精品aaaaaa片| 欧美日韩一区二区在线视频| 欧美精品一区二区性色a+v| 欧美亚洲国产一区在线观看网站| 欧美黄色免费在线观看| 成人美女av在线直播| 亚洲欧洲精品成人久久奇米网| 丰满少妇一区二区三区| 欧美亚洲第一页| 激情深爱一区二区| 8x8ⅹ国产精品一区二区二区| 欧美一区二区三区视频| 日本特黄特色aaa大片免费| 国内精品视频免费| 中文字幕一区二区在线观看| 精品毛片在线观看| 天天色天天操综合| 成人午夜福利一区二区| 久久久免费观看| 91免费国产在线观看| 黄色av网址在线观看| 日韩在线视频中文字幕| 国产不卡视频在线播放| 爆乳熟妇一区二区三区霸乳| 国产亚洲美女久久| 日韩影院在线观看| 国产性生活一级片| 麻豆乱码国产一区二区三区| 成人av午夜电影| 波多野结衣黄色网址| 无码内射中文字幕岛国片| 亚洲成人久久一区| 亚洲精品18在线观看| 老司机av网站| 日韩亚洲欧美精品| 久久噜噜噜精品国产亚洲综合| 欧美午夜寂寞影院|