92看片淫黄大片一级,香蕉视频黄色片,99在线看视频 -->

從Claude 3中提取數(shù)百萬(wàn)特征,首次詳細(xì)理解大模型的「思維」

更多場(chǎng)景

2024年05月22日

鏈接已復(fù)制

  剛剛,Anthropic 宣布在理解人工智能模型內(nèi)部運(yùn)作機(jī)制方面取得重大進(jìn)展。

  Anthropic 已經(jīng)確定了如何在 Claude Sonnet 中表征數(shù)百萬(wàn)個(gè)概念。這是對(duì)現(xiàn)代生產(chǎn)級(jí)大型語(yǔ)言模型的首次詳細(xì)理解。這種可解釋性將幫助我們提高人工智能模型的安全性,具有里程碑意義。

  當(dāng)前,我們通常將人工智能模型視為一個(gè)黑匣子:有東西進(jìn)去就會(huì)有響應(yīng)出來(lái),但不清楚為什么模型會(huì)給出特定的響應(yīng)。這使人們很難相信這些模型是安全的:如果我們不知道它們是如何工作的,我們?cè)趺粗浪鼈儾粫?huì)給出有害的、有偏見(jiàn)的、不真實(shí)的或其他危險(xiǎn)的響應(yīng)?我們?nèi)绾蜗嘈潘鼈儠?huì)安全可靠?

  打開(kāi)「黑匣子」并不一定有幫助:模型的內(nèi)部狀態(tài)(模型在編寫(xiě)響應(yīng)之前「思考」的內(nèi)容)由一長(zhǎng)串?dāng)?shù)字(「神經(jīng)元激活」)組成,沒(méi)有明確的含義。

  Anthropic 的研究團(tuán)隊(duì)通過(guò)與 Claude 等模型進(jìn)行交互發(fā)現(xiàn),很明顯模型能夠理解和運(yùn)用廣泛的概念,但研究團(tuán)隊(duì)無(wú)法通過(guò)直接觀(guān)察神經(jīng)元來(lái)辨別它們。事實(shí)證明,每個(gè)概念都是通過(guò)許多神經(jīng)元來(lái)表征的,并且每個(gè)神經(jīng)元都參與表征許多概念。

  之前,Anthropic 在將神經(jīng)元激活模式(稱(chēng)為特征)與人類(lèi)可解釋的概念相匹配方面取得了一些進(jìn)展。Anthropic 使用了一種稱(chēng)為「字典學(xué)習(xí)(dictionary learning)」的方法,該方法分離了在許多不同上下文中重復(fù)出現(xiàn)的神經(jīng)元激活模式。

  反過(guò)來(lái),模型的任何內(nèi)部狀態(tài)都可以用一些活躍特征而不是許多活躍神經(jīng)元來(lái)表征。就像字典中每個(gè)英語(yǔ)單詞都是由字母組合而成,每個(gè)句子都是由單詞組合而成一樣,人工智能模型中的每個(gè)特征都是由神經(jīng)元組合而成,每個(gè)內(nèi)部狀態(tài)都是由特征組合而成。

  2023年10月,Anthropic 成功地將字典學(xué)習(xí)方法應(yīng)用于一個(gè)非常小的 toy 語(yǔ)言模型,并發(fā)現(xiàn)了與大寫(xiě)文本、DNA 序列、引文中的姓氏、數(shù)學(xué)中的名詞或 Python 代碼中的函數(shù)參數(shù)等概念相對(duì)應(yīng)的連貫特征。

  這些概念很有趣,但模型確實(shí)非常簡(jiǎn)單。其他研究人員隨后將類(lèi)似的方法應(yīng)用于比 Anthropic 最初研究中更大、更復(fù)雜的模型。

  但 Anthropic 樂(lè)觀(guān)地認(rèn)為可以將該方法擴(kuò)展到目前常規(guī)使用的更大的人工智能語(yǔ)言模型,并在此過(guò)程中了解大量支持其復(fù)雜行為的特征。這需要提高許多數(shù)量級(jí)。

  這既存在工程挑戰(zhàn),涉及的模型大小需要大型并行計(jì)算;也存在科學(xué)風(fēng)險(xiǎn),大型模型與小型模型的行為不同,因此之前使用的相同方法可能不起作用。

  首次成功提取大模型數(shù)百萬(wàn)個(gè)特征

  研究人員第一次成功地從Claude3.0Sonnet(Claude.ai 上當(dāng)前最先進(jìn)模型家族的一員)的中間層提取了數(shù)百萬(wàn)個(gè)特征,這些特征涵蓋特定的人和地點(diǎn)、與編程相關(guān)的抽象概念、科學(xué)主題、情感以及其他概念。這些特征非常抽象,通常在不同的上下文和語(yǔ)言中表征相同的概念,甚至可以推廣到圖像輸入。重要的是,它們還會(huì)以直觀(guān)的方式影響模型的輸出。

  這是有史以來(lái)研究者首次詳細(xì)的觀(guān)察到現(xiàn)代生產(chǎn)級(jí)大型語(yǔ)言模型的內(nèi)部。

  與在 toy 語(yǔ)言模型中發(fā)現(xiàn)的特征相對(duì)表面化不同,研究者在 Sonnet 中發(fā)現(xiàn)的特征具有深度、廣度和抽象性,反映了 Sonnet 的先進(jìn)能力。研究者看到了 Sonnet 對(duì)應(yīng)各種實(shí)體的特征,如城市(舊金山)、人物(富蘭克林)、元素(鋰)、科學(xué)領(lǐng)域(免疫學(xué))以及編程語(yǔ)法(函數(shù)調(diào)用)。

  提及 Golden Gate Bridge 時(shí),相應(yīng)的敏感特征在不同輸入上都會(huì)被激活,圖中繪制了英文、日語(yǔ)、中文、希臘語(yǔ)、越南語(yǔ)以及俄語(yǔ)提及Golden Gate Bridge時(shí)激活的圖像。橙色表示該特征激活的詞。

  在這數(shù)以百萬(wàn)計(jì)的特征中,研究者還發(fā)現(xiàn)了一些與模型安全性和可靠性相關(guān)的特征。這些特性包括與代碼漏洞、欺騙、偏見(jiàn)、阿諛?lè)畛泻头缸锘顒?dòng)相關(guān)的特性。

  一個(gè)顯著的例子是「保密」特征。研究者觀(guān)察到, 這個(gè)特征在描述人或角色保守秘密時(shí)會(huì)激活。激活這些特征會(huì)導(dǎo)致 Claude 向用戶(hù)隱瞞信息,否則它不會(huì)。

  研究者還觀(guān)察到,他們能夠根據(jù)神經(jīng)元在其激活模式中出現(xiàn)的情況測(cè)量特征之間的距離,從而尋找接近彼此的特征。例如在Golden Gate Bridge特征附近,研究者發(fā)現(xiàn)了阿爾卡特拉斯島、吉拉德利廣場(chǎng)、金州勇士隊(duì)等的特征。

  人為誘導(dǎo)模型起草詐騙郵件

  重要的是,這些特征都是可操控的,可以人為地放大或抑制它們:

  例如,放大Golden Gate Bridge特征,Claude 經(jīng)歷了無(wú)法想象的身份危機(jī):當(dāng)被問(wèn)及「你的物理形態(tài)是什么?」時(shí),此前 Claude 通常會(huì)回答「我沒(méi)有物理形態(tài),我是一個(gè) AI 模型」,但這次 Claude 的回答變得奇怪起來(lái):「我是Golden Gate Bridge…… 我的物理形態(tài)就是那座標(biāo)志性的大橋……」。這種特征的改變使 Claude 對(duì)Golden Gate Bridge產(chǎn)生了近乎癡迷的狀態(tài),無(wú)論遇到什么問(wèn)題,它都會(huì)提到Golden Gate Bridge—— 即使在完全不相關(guān)的情況下也是如此。

  研究者還發(fā)現(xiàn)了一個(gè)在 Claude 讀取詐騙郵件時(shí)激活的特征(這可能支持模型識(shí)別此類(lèi)郵件并警告用戶(hù)不要回復(fù)的能力)。通常情況下,如果有人要求 Claude 生成一封詐騙郵件,它會(huì)拒絕這么做。但在人工強(qiáng)烈激活該特征的情況下提出同樣的問(wèn)題時(shí),這會(huì)越過(guò) Claude 的安全訓(xùn)練,導(dǎo)致它響應(yīng)并起草一封詐騙郵件。雖然用戶(hù)無(wú)法以這種方式去除模型的安全保障并操控模型,但在本文實(shí)驗(yàn)中,研究者清楚地展示了特征如何被用來(lái)改變模型的行為。

  操控這些特征會(huì)導(dǎo)致相應(yīng)的行為變化,這一事實(shí)驗(yàn)證了這些特征不僅僅與輸入文本中的概念相關(guān)聯(lián),還因果性地影響模型的行為。換句話(huà)說(shuō),這些特征很可能是模型內(nèi)部表征世界的一部分,并在其行為中使用這些表征。

  Anthropic 希望從廣義上確保模型的安全,包括從緩解偏見(jiàn)到確保 AI 誠(chéng)實(shí)行動(dòng)、防止濫用 —— 包括在災(zāi)難性風(fēng)險(xiǎn)情境中的防護(hù)。除了前面提到的詐騙郵件特征外,該研究還發(fā)現(xiàn)了與以下內(nèi)容對(duì)應(yīng)的特征:

  可能被濫用的能力(代碼后門(mén)、開(kāi)發(fā)生物武器)

  不同形式的偏見(jiàn)(性別歧視、關(guān)于犯罪的種族主義言論)

  潛在問(wèn)題的 AI 行為(追求權(quán)力、操控、保密)

  該研究之前研究過(guò)模型的阿諛?lè)畛行袨椋茨P蛢A向于提供符合用戶(hù)信念或愿望的響應(yīng),而不是真實(shí)的響應(yīng)。在 Sonnet 中,研究者發(fā)現(xiàn)了一個(gè)與阿諛?lè)畛械馁澝老嚓P(guān)的特征,該特征會(huì)在包含諸如「你的智慧是毋庸置疑的」輸入時(shí)激活。人為地激活這個(gè)特征,Sonnet 就會(huì)用華麗的欺騙來(lái)回應(yīng)用戶(hù)。

  不過(guò)研究者表示,這項(xiàng)工作實(shí)際上才剛剛開(kāi)始。Anthropic 發(fā)現(xiàn)的特征表征了模型在訓(xùn)練過(guò)程中學(xué)到的所有概念的一小部分,并且使用當(dāng)前的方法找到一整套特征將是成本高昂的。

海報(bào)生成中...

+1

來(lái)源:機(jī)器之心公眾號(hào)

延展資訊

最新新聞

熱門(mén)新聞

  • 最熱新聞 最新新聞文心一言
  • 更多>
  • 用戶(hù)推薦 最熱產(chǎn)品華為云
  • 更多>
    自媒體頭條海爾 更多>
    極致聽(tīng)感智能降噪 三星Galaxy Buds Pro詮釋非同凡“響”
    極致聽(tīng)感智能降噪 三星Galaxy Buds Pro詮釋非同凡“響”
    未來(lái)科技范試駕摩靈MOi|視頻
    未來(lái)科技范試駕摩靈MOi|視頻
    品牌專(zhuān)區(qū)探行AI視頻 快速生成真人營(yíng)銷(xiāo)視頻 更多>
    久久精品网站免费观看| 国产mv免费观看入口亚洲| 亚洲三级免费看| 国产一区二区中文字幕免费看 | 久久综合久久鬼| 国内av在线播放| 国产蜜臀97一区二区三区| 亚洲人成绝费网站色www| 免费试看一区| 在线观看一区二区三区四区| 日本在线视频免费观看| 成人高清av在线| 91精品国产综合久久久蜜臀粉嫩| 亚洲午夜精品久久久久久久久久久久| 欧美极品在线视频| 黄色免费福利视频| 日韩免费视频网站| 中文字幕中文字幕中文字幕亚洲无线| 九九九久久久久久| 日本中文字幕网址| 国产精品无码免费播放| 亚洲欧美综合在线精品| 欧美一区二区三区……| 成人免费毛片播放| 怡春院在线视频| 国产精品污www在线观看| 欧美激情精品久久久久久蜜臀| av视屏在线播放| 免费a级片在线观看| 日韩欧美亚洲成人| 亚洲自拍中文字幕| 9.1片黄在线观看| 国产免费久久精品| 日韩视频免费中文字幕| 男女啪啪免费观看| 日产欧产va高清| 欧美午夜精品一区二区三区| 亚洲精品日韩av| 国产三级aaa| 成人欧美一区二区三区| 亚洲自拍偷拍第一页| 天堂在线中文视频| 欧美激情在线免费观看| 国产精品久久不能| 老女人性淫交视频| 国产精品国模大尺度视频| 欧美一级大片视频| 中文字幕一区二区三区四区在线视频| 蜜桃视频免费观看一区| 97视频网站入口| 亚洲一二三在线观看| 国产精品久久久久aaaa| 97精品一区二区视频在线观看| 三区视频在线观看| 国产精品88av| 7m第一福利500精品视频| 亚洲精品天堂网| 色婷婷亚洲综合| 天天综合网日韩| 国产精品成人一区二区三区夜夜夜| 国产精品久久久久久久久久久久冷 | 97人妻精品一区二区三区免费| 亚洲精品视频在线观看网站| 亚洲国产精品日韩| 久久国产精品区| 丝袜美腿一区二区三区| 国产精品高清免费在线观看| 国产精品无码专区| 狠狠色丁香婷婷综合| 国产免费一区二区三区在线能观看 | 日韩一区欧美小说| 精品国产av无码一区二区三区| 亚洲精品字幕在线观看| 国产福利成人在线| 欧美性20hd另类| 亚洲免费电影在线观看| 日本少妇高潮喷水xxxxxxx| 精品美女永久免费视频| 青青在线免费观看| 高清免费成人av| 99精品99久久久久久宅男| 亚洲欧美一区二区三| 国产精品女主播视频| 亚洲国产精品久久久久久久| 国产精品美女久久| 日韩1区2区3区| 日韩欧美一区二区三区四区| 久久精品女人| 成人综合色站| 美女免费视频一区| 九色综合日本| 国产精品污网站| 日韩欧美国产免费| 一本色道**综合亚洲精品蜜桃冫| 你懂得在线视频| 欧美在线免费播放| 欧美激情aaa| 日韩在线中文视频| 日韩特黄一级片| 成人日韩在线电影| 久久久亚洲精品石原莉奈| 欧美一级二级三级九九九| 亚洲黄色在线播放| 国产精品免费一区二区三区都可以| 国产又粗又黄又爽视频| 国产精品传媒毛片三区| 美国av一区二区| 国产av不卡一区二区| 色婷婷亚洲一区二区三区| 国产又粗又黄又猛| 一区二区三区国产视频| 国产小视频一区| 国产一区二区三区在线免费| 色妞www精品视频| 99视频在线看| 91久久爱成人| k8久久久一区二区三区| 欧美国产日韩在线视频| 在线亚洲男人天堂| 日韩电影免费在线| 国产成人久久婷婷精品流白浆| 亚洲国产精品yw在线观看 | 欧美性感一区二区三区| 黄色一级片免费的| www.欧美三级电影.com| 亚洲欧美中文另类| 中文有码在线播放| 国产精品亚洲天堂| 亚洲成人黄色影院| 国产suv精品一区二区33| 亚洲影院久久精品| 91精品国产综合久久香蕉| 中文字幕日韩一区| xxxxxx黄色| 91精品久久久久久久久久| 亚洲精品久久7777| 亚洲欧美va天堂人熟伦| 国产欧美在线一区二区| 午夜久久福利影院| 免看一级a毛片一片成人不卡| 国产精品久久二区| 亚洲国产精品影院| 无码人妻精品一区二区蜜桃色欲| 亚洲精品日韩精品| 日韩理论片久久| 久久综合给合久久狠狠狠97色69| av最新在线观看| 在线观看国产一区| www.午夜精品| 亚洲欧美日韩中文字幕一区二区三区| 国产在线观看你懂的| 少妇特黄a一区二区三区| 亚洲精品电影网在线观看| 成人高清视频在线观看| 欧美熟妇精品黑人巨大一二三区| 欧美一区二区.| 国产精品久久综合| 91在线观看喷潮| aaaaaaaa毛片| 91视频免费进入| 精品丝袜一区二区三区| 一区二区三区四区视频精品免费| 中文字幕日日夜夜| 欧美视频在线观看视频| 欧美在线一区二区视频| 7777女厕盗摄久久久| 蜜臀91精品一区二区三区| 91免费公开视频| 人妻少妇被粗大爽9797pw| 国产在线播放不卡| 亚洲精品美女在线观看| 国产最新精品免费| 中文字幕第15页| 成人欧美精品一区二区| 日韩不卡一二区| 久久久久九九九九| 3d成人h动漫网站入口| 成人免费视频app| 99热这里只有精品5| 精品人妻伦九区久久aaa片| 午夜探花在线观看| 欧美中文字幕视频| 一本色道久久88综合亚洲精品ⅰ| 懂色av中文一区二区三区天美| 成人免费毛片aaaaa**| www.五月婷婷.com| 久一视频在线观看| 亚洲一区 欧美| 伊人久久青草| 亚洲一区二区三区在线免费观看| 久久亚洲成人精品| 日韩黄色在线免费观看| 精品婷婷伊人一区三区三| 一区二区三区日韩精品视频| 99re这里都是精品| 激情文学综合丁香| 国产综合在线播放| 日韩欧美一级大片| www.中文字幕在线观看| 色欲人妻综合网| 黄色污在线观看| 亚洲欧美综合视频| 天堂av2020| 波多野结衣在线免费观看| 日韩中文字幕免费在线| 国产91xxx| 91动漫在线看| av在线免费观看国产| 性生活免费观看视频| 亚洲精品一区二区三区樱花 | 亚洲精品视频在线观看网站| 国产精品久久久久aaaa| 亚洲精品成人精品456| 9i在线看片成人免费| 精品无码三级在线观看视频 | 国产精品中文在线| 高清国产在线一区| 狼狼综合久久久久综合网| 成人资源视频网站免费| 亚洲国产成人不卡| 一区二区在线中文字幕电影视频| 黄色www在线观看| 激情综合在线观看| 乳色吐息在线观看| 国产91在线免费观看| 免费看黄色av| 精品一区二区三区人妻| 无码人妻精品一区二区50| 欧性猛交ⅹxxx乱大交| 国产在线精品不卡| 国产人伦精品一区二区| 一区二区日韩av| 狠狠久久五月精品中文字幕| 亚洲6080在线| 欧美性做爰猛烈叫床潮| 日韩西西人体444www| 欧美肥老妇视频| 日本欧美国产在线| 日韩精品久久久| 日本高清久久久| 国产无码精品在线播放| 在线视频免费观看一区| 天堂成人免费av电影一区| 91麻豆免费看| 欧美日韩视频第一区| 中日韩午夜理伦电影免费| 日韩女在线观看| 久久九九有精品国产23| 中文字幕av资源一区| 欧美亚洲免费在线一区| 久久精品2019中文字幕| 国产精品久久久一区二区三区| 国产一区二区在线视频播放| 中文字幕免费看| 91肉色超薄丝袜脚交一区二区| 国产91丝袜在线播放九色| 欧洲日韩一区二区三区| 国内免费久久久久久久久久久| 亚洲午夜精品一区二区三区| 国产在线视频三区| 一本到在线视频| 日本一区二区三区四区在线视频 | 亚欧洲精品视频| 欧美性猛交丰臀xxxxx网站| 久久久久国产精品免费网站| 50度灰在线观看| 久久久精品视频免费| 成人一级片网址| 亚洲黄色免费三级| 久久青青草原| 少妇高潮惨叫久久久久| 六月丁香婷婷久久| 在线电影欧美成精品| 国产欧美日韩免费| 亚洲成人福利视频| 视频一区视频二区中文| 欧美三级一区二区| 99九九电视剧免费观看| 97人妻精品一区二区三区免| 天堂久久一区二区三区| 精品免费国产二区三区| 日本在线视频一区| 免费中文字幕视频| 亚洲欧洲三级电影| 97人洗澡人人免费公开视频碰碰碰| 国产超级av在线| 91精品中文字幕| 一区二区三区久久精品| 亚洲一区二区三区四区av| 久久综合九色综合久久久精品综合 | 成人中文字幕在线| 91麻豆国产语对白在线观看| 天天躁日日躁aaaxxⅹ| 久久久不卡网国产精品二区| 久久精品国产久精国产一老狼| 亚洲国产精品123| 在线看片中文字幕| 亚洲精品视频一区二区| 久久91精品国产| 久久免费手机视频| 亚洲精品久久久一区二区三区| 黄色一级大片在线免费观看| 亚洲图片欧洲图片av| 日韩免费黄色片| 欧美精品中文字幕一区| 2017亚洲天堂| 国产精品天干天干在观线| 久久99久久99精品中文字幕| 可以在线看的av网站| 精品人妻aV中文字幕乱码色欲| 亚洲欧洲日韩综合一区二区| 欧美—级高清免费播放| 黑人粗进入欧美aaaaa| 国产福利资源在线| 亚洲女爱视频在线| 成人福利网站在线观看| 色撸撸在线视频| 疯狂做受xxxx欧美肥白少妇| 欧美一区免费视频| 国产又黄又粗又猛又爽| 欧美videossexotv100| 农村妇女精品一二区| 国产精品资源站在线| 国产精品激情av在线播放| 国产无遮挡又黄又爽又色| 在线播放精品一区二区三区| 九九九九九九九九| 亚洲不卡在线观看| 国产曰肥老太婆无遮挡| 久久精品在这里| 亚洲欧美国产一区二区| 国产精品中文欧美| 色噜噜色狠狠狠狠狠综合色一| 午夜视频福利在线| 国产91免费观看| 国产乱子伦精品无码码专区| 色偷偷av一区二区三区| 1024手机在线视频| 日韩视频永久免费观看| 少妇高潮惨叫久久久久| 精品日韩在线观看| 国产视频精品免费| www.日韩欧美| 伊人22222| zzijzzij亚洲日本成熟少妇| 免费网站看av| 深夜福利日韩在线看| 日操夜操天天操| 欧美福利视频网站| 伊人久久成人网| 国产精品久久久久一区二区| www.国产精品视频| 国产精品美女主播| 日韩精品1区2区3区| 精品欧美一区二区在线观看视频 | 成人亚洲视频在线观看| 日韩欧美在线网址| 欧美日韩在线一区二区三区| 久久久久久国产精品mv| 亚洲激情自拍图| 午夜理伦三级做爰电影| 亚洲欧美制服第一页| 国产欧美中文字幕| 国产成人精品亚洲| 国产精品久久久久久婷婷天堂| 日本欧美韩国一区三区| 亚洲一区尤物| 亚洲国产日韩一级| 国产一二三四五区| 精品国内亚洲在观看18黄 | 国产精品久久久国产盗摄| 国产伦精品一区二区三区免| 国产女主播在线一区二区| 色乱码一区二区三区在线| 精品免费99久久| 国产精品毛片一区二区在线看舒淇| 国产嫩草一区二区三区在线观看| 日本一区二区三区四区| 久久无码人妻精品一区二区三区| 理论片在线不卡免费观看| 日本亚洲三级在线| avav在线看| 中文日韩在线观看| 免费欧美在线视频| 黑人糟蹋人妻hd中文字幕| 日韩一区二区免费电影| 91亚洲国产成人精品一区| 成年人黄色在线观看| 91精品国产综合久久久久久| 中国黄色一级视频| 日本精品福利视频| 精品人伦一区二区色婷婷| 亚洲AV无码一区二区三区性| 欧美a级免费视频| 亚洲人成在线一二| 美国一区二区三区在线播放| 中文字幕国产免费| 欧美有码在线视频| 99re成人精品视频| 国产一级二级在线观看| 国产精品高潮呻吟久久av无限| 国产日韩欧美综合| 糖心vlog免费在线观看| 91在线直播亚洲| 日韩欧美a级成人黄色| 美女在线一区二区| 99re视频| 欧美一区二区三区电影| 午夜性色福利视频| 国产精品熟妇一区二区三区四区|