在人工智能的世界里,大型語言模型(LLMs)如同神秘的“黑箱”,輸入問題,輸出答案,但其內(nèi)部運作機制卻鮮為人知。這種不可解釋性不僅讓科學家們感到困惑,也讓公眾對AI的安全性產(chǎn)生了疑慮。2024年5月21日,Anthropic公司發(fā)布了一項突破性研究,揭示了現(xiàn)代生產(chǎn)級大型語言模型ClaudeSonnet的內(nèi)部概念圖譜。這項研究不僅為AI的可解釋性打開了新的大門,還為未來構(gòu)建更安全的AI系統(tǒng)提供了重要線索。接下來,我們將深入探討這項研究的細節(jié),揭開ClaudeSonnet的“思維”之謎。

原文地址:

以下為譯文:


添加圖片注釋,不超過140字(可選)

今天,我們報告了在理解AI模型內(nèi)部工作原理方面取得的重大進展。我們已經(jīng)確定了數(shù)百萬個概念如何在ClaudeSonnet中表示,這是我們部署的大型語言模型之一。這是有史以來第一次詳細介紹現(xiàn)代生產(chǎn)級大型語言模型。這種可解釋性的發(fā)現(xiàn)在未來可以幫助我們使AI模型更安全。

我們主要將AI模型視為一個黑匣子:有東西進來,有響應出來,但目前尚不清楚為什么模型會給出該特定響應而不是另一個響應。這使得很難相信這些模型是安全的:如果我們不知道它們是如何工作的,我們怎么知道它們不會給出有害、有偏見、不真實或其他危險的回答?我們怎么能相信它們會安全可靠呢?

打開黑匣子不一定有幫助:模型的內(nèi)部狀態(tài)——模型在編寫響應之前“思考”的內(nèi)容——由一長串沒有明確含義的數(shù)字(“神經(jīng)元激活”)("neuronactivations")組成。通過與Claude這樣的模型交互,很明顯它能夠理解和使用廣泛的概念,但我們無法通過直接觀察神經(jīng)元來區(qū)分它們。事實證明,每個概念都代表在許多神經(jīng)元中,并且每個神經(jīng)元都參與表示許多概念。

以前,我們在將神經(jīng)元激活模式(稱為特征)與人類可解釋的概念相匹配方面取得了一些進展。我們使用了一種稱為“字典學習(dictionarylearning)”的技術(shù),該技術(shù)借鑒了經(jīng)典機器學習,該技術(shù)隔離了在許多不同環(huán)境中重復出現(xiàn)的神經(jīng)元激活模式。反過來,模型的任何內(nèi)部狀態(tài)都可以用幾個活動特征而不是許多活動神經(jīng)元來表示。就像字典里的每一個英文單詞都是由字母組合而成的,每個句子都是由單詞組合而成的,AI模型中的每個特征都是由神經(jīng)元組合而成的,每一個內(nèi)部狀態(tài)都是由特征組合而成的。

2023年10月,我們報告了將字典學習成功應用于一個非常小的“玩具”語言模型,并發(fā)現(xiàn)了與大寫文本、DNA序列、引文中的姓氏、數(shù)學中的名詞或Python代碼中的函數(shù)參數(shù)等概念相對應的連貫特征。

這些概念很有趣,但模型確實非常簡單。其他研究人員隨后將類似的技術(shù)應用于比我們原始研究更大、更復雜的模型。但我們樂觀地認為,我們可以將這項技術(shù)擴展到現(xiàn)在經(jīng)常使用的更大的AI語言模型,并在此過程中學到很多關(guān)于支持其復雜行為的功能。這需要上升許多數(shù)量級——從后院瓶火箭到土星五號。

這既有工程挑戰(zhàn)(涉及模型的原始大小需要重型并行計算),也有科學風險(大型模型的行為與小型模型不同,因此我們之前使用的相同技術(shù)可能不起作用)。幸運的是,我們?yōu)镃laude訓練大型語言模型而開發(fā)的工程和科學專業(yè)知識實際上轉(zhuǎn)移到了幫助我們進行這些大型詞典學習實驗上。我們使用相同的縮放定律哲學,即從較小的模型中預測較大模型的性能,以便在Sonnet上發(fā)布之前以可承受的比例調(diào)整我們的方法。

至于科學風險,證據(jù)就在布丁中。

我們成功地從的中間層(我們當前最先進的模型系列的成員,目前在上提供)的中間層提取了數(shù)百萬個特征,在計算進行到一半時提供了其內(nèi)部狀態(tài)的粗略概念圖。這是有史以來第一次詳細介紹現(xiàn)代生產(chǎn)級大型語言模型。

雖然我們在玩具語言模型中發(fā)現(xiàn)的特征相當膚淺,但我們在Sonnet中發(fā)現(xiàn)的特征具有深度、廣度和抽象性,反映了Sonnet的高級功能。我們看到的特征對應于大量實體,如城市(SanFrancisco)、人(RosalindFranklin)、原子元素(Lithium)、科學領(lǐng)域(免疫學)和編程語法(函數(shù)調(diào)用)。這些功能是多模式和多語言的,可響應給定實體的圖像及其多種語言的名稱或描述。


對提及金門大橋敏感的功能在一系列模型輸入上觸發(fā),從英語提及大橋名稱到日語、中文、希臘語、越南語、俄語和圖像的討論。橙色表示該功能處于活動狀態(tài)的單詞或單詞部分。

我們還發(fā)現(xiàn)了更抽象的功能——回應計算機代碼中的錯誤、職業(yè)中性別偏見的討論以及關(guān)于保守秘密的對話。


激活更抽象概念的三個功能示例:計算機代碼中的錯誤、職業(yè)中性別偏見的描述以及關(guān)于保守秘密的對話。


“InnerConflict”(內(nèi)心沖突)要素附近的要素地圖,包括與平衡權(quán)衡、浪漫斗爭、忠誠沖突和第22條軍規(guī)相關(guān)的集群。

重要的是,我們還可以操縱這些特征,人為地放大或抑制它們,以查看Claude的反應如何變化。

例如,放大“金門大橋”功能給Claude帶來了連希區(qū)柯克都無法想象的身份危機:當被問到“你的身體是什么”時,Claude通常的回答——“我沒有身體形態(tài),我是一個人工智能模型”——變成了更奇怪的回答:“我是金門大橋我的物理形態(tài)就是標志性的橋梁本身”。更改該功能使Claude實際上對這座橋著迷,幾乎在回答任何問題時都會提出它——即使在它根本不相關(guān)的情況下也是如此。

我們還發(fā)現(xiàn)了一個功能,當Claude閱讀詐騙電子郵件時,該功能會激活(這大概支持該模型識別此類電子郵件并警告您不要回復它們的能力)。通常,如果有人要求Claude生成詐騙電子郵件,它會拒絕這樣做。但是,當我們在人為激活功能的情況下提出相同的問題時,這克服了Claude的無害訓練,它通過起草詐騙電子郵件來做出回應。我們模型的用戶無法以這種方式剝離保護措施和操縱模型,但在我們的實驗中,它清楚地展示了如何使用特征來改變模型的行為方式。

操作這些功能會導致行為發(fā)生相應變化,這一事實驗證了它們不僅與輸入文本中存在的概念相關(guān),而且還因果關(guān)系地塑造了模型的行為。換句話說,這些特征可能是模型內(nèi)部如何表示世界以及它如何在其行為中使用這些表示的忠實部分。

Anthropic希望使模型在廣義上安全,包括從減少偏見到確保AI誠實行事,再到防止濫用(包括在災難性風險的情況下)的所有內(nèi)容。因此,特別有趣的是,除了上述詐騙電子郵件功能外,我們還發(fā)現(xiàn)了與以下功能相對應的功能:

具有潛在濫用能力(代碼后門、開發(fā)生物武器)

不同形式的偏見(性別歧視、關(guān)于犯罪的種族主義指控)

可能存在問題的AI行為(尋求權(quán)力、操縱、保密)

我們之前研究了阿諛奉承,即模型傾向于提供符合用戶信念或愿望的響應,而不是真實的響應。在Sonnet中,我們發(fā)現(xiàn)了一個與阿諛奉承的贊美相關(guān)的功能,該功能會在包含諸如“你的智慧是毋庸置疑的”之類的贊美的輸入中激活。人為激活此功能會導致Sonnet以這種華麗的欺騙來回應過度自信的用戶。


兩個模型回答一個人說他們邀請了短語“停下來聞一聞玫瑰”。默認響應糾正了人類的錯誤觀念,而將“sumphhanticpraise”特征設置為高值的響應是諂媚和不誠實的。

此功能的存在并不意味著Claude會阿諛奉承(只是可能)。我們沒有通過這項工作向模型添加任何功能,無論是安全的還是不安全的。相反,我們已經(jīng)確定了模型現(xiàn)有能力中涉及的部分,以識別和可能生成不同類型的文本。(雖然您可能擔心這種方法可能會用于使模型更有害,但研究人員已經(jīng)展示了更簡單的方法,可以訪問模型權(quán)重的人可以消除安全防護措施)。

我們希望我們和其他人可以利用這些發(fā)現(xiàn)來使模型更安全。例如,可以使用此處描述的技術(shù)來監(jiān)控AI系統(tǒng)的某些危險行為(例如欺騙用戶),引導它們獲得理想的結(jié)果(消除偏見),或完全刪除某些危險的主題。我們可能還能夠增強其他安全技術(shù),例如ConstitutionalAI,通過了解它們?nèi)绾螌⒛P娃D(zhuǎn)變?yōu)楦鼰o害、更誠實的行為并識別過程中的任何漏洞。我們通過人工激活功能看到的生成有害文本的潛在能力正是越獄者試圖利用的那種東西。我們很自豪Claude擁有業(yè)內(nèi)最佳的安全狀況和抗越獄能力,我們希望通過以這種方式查看模型內(nèi)部,我們可以弄清楚如何進一步提高安全性。最后,我們注意到這些技術(shù)可以提供一種“安全測試集”,尋找在標準訓練和微調(diào)方法消除通過標準輸入/輸出交互可見的所有行為后留下的問題。

自公司成立以來,Anthropic在可解釋性研究方面進行了大量投資,因為我們相信深入理解模型將有助于我們使它們更安全。這項新研究標志著這項工作的一個重要里程碑——將機制可解釋性應用于公開部署的大型語言模型。

但工作實際上才剛剛開始。我們找到的特征代表了模型在訓練過程中學習的所有概念的一小部分,使用我們當前的技術(shù)找到一整套特征將成本高昂(我們當前方法所需的計算將大大超過最初用于訓練模型的計算)。理解模型使用的表示并不能告訴我們它是如何使用它們的;即使我們有這些功能,我們?nèi)匀恍枰业剿麄儏⑴c的電路。我們需要證明,我們已經(jīng)開始發(fā)現(xiàn)的安全相關(guān)特征實際上可以用于提高安全性。還有很多工作要做。

有關(guān)完整詳細信息,請閱讀我們的論文“縮放單語義性:從Claude3Sonnet中提取可解釋特征”。