Yoshua Bengio、姚期智、張亞勤：AI安全是“全球公共產(chǎn)品”

編輯：admin 2025-05-18 瀏覽：73 次

目錄一覽：

馬赫是什么意思？1馬赫速度到底有多快？相當(dāng)于每小時多少公里？ “音爆”是怎樣產(chǎn)生的？為什么我們看不到聲音，卻能看到音爆？

*本文轉(zhuǎn)載自AI國際安全論壇公眾號

AI安全國際對話發(fā)起人，從左到右依次是StuartRussell，姚期智，YoshuaBengio，張亞勤

九月五日至八日，中國工程院院士，清華大學(xué)講席教授、智能產(chǎn)業(yè)研究院（AIR）院長張亞勤，聯(lián)合圖靈獎得主YoshuaBengio、姚期智教授，加州大學(xué)伯克利分校教授StuartRussell等多位全球頂尖的人工智能（AI）科學(xué)家匯聚威尼斯，出席了由AI安全國際論壇（SafeAIForum）和博古睿研究院共同舉辦的第三屆國際AI安全對話（InternationalDialoguesonAISafety），共同呼吁各國政府和研究人員聯(lián)手應(yīng)對AI可能帶來的災(zāi)難性風(fēng)險。

圖靈獎得主YoshuaBengio

圖靈獎得主姚期智

在為期三天的會議中，與會科學(xué)家們共同達成了一份具有重要意義的共識聲明，其核心觀點強調(diào)了AI安全作為“全球公共產(chǎn)品”的重要性，建議各國應(yīng)將AI安全納入學(xué)術(shù)與技術(shù)合作的核心領(lǐng)域。

共識指出，人工智能系統(tǒng)的濫用或失控可能給全人類帶來災(zāi)難性后果。然而，我們尚未開發(fā)出必要的科學(xué)手段來管控和保障對高級智能的使用。由于人工智能帶來的風(fēng)險具有全球性，我們必須將人工智能安全視為全球公共產(chǎn)品，并為實現(xiàn)這些風(fēng)險的全球治理而努力。我們必須未雨綢繆，齊心防范任何隨時可能出現(xiàn)的災(zāi)難性風(fēng)險。國際社會的初步積極舉措表明，即使在緊張的地緣政治局勢下，在人工智能安全和治理方面開展合作也是可以實現(xiàn)的。然而，各國需要在現(xiàn)有的努力上邁出更大步伐。

清華大學(xué)智能產(chǎn)業(yè)研究院（AIR）院長張亞勤

北京智源人工智能研究院創(chuàng)始主席張宏江，與即任約翰·霍普金斯大學(xué)教授GillianHadfield

共識認為，作為第一步，各國應(yīng)設(shè)立有能力在其境內(nèi)監(jiān)測和應(yīng)對人工智能事故與災(zāi)難性風(fēng)險的部門。各國監(jiān)管部門應(yīng)協(xié)同合作，制定應(yīng)對重大人工智能事故與災(zāi)難性風(fēng)險的全球應(yīng)急計劃。長遠來看，各國應(yīng)建立國際監(jiān)管機制，以防止出現(xiàn)可能帶來全球災(zāi)難性風(fēng)險的模型。

為了應(yīng)對可能到來的由高級人工智能系統(tǒng)引發(fā)的災(zāi)難性風(fēng)險，科學(xué)家呼吁，國際社會應(yīng)考慮啟動以下三項工作程序：

應(yīng)急準(zhǔn)備協(xié)議與制度

通過這一機制，各國的安全監(jiān)管部門可召集會議，合作制定并承諾實施模型注冊和披露制度、事故報告機制、預(yù)警觸發(fā)點及應(yīng)急預(yù)案。

安全保障體系

當(dāng)模型的能力超過特定閾值時，要求開發(fā)者為模型的安全性提供高度可信的論證。對于高性能的人工智能系統(tǒng)，隨著它們的廣泛應(yīng)用，部署后的監(jiān)控也將成為保障體系的關(guān)鍵組成部分。這些安全保障措施應(yīng)接受獨立審計。

全球人工智能安全和驗證的獨立研究

應(yīng)通過技術(shù)開發(fā)，使各國能夠確認開發(fā)者以及其他國家提出的與人工智能安全相關(guān)的聲明是真實有效的。為了確保研究的獨立性，這項研究應(yīng)在全球范圍內(nèi)進行，并由多個國家的政府和慈善機構(gòu)共同資助。

清華大學(xué)國際安全與戰(zhàn)略中心主任傅瑩，清華大學(xué)人工智能國際治理研究院院長薛瀾,中國科學(xué)院自動化研究所類腦智能研究中心副主任曾毅遠程參與了討論。

在會議的第二天，科學(xué)家們與政策制定者、前國家元首及其他領(lǐng)域的專家進行了深入討論，參會者包括前愛爾蘭總統(tǒng)MaryRobinson，卡內(nèi)基國際和平基金會主席Mariano-Florentino(Tino)Cuéllar，歐盟人工智能標(biāo)準(zhǔn)CEN-CENELECJTC21主席SebastianHallensleben。面對人工智能技術(shù)的快速發(fā)展，專家們一致認為，盡快實施這些提案至關(guān)重要。此次聲明將呈交給多國政策制定者，并在會議中探討了國際社會應(yīng)如何協(xié)同合作，實現(xiàn)這一目標(biāo)的戰(zhàn)略路徑。

歐盟人工智能標(biāo)準(zhǔn)CEN-CENELECJTC21主席SebastianHallensleben

此次會議為全球AI安全領(lǐng)域注入了新的動力，也為未來AI治理架構(gòu)的完善指明了方向。

以下為“聲明”官方中文翻譯

《AI安全國際對話威尼斯共識》

人工智能系統(tǒng)能力的迅速發(fā)展，正將人類推向一個人工智能可以達到甚至超越人類智能的世界。專家普遍認同這些人工智能系統(tǒng)可能會在未來數(shù)十年內(nèi)被開發(fā)出來，很多人認為它們的到來會更快。人工智能系統(tǒng)的濫用或失控可能給全人類帶來災(zāi)難性后果。然而，我們尚未開發(fā)出必要的科學(xué)手段來管控和保障對高級智能的使用。由于人工智能帶來的風(fēng)險具有全球性，我們必須將人工智能安全視為全球公共產(chǎn)品，并為實現(xiàn)這些風(fēng)險的全球治理而努力。我們必須未雨綢繆，齊心防范任何隨時可能出現(xiàn)的災(zāi)難性風(fēng)險。

國際社會的初步積極舉措表明，即使在緊張的地緣政治局勢下，在人工智能安全和治理方面開展合作也是可以實現(xiàn)的。各國政府和人工智能開發(fā)者在兩次峰會上承諾遵循基礎(chǔ)性原則，以促進人工智能的負責(zé)任發(fā)展，并最大限度地減少風(fēng)險。得益于這些峰會，各國陸續(xù)設(shè)立了人工智能安全研究所或相似機構(gòu)，推進測評、研究和標(biāo)準(zhǔn)制定工作。

上述努力值得肯定，必須持續(xù)推進。各國需要為人工智能安全研究所提供足夠的資源，并繼續(xù)召開峰會，支持其他國際治理舉措。然而，各國需要在現(xiàn)有的努力上邁出更大步伐。作為第一步，各國應(yīng)設(shè)立有能力在其境內(nèi)監(jiān)測和應(yīng)對人工智能事故與災(zāi)難性風(fēng)險的部門。各國監(jiān)管部門應(yīng)協(xié)同合作，制定應(yīng)對重大人工智能事故與災(zāi)難性風(fēng)險的全球應(yīng)急計劃。長遠來看，各國應(yīng)建立國際監(jiān)管機制，以防止出現(xiàn)可能帶來全球災(zāi)難性風(fēng)險的模型。

我們必須開展深入的基礎(chǔ)研究，以確保高級人工智能系統(tǒng)的安全性。這項工作刻不容緩，以確保我們擁有充足的時間來開發(fā)和驗證相關(guān)技術(shù)，在需要管控高級人工智能時應(yīng)對自如。為此，我們呼吁各國將人工智能安全視為一個獨立于人工智能能力地緣戰(zhàn)略競爭的合作領(lǐng)域，專注于國際學(xué)術(shù)與技術(shù)合作。

為了應(yīng)對可能到來的由高級人工智能系統(tǒng)引發(fā)的災(zāi)難性風(fēng)險，國際社會應(yīng)考慮啟動以下三項工作程序：

應(yīng)急準(zhǔn)備協(xié)議和制度：通過這一機制，各國的安全監(jiān)管部門可召集會議，合作制定并承諾實施模型注冊和披露制度、事故報告機制、預(yù)警觸發(fā)點及應(yīng)急預(yù)案。

安全保障體系：當(dāng)模型的能力超過特定閾值時，要求開發(fā)者為模型的安全性提供高度可信的論證。對于高性能的人工智能系統(tǒng)，隨著它們的廣泛應(yīng)用，部署后的監(jiān)控也將成為保障體系的關(guān)鍵組成部分。這些安全保障措施應(yīng)接受獨立審計。

全球人工智能安全與驗證的獨立研究:應(yīng)通過技術(shù)開發(fā)，使各國能夠確認開發(fā)者以及其他國家提出的與人工智能安全相關(guān)的聲明是真實有效的。為了確保研究的獨立性，這項研究應(yīng)在全球范圍內(nèi)進行，并由多個國家的政府和慈善機構(gòu)共同資助。

應(yīng)急準(zhǔn)備協(xié)議和制度

就應(yīng)對先進人工智能系統(tǒng)所需的技術(shù)和制度措施，各國應(yīng)達成一致，無論這些系統(tǒng)的開發(fā)時間線如何。為促進這些協(xié)議的達成，我們需要建立一個國際機構(gòu)，將各國人工智能安全監(jiān)管部門聚集在一起，在制定和審核人工智能安全法規(guī)方面，推動不同司法管轄區(qū)的對話與合作。該機構(gòu)將確保各國采納并實施一套基本的安全準(zhǔn)備措施，包括模型注冊、信息披露與預(yù)警機制。

隨著時間推移，該機構(gòu)還可以制定驗證方法的標(biāo)準(zhǔn)，并承諾使用這些方法來執(zhí)行各國對安全保障體系的本地化實施。各國可以通過獎懲機制來相互監(jiān)督這些方法的執(zhí)行，例如將市場準(zhǔn)入與遵守全球標(biāo)準(zhǔn)掛鉤。專家和安全監(jiān)管機構(gòu)應(yīng)建立事故報告和應(yīng)急預(yù)案，并定期交流，確保驗證過程中采用的方法反映出當(dāng)前最新的科學(xué)理解。該機構(gòu)將發(fā)揮關(guān)鍵的初步協(xié)調(diào)作用。然而，從長遠來看，各國需要進一步努力，確保對高級人工智能風(fēng)險的有效全球治理。

安全保障體系

前沿人工智能開發(fā)者必須向本國監(jiān)管部門證明，其所開發(fā)或部署的系統(tǒng)不會逾越紅線，例如在AI安全國際對話北京共識中所界定的紅線。

為實現(xiàn)這一目標(biāo)，我們需要在風(fēng)險和紅線問題上進一步建立科學(xué)共識。此外，我們應(yīng)建立預(yù)警閾值，即模型的能力水平表明該模型可能會越過或接近越過紅線。該方法建立在現(xiàn)有的自愿承諾（如負責(zé)擴大政策）的基礎(chǔ)上，對不同框架進行統(tǒng)一和協(xié)調(diào)。能力低于預(yù)警閾值的模型只需有限的測試和評估，而對于超出這些預(yù)警閾值的高級人工智能系統(tǒng)，我們則必須采用更嚴(yán)格的保障機制。

當(dāng)前的部署前測試、評估和保障措施遠不夠充分。高級人工智能系統(tǒng)可能會逐漸增加與其他人工智能系統(tǒng)和用戶進行的復(fù)雜多智能體交互，而這可能導(dǎo)致難以預(yù)測的潛在風(fēng)險。部署后的監(jiān)控是整個保障體系的關(guān)鍵部分，它可以包括對模型行為的持續(xù)自動評估、人工智能事故追蹤的集中數(shù)據(jù)庫，以及人工智能在關(guān)鍵系統(tǒng)中的應(yīng)用報告。進一步的保障還可以通過自動化運行時驗證來實現(xiàn)，例如確保安全報告中的假設(shè)條件依然成立，并在模型運行到超出預(yù)期范圍的環(huán)境時安全地關(guān)閉系統(tǒng)。

各國在確保安全保障的落地中發(fā)揮著關(guān)鍵作用。各國應(yīng)要求開發(fā)者定期進行測試，判斷模型是否具備帶來潛在風(fēng)險的能力，并通過第三方獨立的部署前審計保證透明度，確保這些第三方獲得必要的權(quán)限，包括開發(fā)者的員工、系統(tǒng)和記錄等必要證據(jù)，以核實開發(fā)者的主張。此外，對于超出早期預(yù)警閾值的模型，各國政府可要求開發(fā)者在進一步訓(xùn)練或部署這些模型前，必須獲得獨立專家對其安全報告的批準(zhǔn)。各國可以幫助建立人工智能工程的倫理規(guī)范，例如要求工程師承擔(dān)類似于醫(yī)療或法律專業(yè)人士的個人責(zé)任，保護公眾利益。最后，各國還需要建立治理流程，以確保部署后的充分監(jiān)測。

盡管各國在安全保障體系上可能有所差異，國家間仍應(yīng)合作，確保體系間的互認性與可比性。

全球人工智能安全和驗證的獨立研究

AI安全和驗證的獨立研究對于開發(fā)確保安全的高級人工智能系統(tǒng)至關(guān)重要。國家、慈善機構(gòu)、企業(yè)、和專家應(yīng)設(shè)立一系列全球人工智能安全與驗證基金。這些資金應(yīng)當(dāng)逐步增加，直至其在全球人工智能研發(fā)支出中占據(jù)重要比例，以充分支持并增強獨立研究能力。

除了人工智能安全基礎(chǔ)研究，這些資金的其中一部分將專門用于隱私保護和安全驗證方法的研究，為國內(nèi)治理和國際合作提供支持。這些驗證方法將允許各國可信地核實人工智能開發(fā)者的評估結(jié)果，以及他們在安全報告中指定的任何緩解措施是否到位。在未來，這些方法還可能允許各國驗證其他國家提出的相關(guān)安全聲明，包括對安全保障體系的遵守情況，以及重大訓(xùn)練運行的申報。

全面的驗證最終可以通過多種方式進行，包括第三方治理（如獨立審計）、軟件（如審計跟蹤）以及硬件（如人工智能芯片上的硬件支持治理機制）。為確保全球信任，跨國聯(lián)合開發(fā)驗證方法，并對其進行壓力測試將變得尤為重要。

至關(guān)重要的一點是，全球廣受信賴的驗證方法，在過去曾使各國能在全球地緣政治緊張局勢下，對特定的國際協(xié)議作出承諾，而它在未來也可能再次發(fā)揮同樣的作用。

以下為“聲明”英文原文

ConsensusStatementonAISafetyasaGlobalPublicGood

Rapidadvancesinartificialintelligence(AI)systems’capabilitiesarepushingdes,,wehavenotyetdevelopedthenecessafetyasaglobalpublicgood,,wemustpreparetoaverttheattantcatastrophicrisksthatcouldarriveatanytime.

Promisinginitialstepsbytheinternationalcommunityshowcooperatioiplestofosterresponsi,statesestablishedAISafetyInstitutesorsimilarinstitutionstoadvancetesting,researchandstandards-setting.

,,,statesshoulddevelopauthoritiestodetectandr,statesshoulddevelopaninternationalgovernanceregimetopreventthedevelopmentofmodelsthatcouldposeglobalcatastrophicrisks.

Deepandfoundationalre,wecallonstatestocarveoutAIsafetyasacooperativeareaofacademicandtechnicalactivity,distinctfrombroadergeostrategiccompetitionondevelopmentofAIcapabilities.

TheinternationalcommunityshouldconsidersettingupthreeclearprocessestoprepareforaworldwhereadvancedAIsystemsposecatastrophicrisks:

EmergencyPreparednessAgreementsandInstitutions,throughwhichdomesticAIsafetyauthoritiesconvene,collaborateon,andcommittoimplementmodelregistrationanddisclosures,incidentreporting,tripwires,andcontingencyplans.

ASafetyAssuranceFramework,requiringdeveloperstomakeahigh-confidencesafetycasep

IndepentGlobalAISafetyandVerificationResearch,developingtechniquesthatwouldallowstatestorigorouslyverifythatAIsafety-relatedclaimsmadebydevelopers,andpotentiallyotherstates,yandfundedbyawiderangeofgovernmentsandphilanthropists.

EmergencyPreparednessAgreementsandInstitutions

StatesshouldagreeontechnicalandinstitutionalmeasuresrequiredtoprepareforadvancedAIsystems,,weneedaninternationalbodytobringtogetherAIsafetyauthorities,fosteringdialogueandcollaborationinthedevelopmesafetypreparednessmeasures,includingmodelregistration,disclosure,andtripwires.

Overtime,thisbodycouldalsosetstandardsforandcommittousingverificationmethohanisms,sontingencyplans,andregularlyupdateth,however,stateswillneedtogofurthertoensuretrulyglobalgovernanceofrisksfromadvancedAI.

SafetyAssuranceFramework

FrontierAIdevelopersmustdemonstratetodomesticauthoritiesthatthesystemstheydevelopordeploywillnotcrossredlinessuchasthosedefinedintheIDAIS-Beijingconsensusstatement.

Toimplementthis,,weshouldsetearly-warningthresholds:levelsofmodelcapabinlylimitedtestingandevaluation,whilemorerigorousassurancemechanismsareneededforadvancedAIsystemsexceedingtheseearly-warningthresholds.

Althoughtestingcanalertustorisks,,,aquantitativeanalysisthatwouldconvincethescientificcommunitythattheirsystemdesignissafe,,safetycasesforsufficientlyadvancedsystemsshoulddiscussorganizationalprocesses,includingincentivesandaccountabilitystructures,tofavorsafety.

Pre-deploymenttesting,mework,andcouldincludecontinuousautomatedassessmentofmodelbehavior,centralizedAIincidenttrackingdatabases,,suchasbyverifyingthattheassumptionsofasafetycasecontinuetoholdandsafelyshuttingdownamodelifoperatedinanout-of-scopeenvironment.

ningcapabilities,withtransparencyprovidedthroughindepentpre-deploymentauditsbythirdpartiesgrantedsufficientaccesstodevelopers’staff,systemsandrecordsnecessarytoverifythedeveloper’,formodelsexceedingearly-warningthresholds,statescouldrequirethatindepentexpertsapproveadeveloper’,statescanhelpinstituteethicalnormsforAIengineering,forexamplebystipulatingthatengineershaveanindividualdutytoprotectt,stateswillalsoneedtobuildgovernanceprocessestoensureadequatepost-deploymentmonitoring.

WhiletheremaybevariationsinSafetyAssuranceFrameworksrequirednationally,statesshouldcollaboratetoachievemutualrecognitionandcommensurabilityofframeworks.

IndepentGlobalAISafetyandVerificationResearch

IndepentresearchintoAIsafetyandverificationis,philanthropists,corporationsandexpertsshouldenableglobalindepentAIsafetyandverificddevelopmentexpiturestoadequatelysupportandgrowindepentresearchcapacity.

InadditiontofoundationalAIsafetyresearch,thesefundswouldfocusondevelopingprivacy-preservingandsecureverificationmethods,whi’sevaluationresults,,thesemethodsmayalsoallowstatestoverifysafety-relatedclaimsmadebyotherstates,includingcompliancewiththeSafetyAssuranceFrameworksanddeclarationsofsignificanttrainingruns.

Eventually,comprehensiveverificationcouldtakeplacethroughseveralmethods,includingthirdpartygovernance(,indepentaudits),software(,audittrails)andhardware(,hardware-enabledmechanismsonAIchips).Toensureglobaltrust,itwillbeimportanttohaveinternationalcollaborationsdevelopingandstress-testingverificationmethods.

Critically,despitebroadergeopoliticaltensions,globallytrustedverificationmethodshaveallowed,andcouldallowagain,statestocommittospecificinternationalagreements.

免責(zé)聲明：以上整理自互聯(lián)網(wǎng)，與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。（我們重在分享，尊重原創(chuàng)，如有侵權(quán)請聯(lián)系在線客服在24小時內(nèi)刪除）