*本文轉(zhuǎn)載自AI國際安全論壇公眾號


AI安全國際對話發(fā)起人,從左到右依次是StuartRussell,姚期智,YoshuaBengio,張亞勤

九月五日至八日,中國工程院院士,清華大學(xué)講席教授、智能產(chǎn)業(yè)研究院(AIR)院長張亞勤,聯(lián)合圖靈獎得主YoshuaBengio、姚期智教授,加州大學(xué)伯克利分校教授StuartRussell等多位全球頂尖的人工智能(AI)科學(xué)家匯聚威尼斯,出席了由AI安全國際論壇(SafeAIForum)和博古睿研究院共同舉辦的第三屆國際AI安全對話(InternationalDialoguesonAISafety),共同呼吁各國政府和研究人員聯(lián)手應(yīng)對AI可能帶來的災(zāi)難性風(fēng)險。


圖靈獎得主YoshuaBengio


圖靈獎得主姚期智

在為期三天的會議中,與會科學(xué)家們共同達成了一份具有重要意義的共識聲明,其核心觀點強調(diào)了AI安全作為“全球公共產(chǎn)品”的重要性,建議各國應(yīng)將AI安全納入學(xué)術(shù)與技術(shù)合作的核心領(lǐng)域。

共識指出,人工智能系統(tǒng)的濫用或失控可能給全人類帶來災(zāi)難性后果。然而,我們尚未開發(fā)出必要的科學(xué)手段來管控和保障對高級智能的使用。由于人工智能帶來的風(fēng)險具有全球性,我們必須將人工智能安全視為全球公共產(chǎn)品,并為實現(xiàn)這些風(fēng)險的全球治理而努力。我們必須未雨綢繆,齊心防范任何隨時可能出現(xiàn)的災(zāi)難性風(fēng)險。國際社會的初步積極舉措表明,即使在緊張的地緣政治局勢下,在人工智能安全和治理方面開展合作也是可以實現(xiàn)的。然而,各國需要在現(xiàn)有的努力上邁出更大步伐。


清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)院長張亞勤


北京智源人工智能研究院創(chuàng)始主席張宏江,與即任約翰·霍普金斯大學(xué)教授GillianHadfield

共識認為,作為第一步,各國應(yīng)設(shè)立有能力在其境內(nèi)監(jiān)測和應(yīng)對人工智能事故與災(zāi)難性風(fēng)險的部門。各國監(jiān)管部門應(yīng)協(xié)同合作,制定應(yīng)對重大人工智能事故與災(zāi)難性風(fēng)險的全球應(yīng)急計劃。長遠來看,各國應(yīng)建立國際監(jiān)管機制,以防止出現(xiàn)可能帶來全球災(zāi)難性風(fēng)險的模型。

為了應(yīng)對可能到來的由高級人工智能系統(tǒng)引發(fā)的災(zāi)難性風(fēng)險,科學(xué)家呼吁,國際社會應(yīng)考慮啟動以下三項工作程序:

應(yīng)急準(zhǔn)備協(xié)議與制度

通過這一機制,各國的安全監(jiān)管部門可召集會議,合作制定并承諾實施模型注冊和披露制度、事故報告機制、預(yù)警觸發(fā)點及應(yīng)急預(yù)案。

安全保障體系

當(dāng)模型的能力超過特定閾值時,要求開發(fā)者為模型的安全性提供高度可信的論證。對于高性能的人工智能系統(tǒng),隨著它們的廣泛應(yīng)用,部署后的監(jiān)控也將成為保障體系的關(guān)鍵組成部分。這些安全保障措施應(yīng)接受獨立審計。

全球人工智能安全和驗證的獨立研究

應(yīng)通過技術(shù)開發(fā),使各國能夠確認開發(fā)者以及其他國家提出的與人工智能安全相關(guān)的聲明是真實有效的。為了確保研究的獨立性,這項研究應(yīng)在全球范圍內(nèi)進行,并由多個國家的政府和慈善機構(gòu)共同資助。

清華大學(xué)國際安全與戰(zhàn)略中心主任傅瑩,清華大學(xué)人工智能國際治理研究院院長薛瀾,中國科學(xué)院自動化研究所類腦智能研究中心副主任曾毅遠程參與了討論。

在會議的第二天,科學(xué)家們與政策制定者、前國家元首及其他領(lǐng)域的專家進行了深入討論,參會者包括前愛爾蘭總統(tǒng)MaryRobinson,卡內(nèi)基國際和平基金會主席Mariano-Florentino(Tino)Cuéllar,歐盟人工智能標(biāo)準(zhǔn)CEN-CENELECJTC21主席SebastianHallensleben。面對人工智能技術(shù)的快速發(fā)展,專家們一致認為,盡快實施這些提案至關(guān)重要。此次聲明將呈交給多國政策制定者,并在會議中探討了國際社會應(yīng)如何協(xié)同合作,實現(xiàn)這一目標(biāo)的戰(zhàn)略路徑。


歐盟人工智能標(biāo)準(zhǔn)CEN-CENELECJTC21主席SebastianHallensleben

此次會議為全球AI安全領(lǐng)域注入了新的動力,也為未來AI治理架構(gòu)的完善指明了方向。

以下為“聲明”官方中文翻譯

《AI安全國際對話威尼斯共識》

人工智能系統(tǒng)能力的迅速發(fā)展,正將人類推向一個人工智能可以達到甚至超越人類智能的世界。專家普遍認同這些人工智能系統(tǒng)可能會在未來數(shù)十年內(nèi)被開發(fā)出來,很多人認為它們的到來會更快。人工智能系統(tǒng)的濫用或失控可能給全人類帶來災(zāi)難性后果。然而,我們尚未開發(fā)出必要的科學(xué)手段來管控和保障對高級智能的使用。由于人工智能帶來的風(fēng)險具有全球性,我們必須將人工智能安全視為全球公共產(chǎn)品,并為實現(xiàn)這些風(fēng)險的全球治理而努力。我們必須未雨綢繆,齊心防范任何隨時可能出現(xiàn)的災(zāi)難性風(fēng)險。

國際社會的初步積極舉措表明,即使在緊張的地緣政治局勢下,在人工智能安全和治理方面開展合作也是可以實現(xiàn)的。各國政府和人工智能開發(fā)者在兩次峰會上承諾遵循基礎(chǔ)性原則,以促進人工智能的負責(zé)任發(fā)展,并最大限度地減少風(fēng)險。得益于這些峰會,各國陸續(xù)設(shè)立了人工智能安全研究所或相似機構(gòu),推進測評、研究和標(biāo)準(zhǔn)制定工作。

上述努力值得肯定,必須持續(xù)推進。各國需要為人工智能安全研究所提供足夠的資源,并繼續(xù)召開峰會,支持其他國際治理舉措。然而,各國需要在現(xiàn)有的努力上邁出更大步伐。作為第一步,各國應(yīng)設(shè)立有能力在其境內(nèi)監(jiān)測和應(yīng)對人工智能事故與災(zāi)難性風(fēng)險的部門。各國監(jiān)管部門應(yīng)協(xié)同合作,制定應(yīng)對重大人工智能事故與災(zāi)難性風(fēng)險的全球應(yīng)急計劃。長遠來看,各國應(yīng)建立國際監(jiān)管機制,以防止出現(xiàn)可能帶來全球災(zāi)難性風(fēng)險的模型。

我們必須開展深入的基礎(chǔ)研究,以確保高級人工智能系統(tǒng)的安全性。這項工作刻不容緩,以確保我們擁有充足的時間來開發(fā)和驗證相關(guān)技術(shù),在需要管控高級人工智能時應(yīng)對自如。為此,我們呼吁各國將人工智能安全視為一個獨立于人工智能能力地緣戰(zhàn)略競爭的合作領(lǐng)域,專注于國際學(xué)術(shù)與技術(shù)合作。

為了應(yīng)對可能到來的由高級人工智能系統(tǒng)引發(fā)的災(zāi)難性風(fēng)險,國際社會應(yīng)考慮啟動以下三項工作程序:

應(yīng)急準(zhǔn)備協(xié)議和制度:通過這一機制,各國的安全監(jiān)管部門可召集會議,合作制定并承諾實施模型注冊和披露制度、事故報告機制、預(yù)警觸發(fā)點及應(yīng)急預(yù)案。

安全保障體系:當(dāng)模型的能力超過特定閾值時,要求開發(fā)者為模型的安全性提供高度可信的論證。對于高性能的人工智能系統(tǒng),隨著它們的廣泛應(yīng)用,部署后的監(jiān)控也將成為保障體系的關(guān)鍵組成部分。這些安全保障措施應(yīng)接受獨立審計。

全球人工智能安全與驗證的獨立研究:應(yīng)通過技術(shù)開發(fā),使各國能夠確認開發(fā)者以及其他國家提出的與人工智能安全相關(guān)的聲明是真實有效的。為了確保研究的獨立性,這項研究應(yīng)在全球范圍內(nèi)進行,并由多個國家的政府和慈善機構(gòu)共同資助。

應(yīng)急準(zhǔn)備協(xié)議和制度

就應(yīng)對先進人工智能系統(tǒng)所需的技術(shù)和制度措施,各國應(yīng)達成一致,無論這些系統(tǒng)的開發(fā)時間線如何。為促進這些協(xié)議的達成,我們需要建立一個國際機構(gòu),將各國人工智能安全監(jiān)管部門聚集在一起,在制定和審核人工智能安全法規(guī)方面,推動不同司法管轄區(qū)的對話與合作。該機構(gòu)將確保各國采納并實施一套基本的安全準(zhǔn)備措施,包括模型注冊、信息披露與預(yù)警機制。

隨著時間推移,該機構(gòu)還可以制定驗證方法的標(biāo)準(zhǔn),并承諾使用這些方法來執(zhí)行各國對安全保障體系的本地化實施。各國可以通過獎懲機制來相互監(jiān)督這些方法的執(zhí)行,例如將市場準(zhǔn)入與遵守全球標(biāo)準(zhǔn)掛鉤。專家和安全監(jiān)管機構(gòu)應(yīng)建立事故報告和應(yīng)急預(yù)案,并定期交流,確保驗證過程中采用的方法反映出當(dāng)前最新的科學(xué)理解。該機構(gòu)將發(fā)揮關(guān)鍵的初步協(xié)調(diào)作用。然而,從長遠來看,各國需要進一步努力,確保對高級人工智能風(fēng)險的有效全球治理。

安全保障體系

前沿人工智能開發(fā)者必須向本國監(jiān)管部門證明,其所開發(fā)或部署的系統(tǒng)不會逾越紅線,例如在AI安全國際對話北京共識中所界定的紅線。

為實現(xiàn)這一目標(biāo),我們需要在風(fēng)險和紅線問題上進一步建立科學(xué)共識。此外,我們應(yīng)建立預(yù)警閾值,即模型的能力水平表明該模型可能會越過或接近越過紅線。該方法建立在現(xiàn)有的自愿承諾(如負責(zé)擴大政策)的基礎(chǔ)上,對不同框架進行統(tǒng)一和協(xié)調(diào)。能力低于預(yù)警閾值的模型只需有限的測試和評估,而對于超出這些預(yù)警閾值的高級人工智能系統(tǒng),我們則必須采用更嚴(yán)格的保障機制。

當(dāng)前的部署前測試、評估和保障措施遠不夠充分。高級人工智能系統(tǒng)可能會逐漸增加與其他人工智能系統(tǒng)和用戶進行的復(fù)雜多智能體交互,而這可能導(dǎo)致難以預(yù)測的潛在風(fēng)險。部署后的監(jiān)控是整個保障體系的關(guān)鍵部分,它可以包括對模型行為的持續(xù)自動評估、人工智能事故追蹤的集中數(shù)據(jù)庫,以及人工智能在關(guān)鍵系統(tǒng)中的應(yīng)用報告。進一步的保障還可以通過自動化運行時驗證來實現(xiàn),例如確保安全報告中的假設(shè)條件依然成立,并在模型運行到超出預(yù)期范圍的環(huán)境時安全地關(guān)閉系統(tǒng)。

各國在確保安全保障的落地中發(fā)揮著關(guān)鍵作用。各國應(yīng)要求開發(fā)者定期進行測試,判斷模型是否具備帶來潛在風(fēng)險的能力,并通過第三方獨立的部署前審計保證透明度,確保這些第三方獲得必要的權(quán)限,包括開發(fā)者的員工、系統(tǒng)和記錄等必要證據(jù),以核實開發(fā)者的主張。此外,對于超出早期預(yù)警閾值的模型,各國政府可要求開發(fā)者在進一步訓(xùn)練或部署這些模型前,必須獲得獨立專家對其安全報告的批準(zhǔn)。各國可以幫助建立人工智能工程的倫理規(guī)范,例如要求工程師承擔(dān)類似于醫(yī)療或法律專業(yè)人士的個人責(zé)任,保護公眾利益。最后,各國還需要建立治理流程,以確保部署后的充分監(jiān)測。

盡管各國在安全保障體系上可能有所差異,國家間仍應(yīng)合作,確保體系間的互認性與可比性。

全球人工智能安全和驗證的獨立研究

AI安全和驗證的獨立研究對于開發(fā)確保安全的高級人工智能系統(tǒng)至關(guān)重要。國家、慈善機構(gòu)、企業(yè)、和專家應(yīng)設(shè)立一系列全球人工智能安全與驗證基金。這些資金應(yīng)當(dāng)逐步增加,直至其在全球人工智能研發(fā)支出中占據(jù)重要比例,以充分支持并增強獨立研究能力。

除了人工智能安全基礎(chǔ)研究,這些資金的其中一部分將專門用于隱私保護和安全驗證方法的研究,為國內(nèi)治理和國際合作提供支持。這些驗證方法將允許各國可信地核實人工智能開發(fā)者的評估結(jié)果,以及他們在安全報告中指定的任何緩解措施是否到位。在未來,這些方法還可能允許各國驗證其他國家提出的相關(guān)安全聲明,包括對安全保障體系的遵守情況,以及重大訓(xùn)練運行的申報。

全面的驗證最終可以通過多種方式進行,包括第三方治理(如獨立審計)、軟件(如審計跟蹤)以及硬件(如人工智能芯片上的硬件支持治理機制)。為確保全球信任,跨國聯(lián)合開發(fā)驗證方法,并對其進行壓力測試將變得尤為重要。

至關(guān)重要的一點是,全球廣受信賴的驗證方法,在過去曾使各國能在全球地緣政治緊張局勢下,對特定的國際協(xié)議作出承諾,而它在未來也可能再次發(fā)揮同樣的作用。

以下為“聲明”英文原文

ConsensusStatementonAISafetyasaGlobalPublicGood

Rapidadvancesinartificialintelligence(AI)systems’capabilitiesarepushingdes,,wehavenotyetdevelopedthenecessafetyasaglobalpublicgood,,wemustpreparetoaverttheattantcatastrophicrisksthatcouldarriveatanytime.

Promisinginitialstepsbytheinternationalcommunityshowcooperatioiplestofosterresponsi,statesestablishedAISafetyInstitutesorsimilarinstitutionstoadvancetesting,researchandstandards-setting.

,,,statesshoulddevelopauthoritiestodetectandr,statesshoulddevelopaninternationalgovernanceregimetopreventthedevelopmentofmodelsthatcouldposeglobalcatastrophicrisks.

Deepandfoundationalre,wecallonstatestocarveoutAIsafetyasacooperativeareaofacademicandtechnicalactivity,distinctfrombroadergeostrategiccompetitionondevelopmentofAIcapabilities.

TheinternationalcommunityshouldconsidersettingupthreeclearprocessestoprepareforaworldwhereadvancedAIsystemsposecatastrophicrisks:

EmergencyPreparednessAgreementsandInstitutions,throughwhichdomesticAIsafetyauthoritiesconvene,collaborateon,andcommittoimplementmodelregistrationanddisclosures,incidentreporting,tripwires,andcontingencyplans.

ASafetyAssuranceFramework,requiringdeveloperstomakeahigh-confidencesafetycasep

IndepentGlobalAISafetyandVerificationResearch,developingtechniquesthatwouldallowstatestorigorouslyverifythatAIsafety-relatedclaimsmadebydevelopers,andpotentiallyotherstates,yandfundedbyawiderangeofgovernmentsandphilanthropists.

EmergencyPreparednessAgreementsandInstitutions

StatesshouldagreeontechnicalandinstitutionalmeasuresrequiredtoprepareforadvancedAIsystems,,weneedaninternationalbodytobringtogetherAIsafetyauthorities,fosteringdialogueandcollaborationinthedevelopmesafetypreparednessmeasures,includingmodelregistration,disclosure,andtripwires.

Overtime,thisbodycouldalsosetstandardsforandcommittousingverificationmethohanisms,sontingencyplans,andregularlyupdateth,however,stateswillneedtogofurthertoensuretrulyglobalgovernanceofrisksfromadvancedAI.

SafetyAssuranceFramework

FrontierAIdevelopersmustdemonstratetodomesticauthoritiesthatthesystemstheydevelopordeploywillnotcrossredlinessuchasthosedefinedintheIDAIS-Beijingconsensusstatement.

Toimplementthis,,weshouldsetearly-warningthresholds:levelsofmodelcapabinlylimitedtestingandevaluation,whilemorerigorousassurancemechanismsareneededforadvancedAIsystemsexceedingtheseearly-warningthresholds.

Althoughtestingcanalertustorisks,,,aquantitativeanalysisthatwouldconvincethescientificcommunitythattheirsystemdesignissafe,,safetycasesforsufficientlyadvancedsystemsshoulddiscussorganizationalprocesses,includingincentivesandaccountabilitystructures,tofavorsafety.

Pre-deploymenttesting,mework,andcouldincludecontinuousautomatedassessmentofmodelbehavior,centralizedAIincidenttrackingdatabases,,suchasbyverifyingthattheassumptionsofasafetycasecontinuetoholdandsafelyshuttingdownamodelifoperatedinanout-of-scopeenvironment.

ningcapabilities,withtransparencyprovidedthroughindepentpre-deploymentauditsbythirdpartiesgrantedsufficientaccesstodevelopers’staff,systemsandrecordsnecessarytoverifythedeveloper’,formodelsexceedingearly-warningthresholds,statescouldrequirethatindepentexpertsapproveadeveloper’,statescanhelpinstituteethicalnormsforAIengineering,forexamplebystipulatingthatengineershaveanindividualdutytoprotectt,stateswillalsoneedtobuildgovernanceprocessestoensureadequatepost-deploymentmonitoring.

WhiletheremaybevariationsinSafetyAssuranceFrameworksrequirednationally,statesshouldcollaboratetoachievemutualrecognitionandcommensurabilityofframeworks.

IndepentGlobalAISafetyandVerificationResearch

IndepentresearchintoAIsafetyandverificationis,philanthropists,corporationsandexpertsshouldenableglobalindepentAIsafetyandverificddevelopmentexpiturestoadequatelysupportandgrowindepentresearchcapacity.

InadditiontofoundationalAIsafetyresearch,thesefundswouldfocusondevelopingprivacy-preservingandsecureverificationmethods,whi’sevaluationresults,,thesemethodsmayalsoallowstatestoverifysafety-relatedclaimsmadebyotherstates,includingcompliancewiththeSafetyAssuranceFrameworksanddeclarationsofsignificanttrainingruns.

Eventually,comprehensiveverificationcouldtakeplacethroughseveralmethods,includingthirdpartygovernance(,indepentaudits),software(,audittrails)andhardware(,hardware-enabledmechanismsonAIchips).Toensureglobaltrust,itwillbeimportanttohaveinternationalcollaborationsdevelopingandstress-testingverificationmethods.

Critically,despitebroadergeopoliticaltensions,globallytrustedverificationmethodshaveallowed,andcouldallowagain,statestocommittospecificinternationalagreements.