Company Profile
[科普]人工智能安全前沿探索
近年來(lái)各個(gè)國(guó)家和地區(qū)高度重視人工智能安全,在人工智能安全與治理領(lǐng)域,已經(jīng)有多項(xiàng)法規(guī)與標(biāo)準(zhǔn)快速制定并落地。本文從大模型安全和隱私兩個(gè)方面構(gòu)建大模型安全體系:在大模型安全方面,提出模型可證明安全增強(qiáng)技術(shù)應(yīng)對(duì)文本對(duì)抗樣本攻擊;在大模型隱私方面,提出隱私保護(hù)圖像生成大模型訓(xùn)練以保護(hù)訓(xùn)練階段的數(shù)據(jù)隱私、隱私保護(hù)大模型推理技術(shù)以保護(hù)推理階段的數(shù)據(jù)隱私,以及大模型敏感數(shù)據(jù)遺忘技術(shù)以滿足相關(guān)法律法規(guī)要求。
人工智能技術(shù)目前正處于高速發(fā)展階段,以大模型為代表的人工智能技術(shù)催生、重塑了一批新應(yīng)用與新產(chǎn)業(yè)。目前千億級(jí)參數(shù)規(guī)模的大模型成為主流,且預(yù)計(jì)參數(shù)量越來(lái)越大。巨量的參數(shù)改變了數(shù)據(jù)與任務(wù)范式,將人工智能由原來(lái)“手工作坊”式的工作方式升級(jí)成“工廠模式”,越來(lái)越多的企業(yè)也參與到大模型訓(xùn)練中來(lái)。同時(shí),巨量的參數(shù)也使得大模型在各種應(yīng)用場(chǎng)景有了更好的表現(xiàn),比如語(yǔ)言生成、語(yǔ)音識(shí)別、視覺問答等。多模態(tài)大模型也可以更好地處理多模態(tài)數(shù)據(jù)。這種優(yōu)秀的體驗(yàn)吸引越來(lái)越多的用戶使用大模型服務(wù),使得用戶量跳躍式增加。
與此同時(shí),大模型的廣泛應(yīng)用也增加了人工智能的攻擊面,導(dǎo)致國(guó)內(nèi)外人工智能安全事件頻發(fā)。例如,針對(duì)大模型的攻擊可以使其生成無(wú)限量的有害內(nèi)容或生成有不良政治傾向的敏感內(nèi)容;利用大模型生成的偽造視頻會(huì)發(fā)布虛假信息誤導(dǎo)社會(huì)輿論;濫用大模型服務(wù)還可能導(dǎo)致隱私數(shù)據(jù)泄露;大模型還可能輔助犯罪,比如輔助編寫惡意軟件,降低了犯罪的學(xué)習(xí)成本;此外,訓(xùn)練大模型所用的數(shù)據(jù)還可能面臨侵權(quán)問題。
近年來(lái)各個(gè)國(guó)家和地區(qū)高度重視人工智能安全,在人工智能安全與治理領(lǐng)域,已經(jīng)有多項(xiàng)法規(guī)與標(biāo)準(zhǔn)被快速制定并落地。2023年11月1日,在全球首屆人工智能安全峰會(huì)上,中國(guó)科技部副部長(zhǎng)吳朝暉代表中國(guó)簽署《布萊切利宣言》,聲明應(yīng)以安全的方式設(shè)計(jì)、開發(fā)、部署和使用人工智能。美國(guó)和歐洲也在近幾個(gè)月推出相關(guān)法案規(guī)定,對(duì)人工智能進(jìn)行監(jiān)管。例如,2023年10月30日,美國(guó)總統(tǒng)拜登簽署行政命令,發(fā)布首個(gè)生成式人工智能的監(jiān)管規(guī)定;2023年11月9日,歐盟正式通過(guò)《數(shù)據(jù)法案》促進(jìn)合法合規(guī)共享數(shù)據(jù)。
在此背景下,本文從大模型安全和隱私兩個(gè)方面構(gòu)建大模型安全體系:在大模型安全方面,提出模型可證明安全增強(qiáng)技術(shù)應(yīng)對(duì)文本對(duì)抗樣本攻擊;在大模型隱私方面,提出隱私保護(hù)圖像生成大模型訓(xùn)練以保護(hù)訓(xùn)練階段的數(shù)據(jù)隱私、隱私保護(hù)大模型推理技術(shù)以保護(hù)推理階段的數(shù)據(jù)隱私,以及大模型敏感數(shù)據(jù)遺忘技術(shù)以滿足相關(guān)法律法規(guī)要求。
模型可證明安全增強(qiáng)
隨著自然語(yǔ)言處理技術(shù)的迅猛發(fā)展,大語(yǔ)言模型(例如ChatGPT、LLaMA、文心一言等)正逐漸顯露出其在人工智能系統(tǒng)中的巨大潛力。在這個(gè)范疇中,文本分類模型作為語(yǔ)言模型的關(guān)鍵組成部分,扮演著至關(guān)重要的角色,其應(yīng)用包括在線內(nèi)容審查、社交信息管理、欺詐檢測(cè)以及垃圾郵件過(guò)濾等多個(gè)領(lǐng)域。然而,文本分類模型容易受到對(duì)抗樣本攻擊的威脅,尤其是針對(duì)詞語(yǔ)層面的對(duì)抗樣本攻擊,這些攻擊通過(guò)不易察覺地篡改輸入文本中的詞語(yǔ)來(lái)改變分類模型的輸出結(jié)果。這類對(duì)抗樣本攻擊不僅僅影響學(xué)術(shù)界,還直接關(guān)系到社交媒體平臺(tái)、新聞機(jī)構(gòu)和在線社區(qū)等各個(gè)領(lǐng)域。不法分子通過(guò)惡意篡改文本并規(guī)避檢測(cè)機(jī)制,可能引發(fā)誤導(dǎo)公眾、傳播虛假信息,甚至煽動(dòng)仇恨和暴力等事件。
在此背景下,如何增強(qiáng)語(yǔ)言模型的安全性和魯棒性,使其能夠抵御或減弱詞語(yǔ)級(jí)別對(duì)抗樣本攻擊的影響,對(duì)于維護(hù)以文本分類為基礎(chǔ)的大語(yǔ)言模型的穩(wěn)定性至關(guān)重要。目前為了抵御這類攻擊,已經(jīng)提出了眾多防御方案來(lái)提高語(yǔ)言模型的安全性和魯棒性。例如,對(duì)抗性訓(xùn)練方案,將對(duì)抗樣本加入訓(xùn)練數(shù)據(jù)集,從而增強(qiáng)模型的魯棒性;特征檢測(cè)方案,通過(guò)檢查輸入樣本,并排除檢測(cè)到的對(duì)抗樣本以削弱攻擊。然而,這些經(jīng)驗(yàn)性的防御方法只對(duì)特定的對(duì)抗樣本攻擊有效,往往容易被新型升級(jí)對(duì)抗樣本攻破,從而使攻防陷入一種無(wú)休止的循環(huán)。
因此,增強(qiáng)模型的可證明安全性和魯棒性,是跳脫出這一循環(huán)的更有效的解決方法。這種模型可證明防御的目的在于,確保模型的預(yù)測(cè)在一定范圍內(nèi)的對(duì)抗擾動(dòng)下仍然能保持穩(wěn)定。而在不同的可證明防御中,隨機(jī)平滑技術(shù)對(duì)模型結(jié)構(gòu)不設(shè)限制,并能在大規(guī)模數(shù)據(jù)集上實(shí)現(xiàn)較高的準(zhǔn)確率,因此受到了更廣泛的關(guān)注。隨機(jī)平滑技術(shù)在訓(xùn)練過(guò)程中通過(guò)向輸入數(shù)據(jù)加入從平滑分布中采樣的隨機(jī)噪聲來(lái)實(shí)現(xiàn)分類器的平滑化,平滑后的分類器面對(duì)擾動(dòng)后的測(cè)試實(shí)例能作出與原始類別一致的預(yù)測(cè)。然而,由于自然語(yǔ)言處理領(lǐng)域面臨著不同的數(shù)據(jù)空間不同、多樣的變換以及巨大的攻擊距離等挑戰(zhàn),現(xiàn)有的可證明魯棒性方案并不能直接應(yīng)用于語(yǔ)言模型。
在實(shí)際文本分類模型的應(yīng)用中,為了應(yīng)對(duì)上述復(fù)雜挑戰(zhàn),可證明魯棒性方案需要提出新的理論和技術(shù)基礎(chǔ)。以Text-CRS(Zhang X, Hong H, Hong Y, et al. Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks. arXiv preprint arXiv: 2307.16630, 2023.)為例,這一首創(chuàng)的基于隨機(jī)平滑的通用框架能夠有效地應(yīng)對(duì)文本對(duì)抗樣本攻擊,包括同義詞替換、詞語(yǔ)重排序、插入和刪除4種基本對(duì)抗操作。該框架的系統(tǒng)架構(gòu)如圖1所示,它成功克服了語(yǔ)言模型在可證明魯棒性方面所面臨的三大挑戰(zhàn),即非結(jié)構(gòu)化字符空間、多種操作類型和廣泛的攻擊距離。Text-CRS框架首先通過(guò)嵌入層將非結(jié)構(gòu)化的字符數(shù)據(jù)映射到詞向量空間,以分析詞語(yǔ)之間的數(shù)值關(guān)聯(lián)。然后,針對(duì)不同的操作類型,該框架將這些操作轉(zhuǎn)化為置換和嵌入變換的組合,并根據(jù)每種操作的特性選擇適宜的噪聲平滑分布用于訓(xùn)練分類模型,這一方法確保了在每種操作下都能維持可證明的魯棒性。最后,Text-CRS框架提供了對(duì)每種操作的置換和嵌入變換的創(chuàng)新性的理論證明,當(dāng)這些變換都位于一定的擾動(dòng)范圍內(nèi)時(shí),模型的輸出結(jié)果保持一致,從而保障了模型的安全和魯棒性。該框架的獨(dú)特性質(zhì)在于,能為文本分類模型提供數(shù)學(xué)上可證明的魯棒性,進(jìn)一步推動(dòng)了模型可證明安全的研究和實(shí)踐。
模型可證明安全的未來(lái)發(fā)展趨勢(shì)可能包括研究性能更高的可證明安全和魯棒性理論、發(fā)掘?qū)?duì)抗樣本抵御范圍更廣的技術(shù)、開發(fā)更通用的適用于各種模型結(jié)構(gòu)的框架,尤其是為目前廣泛采用的大語(yǔ)言模型基礎(chǔ)架構(gòu)提供性能更為優(yōu)化和抵御范圍可量化的魯棒性技術(shù)支持。這一發(fā)展將有助于推動(dòng)大語(yǔ)言模型在增強(qiáng)自身魯棒性的同時(shí),為各行各業(yè)提供更高水平的安全和可信賴性保障。
隱私保護(hù)圖像生成大模型訓(xùn)練
Stable Diffusion、Midjourney等圖像生成大模型的推出深刻改變了社會(huì)各界對(duì)人工智能圖像生成模型所具備能力的理解與認(rèn)知,同時(shí)也使人們意識(shí)到圖像生成大模型在現(xiàn)實(shí)生活中各個(gè)領(lǐng)域都具備巨大的應(yīng)用潛力。然而,圖像生成大模型同時(shí)也對(duì)隱私保護(hù)帶來(lái)了巨大挑戰(zhàn)。例如,谷歌最近的研究表明,生成大模型會(huì)對(duì)訓(xùn)練圖像進(jìn)行記憶,并在生成的時(shí)候依葫蘆畫瓢,導(dǎo)致隱私、敏感信息泄露。同時(shí),針對(duì)大模型的法律訴訟事件屢屢發(fā)生。近期,OpenAI被指控竊取大量個(gè)人信息,用于訓(xùn)練公司旗下的人工智能模型?!巴ㄟ^(guò)收集數(shù)百萬(wàn)人以前模糊的個(gè)人數(shù)據(jù),并將其挪用,進(jìn)而開發(fā)不穩(wěn)定的、未經(jīng)測(cè)試的技術(shù),OpenAI將每個(gè)人置于不可估量的風(fēng)險(xiǎn)之中,但無(wú)論采取任何負(fù)責(zé)任的數(shù)據(jù)保護(hù)和使用措施,都是不可接受的。”一家律師事務(wù)所的一位合伙人蒂莫西?K. 焦?fàn)栠_(dá)諾(Timothy K. Giordano)表示。OpenAI是否按照其隱私政策合法合理地收集并利用用戶個(gè)人信息,以及是否有效識(shí)別并剔除其訓(xùn)練數(shù)據(jù)來(lái)源中“偶然”包含的個(gè)人信息,可能是該起訴訟的爭(zhēng)議焦點(diǎn)所在。
因此,研究針對(duì)生成大模型的隱私保護(hù)技術(shù)具有重要的實(shí)際意義。在訓(xùn)練生成大模型過(guò)程中應(yīng)用隱私保護(hù)技術(shù),能夠有效防止模型記憶并泄露訓(xùn)練數(shù)據(jù)中的隱私敏感信息,在保護(hù)用戶隱私、防止敏感信息泄露的同時(shí),還能夠規(guī)范生成大模型對(duì)海量互聯(lián)網(wǎng)數(shù)據(jù)的使用。此外,隱私保護(hù)的生成大模型訓(xùn)練技術(shù)還能夠建立用戶對(duì)人工智能系統(tǒng)的信任,有利于圖像合成技術(shù)的進(jìn)一步健康發(fā)展與推廣。
常用的保護(hù)隱私的方法有差分隱私技術(shù)、模型剪枝與壓縮、數(shù)據(jù)敏感信息過(guò)濾、安全評(píng)估與審查。差分隱私可以在保持?jǐn)?shù)據(jù)分析結(jié)果有效性的同時(shí)保護(hù)個(gè)體隱私,然而其同時(shí)具有的復(fù)雜度與特性并不適合應(yīng)用到當(dāng)前的生成模型當(dāng)中;模型的剪枝與壓縮在降低模型復(fù)雜度、減少模型參數(shù)量的同時(shí),也對(duì)模型生成質(zhì)量造成了較大的影響;數(shù)據(jù)敏感信息過(guò)濾和安全評(píng)估與審查分別著眼于模型訓(xùn)練前后,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行清洗或者對(duì)模型輸出進(jìn)行過(guò)濾,兩者并沒有從根本上解決圖像生成大模型的隱私泄露問題。
因此,目前亟需一種高效且高度適配大模型隱私保護(hù)訓(xùn)練的方法。MaskDM在這一方向邁出了第一步。MaskDM提出對(duì)輸入圖像進(jìn)行遮掩,降低模型對(duì)單張圖像中存在內(nèi)容的記憶情況。同時(shí),在完成初步訓(xùn)練后,基于在不完整圖像數(shù)據(jù)上訓(xùn)練得到的模型,進(jìn)一步在安全清潔的數(shù)據(jù)上對(duì)模型進(jìn)行微調(diào),得到最終的生成大模型。掩碼率越高,圖像中內(nèi)容之間的關(guān)系丟失也就越多,模型因此更難對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行記憶,從而在模型層面有效防止了模型記憶敏感信息。
大模型安全推理系統(tǒng)中包含兩個(gè)角色,分別是模型輸入數(shù)據(jù)的提供者和模型推理服務(wù)的提供者,兩者需要在系統(tǒng)中各司其職,共同協(xié)作,完成大模型安全推理。大模型安全推理系統(tǒng)因其安全性需要,必須考慮各種可能存在的攻擊和防御方法,通常使用同態(tài)加密、兩方安全計(jì)算和多方安全計(jì)算等密碼學(xué)工具來(lái)保證其安全性。其中同態(tài)加密是一種加密技術(shù),使加密后的數(shù)據(jù)仍然能完成計(jì)算任務(wù),能夠在保護(hù)數(shù)據(jù)隱私的同時(shí),正確地完成計(jì)算。兩方和多方安全計(jì)算則是一種涉及兩方和多方的安全計(jì)算技術(shù),能夠在保護(hù)各方數(shù)據(jù)隱私的同時(shí),在各方之間完成計(jì)算任務(wù)。如圖2所示,MaskDM將訓(xùn)練切分為了兩個(gè)階段,因此能夠針對(duì)不同場(chǎng)景設(shè)計(jì)第一階段的掩碼策略或調(diào)整第二階段的訓(xùn)練數(shù)據(jù),方案靈活可控。例如,針對(duì)數(shù)據(jù)的特點(diǎn),開發(fā)人員能夠在第一階段訓(xùn)練中設(shè)置不同的掩碼率,從而調(diào)整對(duì)圖像內(nèi)容的過(guò)濾效果。此外,基于第一階段得到的模型,使用不同特點(diǎn)的“干凈”數(shù)據(jù)微調(diào)能夠快速獲得適應(yīng)多個(gè)場(chǎng)景的圖像生成大模型。
圖像生成大模型的隱私保護(hù)訓(xùn)練技術(shù)有利于進(jìn)一步促進(jìn)人工智能技術(shù)的規(guī)范化,降低模型的道德法律層面風(fēng)險(xiǎn),提高社會(huì)各界對(duì)技術(shù)的信任程度。MaskDM在此方向邁出了探索性的第一步。
隱私保護(hù)大模型推理
在信息化時(shí)代,大模型在處理各種復(fù)雜任務(wù)時(shí)表現(xiàn)出了顯著優(yōu)勢(shì)和巨大潛力,然而大模型也面臨著隱私保護(hù)的挑戰(zhàn)。例如,2023年3月,ChatGPT因?yàn)橐粋€(gè)來(lái)自開源庫(kù)的漏洞而暫停了服務(wù),這個(gè)漏洞可能讓部分用戶能夠查看其他用戶的聊天記錄標(biāo)題。再比如,三星半導(dǎo)體部門的工程師在使用ChatGPT時(shí),不慎輸入了程序源代碼和內(nèi)部會(huì)議記錄,這些敏感數(shù)據(jù)有可能已經(jīng)被存儲(chǔ)在OpenAI的服務(wù)器中,面臨被泄露的危險(xiǎn)。在當(dāng)前的數(shù)據(jù)驅(qū)動(dòng)環(huán)境下,此類隱私泄露事件引起了用戶對(duì)大模型推理技術(shù)的使用擔(dān)憂。此外,隨著數(shù)據(jù)隱私保護(hù)意識(shí)的提升,《中華人民共和國(guó)數(shù)據(jù)安全法》《中華人民共和國(guó)個(gè)人信息保護(hù)法》等法律法規(guī)和標(biāo)準(zhǔn)也相繼出臺(tái),對(duì)數(shù)據(jù)的收集、存儲(chǔ)、處理和共享等提出了要求。大模型服務(wù)提供商必須遵守此類法律法規(guī),否則可能會(huì)面臨巨額的罰款和訴訟風(fēng)險(xiǎn)。大模型在運(yùn)行過(guò)程中需要處理大量用戶數(shù)據(jù),如何在保證模型性能和實(shí)用性的同時(shí),有效保護(hù)這些數(shù)據(jù)的隱私,是大模型面臨的重要挑戰(zhàn)。
在此背景下,大模型安全推理技術(shù)的研究和應(yīng)用變得尤為重要。大模型安全推理技術(shù)不僅能夠保護(hù)用戶數(shù)據(jù)隱私,防止用戶數(shù)據(jù)在推理過(guò)程中被泄露,而且能夠保障數(shù)據(jù)產(chǎn)業(yè)的健康發(fā)展。在滿足隱私保護(hù)監(jiān)管需求的同時(shí),大模型安全推理技術(shù)也能夠增強(qiáng)社會(huì)對(duì)大模型的信任,為大模型的廣泛應(yīng)用創(chuàng)造良好的環(huán)境。因此,大模型安全推理技術(shù)在大模型隱私保護(hù)中起到了至關(guān)重要的作用。
雖然此類可行的解決方案為大模型安全推理提供了解決思路,但計(jì)算效率和通信開銷帶來(lái)的技術(shù)挑戰(zhàn)依然突出。計(jì)算效率直接影響推理速度和用戶體驗(yàn),通信開銷則關(guān)系到系統(tǒng)運(yùn)行成本和效率。計(jì)算挑戰(zhàn)主要來(lái)自模型結(jié)構(gòu)的復(fù)雜性和自回歸預(yù)測(cè)方法的使用:詞嵌入等環(huán)節(jié)占用計(jì)算資源,長(zhǎng)答案需要多次隱私推理,加大了計(jì)算負(fù)擔(dān)。通信挑戰(zhàn)源于模型參數(shù)量大和加解密后數(shù)據(jù)量增加,如GPT-2的參數(shù)達(dá)到1.6億、加密后密文數(shù)據(jù)是明文的2到6倍,這都增加了數(shù)據(jù)處理和傳輸?shù)呢?fù)擔(dān)。在大模型的實(shí)際應(yīng)用中,為了滿足安全性與效率的需求,安全推理框架需要根據(jù)特定的模型架構(gòu)進(jìn)行調(diào)整。以CipherGPT為例,這是首創(chuàng)的兩方隱私GPT推理技術(shù),它通過(guò)一系列創(chuàng)新協(xié)議,針對(duì)推理模型中的各個(gè)環(huán)節(jié)進(jìn)行優(yōu)化。如圖3所示,對(duì)于推理模型中的線性層,CipherGPT采用了VOLE(Boyle Elette, et al. Efficient two-round OT extension and silentnon-interactive secure computation. Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications)技術(shù)進(jìn)行大規(guī)模矩陣運(yùn)算的批量預(yù)處理,優(yōu)化了運(yùn)算效率。對(duì)于非線性層,CipherGPT則通過(guò)分段查表技術(shù),實(shí)現(xiàn)了對(duì)GELU函數(shù)的高效而精確的計(jì)算。這些協(xié)議不僅為參與者的數(shù)據(jù)和模型提供了隱私保護(hù),而且具備較高的效率和精度,從而優(yōu)化了整體的安全推理過(guò)程。
大模型安全推理的未來(lái)發(fā)展趨勢(shì)可能包括更快速高效的推理速度、更可靠的安全性保障和更豐富的應(yīng)用場(chǎng)景等。隨著技術(shù)的發(fā)展,我們期待看到大模型在保護(hù)隱私的同時(shí),更好地服務(wù)于社會(huì)。
大模型敏感數(shù)據(jù)遺忘
隨著深度學(xué)習(xí)與大數(shù)據(jù)技術(shù)的飛速發(fā)展,大模型已成為人工智能領(lǐng)域的熱門話題,在學(xué)術(shù)界和工業(yè)界廣受重視。大模型利用大量數(shù)據(jù)和計(jì)算資源進(jìn)行訓(xùn)練,具備強(qiáng)大的學(xué)習(xí)、表達(dá)和泛化能力,在多個(gè)領(lǐng)域和下游任務(wù)中取得優(yōu)異性能。特別是針對(duì)自然語(yǔ)言處理領(lǐng)域的語(yǔ)言大模型,由于其出色的性能和解決復(fù)雜問題的能力,在科學(xué)研究和日常生活中發(fā)揮重要作用,成為新一代人工智能創(chuàng)新應(yīng)用的核心。近年來(lái),國(guó)內(nèi)外企業(yè)、高校和研究機(jī)構(gòu)相繼推出一系列語(yǔ)言大模型,其中行業(yè)翹楚如OpenAI在2022年底推出的ChatGPT,以其強(qiáng)大的理解與生成能力,在短短5天內(nèi)突破了100萬(wàn)用戶量,引領(lǐng)了大模型的爆發(fā)式發(fā)展。然而,大模型的廣泛性和全面性也帶來(lái)了眾多的隱私、倫理和法律問題。用于訓(xùn)練大模型的大規(guī)模語(yǔ)料庫(kù)往往包含敏感內(nèi)容,如個(gè)人隱私信息、受版權(quán)保護(hù)的文本、有毒或者惡意數(shù)據(jù)、不準(zhǔn)確或虛假的內(nèi)容等,如何確保大模型生成符合人類價(jià)值觀和法律政策監(jiān)管的安全輸出是大模型從業(yè)者目前的一項(xiàng)主要任務(wù)。
在此背景下,大模型敏感數(shù)據(jù)遺忘的研究和應(yīng)用變得尤為重要。大模型數(shù)據(jù)遺忘技術(shù)不僅能夠保護(hù)用戶個(gè)人數(shù)據(jù)隱私、移除受版權(quán)保護(hù)的內(nèi)容,而且可以避免生成誤導(dǎo)性信息或歧視性內(nèi)容,輸出有害、錯(cuò)誤的回答。在滿足隱私保護(hù)相關(guān)法律監(jiān)管需求的同時(shí),能夠增強(qiáng)用戶對(duì)大模型服務(wù)的信任,保障國(guó)家重點(diǎn)行業(yè)信息安全,推動(dòng)人工智能的穩(wěn)健發(fā)展。因此,大模型敏感數(shù)據(jù)遺忘在隱私保護(hù)和大模型研發(fā)中起到了至關(guān)重要的作用。
大模型敏感數(shù)據(jù)移除可以簡(jiǎn)單地通過(guò)從訓(xùn)練數(shù)據(jù)集所在的后端數(shù)據(jù)庫(kù)中直接刪除目標(biāo)數(shù)據(jù)來(lái)實(shí)現(xiàn),然而大模型復(fù)雜結(jié)構(gòu)中仍會(huì)有包含移除數(shù)據(jù)相關(guān)知識(shí)的“記憶”存留,不能保證數(shù)據(jù)的徹底遺忘。如果在剔除敏感數(shù)據(jù)后的新數(shù)據(jù)集上重新訓(xùn)練或微調(diào)大模型,雖然能夠?qū)崿F(xiàn)數(shù)據(jù)及其影響的徹底遺忘,但是會(huì)帶來(lái)極其高昂的計(jì)算開銷與時(shí)間成本,同時(shí),由于數(shù)據(jù)移除請(qǐng)求在實(shí)踐中是頻繁且持續(xù)進(jìn)行的,所以從頭重訓(xùn)練大模型的方法是不切實(shí)際的。大模型的黑盒性質(zhì)使模型權(quán)重和數(shù)據(jù)之間的關(guān)系無(wú)從知曉,是實(shí)現(xiàn)高效的大模型敏感數(shù)據(jù)遺忘面臨的重要挑戰(zhàn)。
為了解決上述問題,同時(shí)滿足安全性與效率的需求,近期涌現(xiàn)了大模型敏感數(shù)據(jù)遺忘的前沿研究。以ICUL(Pawelczyk M, Neel S, Lakkaraju H. In-context unlearning: Language models as few shot unlearners. arXiv preprintarXiv:2310.07579, 2023.)為例,其在大模型推理的過(guò)程中,通過(guò)構(gòu)建特定的上下文架構(gòu),在上下文的開頭提供由目標(biāo)遺忘數(shù)據(jù)點(diǎn)及其反向標(biāo)簽,以及從訓(xùn)練數(shù)據(jù)分布中采樣的其他正確分類的上下文實(shí)例構(gòu)成的提示詞,實(shí)現(xiàn)敏感數(shù)據(jù)的遺忘。該遺忘方法不需要訪問任何模型參數(shù)知識(shí),且能夠保持大模型的性能水平。此外,隨著對(duì)模型精度之外如對(duì)抗魯棒性、公平性等的要求越來(lái)越高,僅僅追求精度越來(lái)越不夠了,在模型參數(shù)的基礎(chǔ)上引入第二組可學(xué)習(xí)變量,帶來(lái)了雙變量大模型敏感數(shù)據(jù)遺忘的需求。以Minimax Unlearning(Liu J, Lou J, Qin Z, et al. Certified Minimax Unlearning with Generalization Rates and Deletion Capacity. Thirty-seventh Conference on Neural Information Processing Systems. 2023.)為例,其提出基于全海森矩陣的完全牛頓步遺忘更新算法,同時(shí)引入差分隱私中的高斯機(jī)制,添加精心設(shè)計(jì)的隨機(jī)擾動(dòng)以達(dá)到可證明數(shù)據(jù)遺忘的理論保障,實(shí)現(xiàn)從雙變量大模型中移除目標(biāo)遺忘數(shù)據(jù)的影響,近似達(dá)到在剩余數(shù)據(jù)上重新訓(xùn)練的效果。
大模型敏感數(shù)據(jù)遺忘的未來(lái)發(fā)展趨勢(shì)可能包括更高效的遺忘機(jī)制算法的研發(fā)、更嚴(yán)格的隱私保護(hù)法規(guī)的制定、更廣泛的應(yīng)用場(chǎng)景的探索等。結(jié)合多種隱私保護(hù)技術(shù),不斷增強(qiáng)大模型的安全性和可信度,構(gòu)建完整的大模型安全保障體系。
伴隨著人工智能技術(shù)的不斷發(fā)展,大模型也面臨著諸多安全挑戰(zhàn),安全體系構(gòu)建任重道遠(yuǎn)。針對(duì)個(gè)人隱私的侵犯泄露和詐騙、系統(tǒng)安全、網(wǎng)絡(luò)安全、數(shù)據(jù)安全引發(fā)的底座脆弱性,是大模型的發(fā)展過(guò)程中必須跨越的“4座大山”。構(gòu)建安全可信的人工智能技術(shù)是推動(dòng)人工智能發(fā)展的關(guān)鍵因素,不僅可以避免潛在的風(fēng)險(xiǎn)和負(fù)面影響,還能為社會(huì)帶來(lái)更多的利益和進(jìn)步。
構(gòu)建用于安全垂直領(lǐng)域的大模型,也是實(shí)現(xiàn)安全人工智能技術(shù)的不可抗拒的技術(shù)浪潮。通過(guò)利用基礎(chǔ)大模型和多模態(tài)大模型的相關(guān)技術(shù),構(gòu)建用于安全領(lǐng)域的大模型來(lái)輔助進(jìn)行內(nèi)容檢測(cè)與審核、漏洞挖掘、攻擊溯源、告警研判、任務(wù)編排等任務(wù),將重塑安全體系。利用大模型技術(shù),結(jié)合代碼、視覺、語(yǔ)音等多個(gè)要素,則可以構(gòu)建更加全面的安全體系。
實(shí)現(xiàn)安全可信大模型,有著重要的技術(shù)價(jià)值,可以帶來(lái)更智能的安全防護(hù),給安全體系帶來(lái)智能化的飛躍;還可以促進(jìn)隱私保護(hù)技術(shù)的發(fā)展,帶來(lái)更可信的智能產(chǎn)品,讓用戶信賴。同時(shí)實(shí)現(xiàn)安全可信大模型也有非常重大的戰(zhàn)略意義。有效地保護(hù)用戶隱私和數(shù)據(jù)安全,將增加消費(fèi)者對(duì)大模型產(chǎn)品的信任度,從而提高市場(chǎng)份額;大模型的安全性將成為準(zhǔn)入壁壘;另外發(fā)展大模型的安全和隱私保護(hù)技術(shù)可以防止大模型本身的問題對(duì)企業(yè)造成潛在損失,對(duì)企業(yè)的商業(yè)運(yùn)行將至關(guān)重要。
未來(lái),人工智能大型模型的應(yīng)用將深刻改變?nèi)藗兊纳罘绞健4_保這些大型模型的安全可信是實(shí)現(xiàn)人工智能技術(shù)廣泛應(yīng)用的必然要求。不斷提升安全性和可信度,能夠更好地推動(dòng)人工智能技術(shù)的蓬勃發(fā)展,推動(dòng)社會(huì)不斷發(fā)展進(jìn)步,并為人們帶來(lái)更加智能化和便利的生活體驗(yàn)。
致謝:感謝科技創(chuàng)新2030-“新一代人工智能”重大項(xiàng)目“人工智能安全理論及驗(yàn)證平臺(tái)”(項(xiàng)目編號(hào):2020AAA0107700)、國(guó)家自然科學(xué)基金區(qū)域創(chuàng)新發(fā)展聯(lián)合基金重點(diǎn)項(xiàng)目“人工智能安全模型與測(cè)試方法”(項(xiàng)目編號(hào):U20A20178)和杭州市領(lǐng)軍型創(chuàng)新創(chuàng)業(yè)團(tuán)隊(duì)(TD2020003)的支持。
本文刊登于IEEE Spectrum中文版《科技縱覽》2024年4月刊。