影子人工智慧:對企業採用生成式人工智慧的隱藏威脅

生成式人工智慧(GenAI)技術,尤其是像OpenAI的GPT-4這樣的大型語言模型,不斷引起渴望競爭優勢的企業的興趣。許多企業認識到這些技術的潛力,以徹底改變其營運的各個方面。然而,儘管人們的興趣日益濃厚,但在企業內部採用生成式人工智慧方面存在明顯的猶豫。

資料隱私是企業最關心的問題之一。它不僅是一個問題,而且是開展業務的關鍵要素。

● 91%的組織表示,他們需要採取更多措施來讓客戶放心他們的資料將如何被人工智慧使用。

● 98%的組織向董事會報告隱私指標。

● 94%的組織表示,如果資料沒有充分保護,他們的客戶就不會向他們購買產品。

GenAI將人工智慧能力交到更多用戶的手中。 92%的受訪者認為,GenAI是一項完全不同的技術,具有新的挑戰和問題,需要新的技術來管理資料和風險。

此外,我們看到,在全球範圍內,因違背客戶信任而對企業處以創紀錄的罰款的數量不斷增加。例如,

●2022年9月,Instagram因違反GDPR侵犯兒童隱私而被愛爾蘭資料保護專員(DPC)罰款4.03億美元。

● 中國叫車企業滴滴全球旅遊有限公司(滴滴)因違反網路安全和資料相關法律被罰款80.26億元人民幣(約合11.8億美元)。

● 2021年夏天,零售巨頭亞馬遜的財務記錄披露,盧森堡當局因違反GDPR對其處以7.46億歐元(8.77億美元)的罰款。

資料隱私的風險從未如此高。

影子人工智慧的崛起

隨著人工智慧繼續無情地向企業邁進,一種潛在的威脅潛伏在黑暗中,可能會破壞其廣泛應用:影子人工智慧。

影子人工智慧與未經授權使用軟體的「影子IT」現象非常相似,指的是沒有組織監督的情況下部署或使用人工智慧系統。但它給企業帶來的風險要大得多。

無論是出於方便還是無知,對人工智慧開發進行妥善管理都可能製造定時炸彈。隨著人工智慧透過雲端服務變得更容易訪問,同時又保持不透明,鬆懈控制留下的後門很容易被濫用。

渴望優勢的員工可以輕鬆地將企業資料貼在ChatGPT或GoogleBard中,目的很好,例如更快、更有效率地完成工作。在沒有安全解決方案的情況下,員工將轉向可存取的解決方案。

去年春天,三星員工三度意外與ChatGPT分享機密資訊。洩漏的資訊包括軟體程式碼和會議記錄,這導致該公司禁止員工使用GenAI服務。

此外,由於GenAIAPI易於訪問,軟體開發人員可以輕鬆地將GenAI整合到他們的專案中,這可以添加令人興奮的新功能,但往往以犧牲最佳安全實踐為代價。

影子人工智慧的風險

隨著利用GenAI的壓力越來越大,多種威脅也日益增加。

資料外洩

GenAI工具的激增是一把雙面刃。一方面,這些工具在提高生產力和促進創新方面提供了卓越的能力。另一方面,它們也帶來了與資料外洩相關的重大風險,尤其是在缺乏強大的AI可接受使用政策(AUP)和執行機制的情況下。 GenAI工具的易用性導致了一個令人擔憂的趨勢:員工在熱情或追求效率的驅使下,可能會無意中將敏感的企業資料外洩給第三方服務。

不只是普通知識工作者在使用聊天機器人。去年,微軟員工也犯了一個錯誤,在將38TB的LLM培訓資料上傳到開發者平台GitHub時意外洩漏了這些資料。這其中包括微軟員工的個人電腦備份。備份包含敏感的個人數據,包括微軟服務的密碼、金鑰以及359名微軟員工的3萬多條微軟團隊內部資訊。

違反合規性

未經合規性審查的影子人工智慧工具可能會違反GDPR等法規,從而導致法律後果和罰款。除此之外,企業需要關注的跨多個司法管轄區的法律也越來越多。

即將通過的歐盟《人工智慧法案》則讓情況更加複雜。不遵守規定可能會導致罰款,罰款金額從3500萬歐元或全球營業額的7%到750萬歐元或營業額的1.5%不等,具體取決於違法行為和企業規模。

1月29日,義大利資料保護局(DPA,即GaranteperlaProtezionedeiDatiPersonali)通知OpenAI違反了資料保護法。去年3月,Garante曾暫時禁止OpenAI處理資料。根據事實調查活動的結果,義大利DPA得出結論,現有證據顯示OpenAI違反了歐盟GDPR的規定。

揭秘影子人工智慧

組織需要一種保護隱私的AI解決方案,以彌合保護隱私和充分發揮LLM潛力之間的差距。

儘管人工智慧技術取得了重大進展,但只有一些基於人工智慧的應用被組織成功實施,以安全地處理機密和敏感資料。為了在整個生成式人工智慧生命週期中保護隱私,必須實施嚴格的資料安全技術,以安全高效地執行涉及模型的所有安全關鍵操作以及用於訓練和推理的所有機密資料。

資料清理和匿名化通常被提議作為增強資料隱私的方法。然而,這些方法可能沒有預期的那麼有效。資料清理,即從資料集中刪除敏感資訊的過程,可能會因GenAI的本質而受到破壞。

匿名化,即從資料集中剝離個人識別資訊的過程,在GenAI的背景下也存在不足。先進的人工智慧演算法已經證明了在匿名資料集中重新識別個人的能力。例如,倫敦帝國學院的研究表明,機器學習模型可以以驚人的準確度在匿名資料集中重新識別個人。研究發現,僅使用年齡、性別和婚姻狀況等15個特徵,就可以在任何給定的匿名資料集中重新識別99.98%的美國人。

此外,《麻省理工技術評論》報導的一項研究強調,即使資料集不完整或被更改,也可以輕鬆地從匿名資料庫中重新識別個人。在此背景下使用機器學習模型表明,目前的匿名化實踐不足以應對現代人工智慧技術的能力。

這些發現表明,政策制定者和技術專家需要開發更強大的隱私保護技術,以跟上人工智慧的進步,因為資料清理和匿名化等傳統方法,已不足以確保GenAI時代的資料隱私。

GenAI中更好的資料隱私解決方案

隱私增強技術(PET)被認為是GenAI領域保護資料隱私的最佳解決方案。透過保護資料處理並維護系統功能,PET解決了資料共享、外洩和隱私監管問題。

值得注意的PET包括:

  • 同態加密:允許對加密資料進行計算,輸出結果就像對純文字進行處理一樣。限制包括速度較慢和查詢複雜度降低。資料完整性風險仍然存在。
  • 安全多方計算(MPC):方便多方處理加密資料集,保護資料隱私。缺點包括表現下降,尤其是在LLM訓練和推理方面。
  • 差分隱私:在資料中加入雜訊以防止使用者重新識別,平衡隱私和資料分析準確性。但是,它可能會影響分析準確性,並且在計算過程中不保護數據,因此需要與其他PET結合。

雖然上述每種技術都提供了保護敏感資料的方法,但沒有一種可以確保生成式AI模型所需的運算能力能夠充分發揮作用。然而,一種稱為機密運算的新方法使用基於硬體的可信任執行環境(TEE),可防止在使用過程中未經授權存取或修改應用程式和資料。

這可以防止未經授權的實體(例如主機作業系統、虛擬機器管理程式、系統管理員、服務提供者、基礎設施所有者或任何可以實體存取硬體的人)檢視或更改環境中的資料或程式碼。這種基於硬體的技術提供了一個安全的環境,以確保敏感資料的安全。

機密計算作為隱私保護的AI解決方案

機密計算是技術行業的新興標準,重點是保護使用過程中的資料。這個概念將資料保護從靜態和傳輸中的資料擴展到使用中的數據,這在當今橫跨多個平台(從本地到雲端和邊緣運算)的運算環境中尤其重要。

這項技術對於處理敏感資料(例如個人識別資訊(PII)、財務資料或健康資訊)的組織至關重要,因為針對系統記憶體中資料的機密性和完整性的威脅是一個重大問題。

由於機密運算的複雜性,這種跨行業努力至關重要,它涉及重大的硬體變更以及程式、作業系統和虛擬機器的結構。 CCC旗下的各種專案正在透過開發開源軟體和標準來推動該領域的發展,這對於致力於保護使用中資料的開發人員來說至關重要。

機密運算可以在不同的環境中實施,包括公有雲、本地資料中心和分散式邊緣位置。這項技術對於資料隱私和安全、多方分析、法規遵循、資料在地化、主權和駐留至關重要。它確保敏感資料即使在多租戶雲端環境中也能受到保護並符合當地法律。

最終目標:機密人工智慧

機密AI解決方案是一種安全平台,它使用基於硬體的可信任執行環境(TEE),來訓練和運行敏感資料的機器學習模型。 TEE可以進行訓練、微調和推理,而不會將敏感資料或專有模型暴露給未經授權的各方。

資料所有者和使用者可以在其資料上使用本地學習模型(LLM),而不會向未經授權的各方洩露機密資訊。同樣,模型所有者可以在保護其訓練資料和模型架構和參數的同時訓練他們的模型。如果發生資料洩露,駭客只能存取加密數據,而無法存取TEE內保護的敏感資料。

然而,僅靠機密計算無法防止模型意外洩露有關訓練資料的詳細資訊。機密計算技術可以與差分隱私結合,以降低這種風險。這種方法涉及在TEE內計算資料並在發布之前應用差分隱私更新,從而降低推理過程中洩露的風險。

此外,機密的AI平台可協助LLM和資料提供者遵守隱私法律法規。透過使用高級加密和安全的TEE技術保護機密和專有數據,模型建構者和提供者無需擔心他們可以收集的用戶資料的數量和類型。

可信賴執行環境等機密運算技術,為保護AI系統中的隱私和智慧財產權奠定了基礎。機密AI解決方案與差異隱私和周​​到的資料治理政策等技術相結合,可讓更多組織從AI中受益,同時建立利害關係人的信任和透明度。

儘管仍有許多工作要做,但密碼學、安全硬體和隱私增強方法的進步表明,未來人工智慧可以合乎道德地部署。不過,我們必須繼續倡導負責任的創新,並推動平台賦予個人和組織控制其敏感資料使用方式的權力。