眾所周知,數(shù)據(jù)的價值是在經(jīng)濟活動中信息交互所產生的——數(shù)據(jù)越流通,應用的場景越豐富,其價值會得到不斷放大及提升。不過在數(shù)據(jù)流通過程中,我們必須時刻考慮數(shù)據(jù)安全與隱私保護問題。
不久之前,螞蟻集團智能引擎與數(shù)據(jù)中臺技術部負責人、IEEE Fellow 周靖人博士在世界人工智能大會 WAIC 2021「隱私計算學術交流會」上發(fā)表了題為《開放智能—數(shù)據(jù)流通下的數(shù)據(jù)安全和數(shù)據(jù)隱私》的演講。
靖人從數(shù)據(jù)特性入手,對獨特數(shù)據(jù)背景下如何做到數(shù)據(jù)安全、隱私保護,并發(fā)揮大數(shù)據(jù)應用的價值進行了討論,同時也首次引入了「開放智能」概念,對于螞蟻集團面向隱私計算的技術架構進行了一番介紹。
在活動中,螞蟻集團的技術專家為我們展示了業(yè)內對于數(shù)據(jù)安全和隱私保護的最新思考。
數(shù)據(jù)特性與算法倫理
首先為什么需要數(shù)據(jù)流通,因為數(shù)據(jù)產生的場景與應用場景不盡相同——你可能會因為買了一杯咖啡而產生了數(shù)據(jù),但這些行為數(shù)據(jù),包括購物習慣、生活習慣等會被應用在其他的場景中。數(shù)據(jù)只有在更多的場景中實現(xiàn)應用,其價值才能得到不斷擴展。
在數(shù)據(jù)流通的過程中,我們免不了會思考兩個深層次的問題:數(shù)據(jù)權屬和算法倫理。
我們可以把數(shù)據(jù)分成兩類,一類是個人的基礎數(shù)據(jù),比如性別,年齡等,這些數(shù)據(jù)歸屬于個人是沒有太多異議的,另一類是行為數(shù)據(jù),這類數(shù)據(jù)的產生涉及到多個數(shù)據(jù)主體:消費者是一個行為主體,同時商品、服務也是行為主體,還有一方涉及到平臺,后者通過觀察消費者和商品之間的一系列關系,再基于平臺自身的知識,把相互的行為數(shù)據(jù)記錄下來。
可以看到,行為數(shù)據(jù)的產生涉及多個主體,我們很難把行為數(shù)據(jù)分割成服務信息或個體信息,同時行為數(shù)據(jù)的產生還涉及到平臺的知識產權和勞動成果。在數(shù)據(jù)流通的過程中,我們需要合理分配和保護所有主體和數(shù)據(jù)參與者的權益。
站在消費者角度,我們思考如何保護自己的隱私,并通過數(shù)據(jù)分享為自己帶來更多的方便。同時在平臺角度,基于大數(shù)據(jù)的算法需要大量技術投入,在數(shù)據(jù)流通的過程中,我們也希望能夠保護平臺方的知識產權和勞動成果,當然也需要平臺依法接受監(jiān)管。
還有一個非常具有挑戰(zhàn)性的問題,我們稱之為算法倫理:應用數(shù)據(jù)后對算法產生的影響。這個范疇包括了可解釋性、公平性、以及一系列的隱私保護。
如今大量的應用使用了基于人工智能的算法,我們需要思考如何把社會學、經(jīng)濟學的思考映射到數(shù)學模型和算法方面。
例如我們會發(fā)現(xiàn):可解釋性和隱私在某種程度上存在矛盾。AI 模型的可解釋性需求往往是把一些模型的決策點一定程度上暴露出來。但隨著模型決策點和邊界條件的可視化,人們的隱私信息也在某種程度上面臨著暴露。很多時候,從模型的推斷結果可以反推一些人的基本屬性——所以如何權衡這個問題,也是當下我們需要研究的重要課題。
不過,可解釋性和算法公平性又存在相互促進的關系。隨著算法從一個黑盒變成白盒,慢慢引入可解釋能力,我們將逐步消除 AI 算法中的潛在歧視。
數(shù)據(jù)開放流通的三個層次
討論完數(shù)據(jù)權屬和算法倫理之后,我們來看看如何在數(shù)據(jù)流通中去解決上述問題。
數(shù)據(jù)的流通可以簡單歸納為三個層次:
·第一層:僅涉及到個人數(shù)據(jù)的生產和融合,僅僅是一個個體或平臺,或平臺通過觀察的方式積累個人行為數(shù)據(jù)。今天人們在電商平臺,或聚合新聞平臺、短視頻應用等,都屬于這樣的場景。
·第二層:機構之間數(shù)據(jù)的互相交流,比較典型的例子是銀行通過用戶信息的流通不斷提升風控能力,避免系統(tǒng)性風險。
·第三層:數(shù)據(jù)流通的生態(tài),在理想情況下應該存在多個數(shù)據(jù)的提供方,以及多個數(shù)據(jù)的消費者,這中間有一系列的機制來保證數(shù)據(jù)隱私與安全,同時也能提供更好的數(shù)據(jù)服務。
在現(xiàn)階段我們主要需要探討前兩個層次的技術。
首先是個人數(shù)據(jù)生成和融合。這類場景會涉及到數(shù)據(jù)采集、模型訓練,技術人員需要思考如何從數(shù)據(jù)挖掘核心信息,產生個性化模型,模型推理的結果會影響決策。這是一個比較長的鏈路,需在整個過程中關注如何保護個人隱私。保護往往需要從產品設計就開始考慮,并貫穿在產品的全生命周期中去。采集過程需以最小集采集為原則,而不是隨意的、無明確范疇采集,這方面要引入差分隱私、數(shù)據(jù)脫敏等技術。在建立模型后,還需進行驗證,確保模型可信——這方面有差分隱私可解釋性的技術。
當前的互聯(lián)網(wǎng)正在進入云端協(xié)同的新階段,消費者的行為通過手機或電腦在端上發(fā)生,模型很多在云上進行大規(guī)模機器學習訓練產生,這樣的體系被我們稱為云端協(xié)同。
在這個過程中,我們若想做到隱私保護,需要在端上實現(xiàn)理解用戶的行為的同時,去做初步的數(shù)據(jù)篩選、數(shù)據(jù)清洗等等工作。清洗后的數(shù)據(jù)再到云端融合其他數(shù)據(jù),產生新的模型計算。整個過程當中,云端系統(tǒng)并沒有存儲用戶的行為,這種模式的真正應用能夠為消費者提供更好的權益。
最典型的形式是聯(lián)邦學習,它可以說是一個分布式學習框架,在數(shù)據(jù)采集后采用不出域的原則,也就是我們今天可以把很多原型計算放到端側設備上,通過協(xié)同方式去創(chuàng)建聯(lián)合學習模型的方式。在這個過程中我們也可以通過差分隱私、可信執(zhí)行環(huán)境等技術去加強數(shù)據(jù)保護的能力。
機構之間的數(shù)據(jù)開放互通,通過各機構之間信任關系、網(wǎng)絡狀態(tài)、數(shù)據(jù)量以及模型復雜度等方式,可分為下面幾個類別:
1.最直接的是集中式模式,也就是數(shù)據(jù)各個機構、參與方能夠把數(shù)據(jù)匯總到集中式環(huán)節(jié)里進行模型訓練,進行整個認知智能的探索?;蚴褂靡粋€特定的小集群來提供高效的數(shù)據(jù)融合,后者的好處是效率高,數(shù)據(jù)融合在一個主體,就可進行非常復雜的計算,它面臨的挑戰(zhàn)是如何搭建起可信環(huán)境。所以在實踐中,我們經(jīng)常會采用中心化模式。
2.去中心化模式中,所有的模型訓練是分布式執(zhí)行:數(shù)據(jù)提供方也是計算參與方。通過多方的協(xié)同來進行聯(lián)合訓練、聯(lián)合學習。技術就會涉及到多方安全計算、同態(tài)加密等。在計算過程中做加密雖然帶來了安全性保障,對性能也提出了很大挑戰(zhàn)。該模式可做到安全可證,但同時會為性能付出代價。
3.集中式模式和去中心化模式之間還有一種中間狀態(tài),即聯(lián)合計算模式。這個模式里,每方都會參與到模型計算,同時再引入中心化模塊概念,其可以協(xié)調計算、模型訓練。這里具有代表性的是聯(lián)邦學習,拆分學習等,都屬于聯(lián)合計算學習框架。在這個框架中,我們需要通過差分隱私來保護各個模塊與中心化模塊之間的通信。以信息論為基礎,我們可以度量任何信息交互所可能帶來的個人隱私風險,也就是說個人隱私在聯(lián)邦學習環(huán)境中計算所帶來的一系列風險是可度量的。
所以,我們可以把機構之間信息的開放、流通,可歸納為可信、可證、可度量的環(huán)境。
開放智能技術
如何把上面討論的內容形成體系化的技術框架,去解決數(shù)據(jù)流通過程中遇到的各種問題,保證在各種復雜場景中數(shù)據(jù)的安全及隱私保護呢?
這里引入一個新名詞:開放智能,指的是用于解決數(shù)據(jù)開放流通過程中所面臨的一系列問題的前沿技術的統(tǒng)稱。這個領域非常復雜,技術也非常具有挑戰(zhàn)性——在開放智能中,我們會面臨多個數(shù)據(jù)主體,包括個人、企業(yè),甚至政府,每一類主體的意愿、訴求都各不相同。個人層面想做到隱私保護,企業(yè)訴求是希望保護自己的知識產權和勞動成果。政府首先關注社會利益。同時還會涉及到如何激勵開放的意愿,同時避免數(shù)據(jù)歧視、算法壟斷等。
我們可把開放智能的技術分為五部分:
·首先是是底層的數(shù)據(jù)技術,主要用于解決數(shù)據(jù)授權的問題。
·其次是計算技術,包括可信計算、可度量計算、可證計算,用于解決計算過程中的隱私保護問題。
·第三層為算法層,解決合規(guī)合法、算法倫理、魯棒性等算法可信賴的問題。
·在此之上還有市場構建,需要思考如何通過激勵機制、定價等,促進形成良好生態(tài),解決數(shù)據(jù)流通過程中的效率問題。
·最后是可驗證技術,當模型訓練好之后,我們需要確保模型實現(xiàn)的的確是我們需要它做的事情。
螞蟻推出了隱私計算框架——隱語,這是螞蟻集團經(jīng)過多年獨立自主研發(fā)和業(yè)務應用打磨而構建的一套統(tǒng)一框架,旨在解決數(shù)據(jù)價值的安全流動這一行業(yè)難題。
該框架有兩個層次,上面一層是編譯器,通過新的編譯器技術,我們可以將整個執(zhí)行圖自動編譯成密態(tài)計算圖,并對其進行一系列的優(yōu)化。下面一層是分布在不同參與方的 PPU(Privacy Preserving Unit),每一個 PPU 提供可信可證可度量的基礎計算能力。由編譯器生成的密態(tài)計算圖會被分發(fā)到 PPU 上進行計算,最終產出用戶需要的計算結果。
螞蟻集團的隱私計算技術架構——隱語,具有以下幾個特點:
·可擴展性,支持當前主流的機器學習的框架,上層可對接包括 TensorFlow、Pytorch、JAX 在內的多種主流機器學習框架,以及 SQL 前端;下層可以鏈接包括 SS、HE、GC 在內的多種安全協(xié)議。
·隱私保護能力:支持包括可信安全、可度量安全和可證安全在內的多種隱私計算能力。
·計算效率:目前隱私計算最大的問題在于性能瓶頸,螞蟻集團對框架做了多方面的優(yōu)化,包括 Platform + PPU 的雙層設計可以提供分層優(yōu)化能力,可以提供業(yè)界頂尖的計算性能和計算規(guī)模。
開放智能的應用
這樣一套隱私計算體系目前已經(jīng)獲得了應用,一個的典型的場景是在個人信貸上。
人們在銀行辦理貸款時,銀行為了降低風險,往往會參考用戶之前在銀行系統(tǒng)中進行過的各類操作,包括購買的基金、金融產品,日常消費流水等。系統(tǒng)完整的分析結果會幫助我們提供更好的數(shù)據(jù)的服務,但這個過程需要全鏈路、健全機制的保障,需要在用戶授權的情況下進行分析。
為實現(xiàn)上述效果,就會涉及到多方安全計算。在聯(lián)合計算之后還需進行驗證,以確保每個數(shù)據(jù)參與方真正完成了它所需要做的計算。當訓練好 AI 模型后,因為不能是黑盒狀態(tài),需要實現(xiàn)可解釋,還要面向消費者進行告知:為什么今天可以貸這么多款。系統(tǒng)也不能因為客戶的性別、年齡就對用戶區(qū)別對待,在這一環(huán)節(jié)也需確保算法是公平的。最后,還有非常重要的監(jiān)管環(huán)節(jié),要有存證、審計的能力。
開放智能是一個包含多領域知識的技術體系,涉及到了數(shù)據(jù)鑒權、隱私計算、可信賴 AI、市場機制等。這是一個嶄新的領域,還有很多技術有待研究和創(chuàng)新。隨著人們的不斷參與,未來我們還將看到越來越多的新進展。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )