首頁(yè)|必讀|視頻|專(zhuān)訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 近期會(huì)議 >> 正文

GAITC專(zhuān)題論壇丨Mohan Kankanhalli:以脫敏技術(shù)對(duì)抗機(jī)器學(xué)習(xí)

2020年7月29日 12:06  CCTIME飛象網(wǎng)  

7月26日上午,由中國(guó)人工智能學(xué)會(huì)主辦、新浪新聞聯(lián)合浙江大學(xué)承辦的2020全球人工智能技術(shù)大會(huì)(2020GAITC)“AI時(shí)代下的新媒體與社交娛樂(lè)”專(zhuān)題論壇拉開(kāi)帷幕,新浪集團(tuán)首席信息官、新浪AI媒體研究院院長(zhǎng)王巍,浙江大學(xué)特聘教授、悉尼科技大學(xué)教授、百度研究院訪問(wèn)教授楊易共同擔(dān)任論壇主席。

新加坡國(guó)立大學(xué)(NUS)計(jì)算機(jī)學(xué)院院長(zhǎng) Mohan Kankanhalli 在本次專(zhuān)題論壇上,與來(lái)自業(yè)界、學(xué)術(shù)界的嘉賓們分享了《人工智能時(shí)代下的多媒體隱私保護(hù)》。

新加坡國(guó)立大學(xué)(NUS)計(jì)算機(jī)學(xué)院院長(zhǎng)Mohan Kankanhalli

Mohan Kankanhalli提到,對(duì)抗機(jī)器學(xué)習(xí),是人工智能領(lǐng)域里一個(gè)非常熱門(mén)的技術(shù)。那么,什么是對(duì)抗機(jī)器學(xué)習(xí)呢?對(duì)抗機(jī)器學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),旨在通過(guò)輸入一定的欺騙來(lái)愚弄機(jī)器學(xué)習(xí)模型。 對(duì)輸入的不魯棒是導(dǎo)致機(jī)器學(xué)習(xí)模型出現(xiàn)故障的常見(jiàn)原因,從而使得很多機(jī)器學(xué)習(xí)算法的識(shí)別效果并不理想。比如,我們有一輛自動(dòng)駕駛汽車(chē),它看到一個(gè)停車(chē)標(biāo)志。如果這個(gè)停車(chē)標(biāo)志上有一些污漬,那么自動(dòng)駕駛汽車(chē)的算法就無(wú)法成功識(shí)別眼前的停車(chē)標(biāo)志。因此科學(xué)家的做法是,利用某些敏感屬性來(lái)欺騙機(jī)器,使得機(jī)器在面對(duì)這些欺騙時(shí),仍能做出正確識(shí)別與判斷。我們使用脫敏技術(shù)來(lái)對(duì)抗機(jī)器學(xué)習(xí),以保護(hù)我們的隱私,同時(shí)又讓人類(lèi)察覺(jué)不出這些變化。他認(rèn)為,不論是研究人員,企業(yè)還是消費(fèi)者,不論是用戶(hù)還是公民,我們都需要重視隱私保護(hù),不僅是傳統(tǒng)的針對(duì)人的隱私保護(hù),也有針對(duì)機(jī)器的隱私保護(hù)。

以下為Mohan Kankanhalli演講實(shí)錄,內(nèi)容經(jīng)編輯略有刪減:

感謝主辦方邀請(qǐng)我參加這次盛會(huì),我深感榮幸。今天,我打算跟大家聊聊隱人工智能時(shí)代下的多媒體隱私保護(hù)。我在接下來(lái)的半小時(shí)里將重點(diǎn)談?wù)勓巯虏粩喑霈F(xiàn)的一些新的隱私問(wèn)題,以及,更重要的——人工智能如何幫助我們緩解這些隱私問(wèn)題。我今天的演講,將從一個(gè)新的問(wèn)題著手,然后再介紹一些我們嘗試解決這個(gè)問(wèn)題的一些思路。最后,我打算說(shuō)說(shuō)這個(gè)領(lǐng)域內(nèi)的一些尚待解決的問(wèn)題,希望能給學(xué)校和行業(yè)里的研究人員帶來(lái)幫助。

那么,我今天演講的主題就叫做《人工智能時(shí)代下的多媒體隱私保護(hù)》。

首先,我要感謝我的合作者們,他們也為這項(xiàng)研究做了很多貢獻(xiàn),他們是我的博士生Shen Zhiqi,以及2位我團(tuán)隊(duì)中的高級(jí)研究員Fan Shaojing和Yongkang Wong還有我的合作者Tian-Tsong Ng。我們的研究是由新加坡的國(guó)家研究基金贊助。

這些日子,大家一定在大眾媒體上看到過(guò)各種各樣的頭條報(bào)道,講的都是和歐盟推出的十分具有影響力的《通用數(shù)據(jù)保護(hù)條例》(“GDPR”)有關(guān)。新加坡也有自己的數(shù)據(jù)保護(hù)法規(guī):《個(gè)人數(shù)據(jù)保護(hù)法》(“PDPA”)。其他國(guó)家也在制定各自的隱私保護(hù)法。

所以,每個(gè)人自然而然地會(huì)有這么一個(gè)疑問(wèn):為什么隱私在今天會(huì)變得如此重要?顯然,隱私不是一個(gè)新概念。隱私問(wèn)題自人類(lèi)社會(huì)出現(xiàn)以來(lái)就已存在,只是,在最近幾年,我們對(duì)隱私的關(guān)注突然間大幅上升。

在我看來(lái),隱私問(wèn)題成為焦點(diǎn)的主要原因在于數(shù)字化生活的增加。我們都在使用電子郵件和聊天應(yīng)用,我們?cè)诙鄠(gè)社交媒體平臺(tái)上活動(dòng)。不管是因?yàn)樯缃换蚵殬I(yè)的緣故,我們無(wú)不使用大量照片,比如,我們的智能手機(jī)都可以拍照和拍視頻,然后我們又分享這些照片和視頻。手機(jī)有各種各樣的傳感器,包括定位傳感器。物聯(lián)網(wǎng)設(shè)備,比如智能電表,可以監(jiān)控我們的用水量和用電量。我們的很多健康數(shù)據(jù)也以數(shù)字形式存儲(chǔ),像傳統(tǒng)的影像照片如X光片、CT掃描或核磁共振成像等等。甚至簡(jiǎn)單的設(shè)備,比如我們使用的可穿戴設(shè)備,也會(huì)記錄我們的步數(shù)、心率和血壓,然后這些數(shù)據(jù)也全部以數(shù)字形式存儲(chǔ)。我們的金融交易、財(cái)務(wù)數(shù)據(jù)也以數(shù)字形式存儲(chǔ)。我們都使用電商系統(tǒng),會(huì)被各種推薦。在各種平臺(tái)上,廣告主向我們投放廣告。所以,總的來(lái)說(shuō),因?yàn)榧夹g(shù),我們的生活越來(lái)越美好。我們都希望享受科技帶來(lái)的好處,但是,有些新科技也不可避免地存在一些弊端。但我們又不希望受到技術(shù)的負(fù)面影響。比如,讓我們以健康數(shù)據(jù)為例。我猜,大家或多或少地都用過(guò)可穿戴設(shè)備,比如智能手表等,這些設(shè)備會(huì)監(jiān)測(cè)我們的健康狀況。但我們并不希望自己的健康數(shù)據(jù)為保險(xiǎn)公司所濫用,以增加我們的保費(fèi)。我們也不希望這些敏感的家庭細(xì)節(jié)被第三方公司知道,或被雇主知道。因此,我們作為用戶(hù),越來(lái)越意識(shí)到隱私的重要性,也因此,我們難免不會(huì)擔(dān)心,在使用科技的時(shí)候,自己的隱私是否被侵犯。并且,這個(gè)問(wèn)題與我們是否是一個(gè)好公民無(wú)關(guān),我們絕大多數(shù)人都是誠(chéng)信守法的好公民。所以,該是私密的,仍應(yīng)該是私密的。那么,技術(shù)可以帶來(lái)好處。但不幸的是,技術(shù)也存在缺陷。我們又該如何克服這些缺陷呢?

我在今天的演講中想告訴大家的一點(diǎn)是,技術(shù)其實(shí)可以幫助我們保護(hù)隱私。我會(huì)從一個(gè)新的隱私問(wèn)題,即針對(duì)機(jī)器的隱私保護(hù),這方面來(lái)展開(kāi)討論。所有數(shù)據(jù),尤其是我們獲得的、存儲(chǔ)的和分析的可視化數(shù)據(jù),比如這里我用照片來(lái)做例子。以前只有底片相機(jī)的時(shí)候,我們每拍一張照片都很認(rèn)真仔細(xì),但現(xiàn)在不一樣了,我們每天左拍拍右拍拍,積累了大量照片,我們的手機(jī)上和其他設(shè)備上,有成千上萬(wàn)的照片。人工查看所有這些照片,幾乎不太可能。所以,我們借助算法來(lái)做這件事。這是一個(gè)人工智能機(jī)器學(xué)習(xí)算法,比如搜索引擎,可以幫助我們搜索感興趣的數(shù)據(jù)。也就是說(shuō),如今,在我們看到任何數(shù)據(jù)之前,機(jī)器已經(jīng)首先對(duì)數(shù)據(jù)做了一遍搜索,找出所需的子集照片,再把結(jié)果反饋給我們,以供查看。所以一個(gè)新的問(wèn)題就是,看到這些敏感的隱私數(shù)據(jù)的不只是我們?nèi)祟?lèi),算法或者說(shuō)機(jī)器,也可以推斷這些敏感的隱私數(shù)據(jù)。

這就是我們想要重點(diǎn)討論的問(wèn)題。以往,我們說(shuō)到隱私的時(shí)候,比如說(shuō)我們有一些敏感信息,像工資之類(lèi)的,我們所說(shuō)的隱私保護(hù),是不希望有其他人知道這些信息。這個(gè)問(wèn)題只涉及針對(duì)人的隱私保護(hù),也就是說(shuō),只有獲得授權(quán)的人可以訪問(wèn)敏感數(shù)據(jù),而不是人人都可以訪問(wèn)這些數(shù)據(jù),這是一個(gè)很重要的問(wèn)題。當(dāng)然,這個(gè)問(wèn)題一直都很重要。這里,我把這個(gè)問(wèn)題稱(chēng)為“針對(duì)人的隱私保護(hù)”。但是現(xiàn)在,我們又有了一個(gè)新的問(wèn)題,“針對(duì)機(jī)器的隱私保護(hù)”,即人類(lèi)在獲得某些數(shù)據(jù)之前先使用算法來(lái)處理數(shù)據(jù),而這些算法本身可以推斷或了解敏感數(shù)據(jù)。這是一個(gè)最近才浮現(xiàn)的新問(wèn)題。為什么這么說(shuō)呢?假設(shè),有一個(gè)人,本來(lái)他是不能獲得你的敏感數(shù)據(jù)的,但是這個(gè)人使用某個(gè)機(jī)器學(xué)習(xí)算法來(lái)找到你的數(shù)據(jù)。如果,我們可以防止機(jī)器學(xué)習(xí)算法找到這些敏感數(shù)據(jù),那么這個(gè)人也就沒(méi)辦法獲得這些數(shù)據(jù),這可以幫助我們同時(shí)針對(duì)機(jī)器和人類(lèi)(那些未被授權(quán)訪問(wèn)特定數(shù)據(jù)的人),保護(hù)個(gè)人隱私。

接下來(lái),我主要以圖像為例子。然后和大家分享一下我們的這個(gè)研究,即在圖像方面,提供針對(duì)機(jī)器的隱私保護(hù)。

我再舉一個(gè)例子。我的學(xué)生Shen Zhiqi,他去年在一次大會(huì)上拍下了一張照片,想分享給他的朋友。生活中有好多人會(huì)隨手拍下一些照片,然后和朋友分享這些照片。但是,有些人,他們并不想和別人分享自己的照片。其實(shí),我們不希望社交媒體平臺(tái)在非必要的時(shí)候訪問(wèn)我們的數(shù)據(jù),當(dāng)然,我們?cè)谑褂眠@些平臺(tái)的時(shí)候,他們就可以訪問(wèn)這些數(shù)據(jù)。但更重要的是,我們不希望任何人或任何公司從網(wǎng)絡(luò)上抓取數(shù)據(jù),然后使用這些數(shù)據(jù)。我們不希望有第三方,利用這些數(shù)據(jù),以我們反感的方式,向我們推銷(xiāo)一些產(chǎn)品。他們從網(wǎng)絡(luò)上抓取數(shù)據(jù),然后使用跟我們有關(guān)的敏感數(shù)據(jù)。至于,針對(duì)社交媒體平臺(tái),保護(hù)數(shù)據(jù)隱私,我不認(rèn)為技術(shù)是合適的解決方案。隱私,在我看來(lái),是一個(gè)社會(huì)技術(shù)問(wèn)題,光靠技術(shù)無(wú)法解決。我們還需要法律和法規(guī)的協(xié)助。所以,我們有GDPR,在新加坡我們有個(gè)人數(shù)據(jù)保護(hù)法等等。根據(jù)個(gè)人數(shù)據(jù)保護(hù)法,在使用用戶(hù)數(shù)據(jù)之前,你需要首先征得用戶(hù)的同意,所以,我們需要監(jiān)管法規(guī)。但是對(duì)于第三方,一個(gè)隨機(jī)的人或公司,事情有點(diǎn)不一樣。我們相信,我們的研究可以提供一些幫助,接下來(lái)我會(huì)解釋為什么有幫助。

我今天演講的主題就是如何針對(duì)機(jī)器保護(hù)隱私。對(duì)于我們討論的數(shù)據(jù)類(lèi)型,也就是圖像,我們想要拍照,想要跟朋友分享。所以,圖像應(yīng)具有較高的視覺(jué)品質(zhì),兼具藝術(shù)感和功能性。另一方面,它還可以保護(hù)數(shù)據(jù)不會(huì)被其他人根據(jù)敏感屬性搜索該數(shù)據(jù)。那么,哪些是敏感屬性呢?敏感屬性,它可以是性別、是種族、年齡等等。不僅面部圖像如此,其他任何圖像都是如此,因?yàn)槲恢眯畔⒁部梢孕孤峨[私。比如,如果你在醫(yī)院拍了一張照片,而你又不是醫(yī)生,那么你在醫(yī)院的原因很有可能是因?yàn)槟慊蛘吣闵磉叺娜丝赡茏≡毫?這就泄露了你或其他人的健康信息。其實(shí),大多數(shù)情況都是如此。那我們的研究希望做什么呢?

請(qǐng)看這兩張圖像。我們來(lái)對(duì)比下左邊的這張是原始圖像。如果一個(gè)人看到這張圖,尋找某些特定的敏感特征,比如我列在下面的這些。第一個(gè),圖片里有人嗎?一個(gè)人看到這張圖后,他會(huì)說(shuō),是的,圖片里有人。圖片里有文字嗎?圖片里有一些德文字母,所以一個(gè)人看到后,他會(huì)說(shuō),有。圖片里有任何被拍攝對(duì)象嗎?我覺(jué)得他們?cè)诤饶撤N飲料,我們可以聚焦這一點(diǎn)。圖片美嗎?當(dāng)然,看到人們享受快樂(lè)的時(shí)光怎么不美。這是一張美妙的圖片,快樂(lè)的圖片,一個(gè)人看到后,他會(huì)說(shuō):是的。接下來(lái),如果讓機(jī)器學(xué)習(xí)分類(lèi)器和人工智能算法閱讀這張圖片,它也可以給出一樣的判斷。圖片里有人,有文字,有被拍攝對(duì)象,圖片是美的,快樂(lè)的。但是我們要做的工作是,調(diào)整一下這張圖片。我們給圖片加入一點(diǎn)點(diǎn)噪音,然后得到右邊的這張圖片。在右邊這張調(diào)整過(guò)的圖片里,你甚至看不到任何添加的噪音。所以,從人類(lèi)視角來(lái)看,右邊的圖片和左邊的完全一模一樣。如果讓一個(gè)人看右邊的這張圖片,他看的內(nèi)容跟左邊的沒(méi)什么兩樣。但是,右邊的圖片里加入了一些特殊的噪音。這不是普通的噪音,而是精心設(shè)計(jì)過(guò)的噪音,當(dāng)算法再查看這張圖片,它就沒(méi)辦法從圖片里檢測(cè)到人像。所以你可以看到,在右邊圖片下方的這一欄里,圖片里有人嗎?機(jī)器判斷的結(jié)果顯示,沒(méi)有。圖片里有文字嗎?機(jī)器判斷的結(jié)果顯示,也是沒(méi)有。然后,可能因?yàn)槲覀儾惶P(guān)注被拍攝對(duì)象等其他內(nèi)容,所以算法仍然可以檢測(cè)到這些。所以,我們可以控制機(jī)器可以從圖片里識(shí)別哪些敏感內(nèi)容,不可以識(shí)別哪些內(nèi)容,我們可以控制這個(gè)。我們的技術(shù)要做的也正是這些。

我給大家介紹一下,我們的技術(shù)是如何做到這一點(diǎn)的。

首先,我們的目標(biāo)是什么?

我們的目標(biāo)是,在敏感屬性方面,欺騙機(jī)器,同時(shí)又讓人類(lèi)察覺(jué)不出這些變化。這里,我們使用對(duì)抗機(jī)器學(xué)習(xí)來(lái)保護(hù)隱私。對(duì)抗機(jī)器學(xué)習(xí),是人工智能領(lǐng)域里一個(gè)非常熱門(mén)的技術(shù)。那么,什么是對(duì)抗機(jī)器學(xué)習(xí)呢?對(duì)抗機(jī)器學(xué)習(xí)其實(shí)是當(dāng)前機(jī)器學(xué)習(xí)算法的一個(gè)問(wèn)題。很多機(jī)器學(xué)習(xí)算法的識(shí)別效果其實(shí)并不佳。比如,我們有一輛自動(dòng)駕駛汽車(chē),它看到一個(gè)停車(chē)標(biāo)志。如果這個(gè)停車(chē)標(biāo)志上有一些污漬,那么自動(dòng)駕駛汽車(chē)的算法就無(wú)法成功識(shí)別眼前的停車(chē)標(biāo)志。

目前,對(duì)抗機(jī)器學(xué)習(xí)基本上是隨機(jī)偶然的,但我們希望系統(tǒng)性地使用對(duì)抗機(jī)器學(xué)習(xí)來(lái)保護(hù)隱私。我們希望讓大多數(shù)場(chǎng)景圖片里的敏感屬性無(wú)法被算法識(shí)別。同時(shí),我們也希望加入的噪音足夠少,不影響圖像本身的視覺(jué)質(zhì)量。

所以,在給圖片增加噪音之前,我們要弄明白,人類(lèi)是如何感知圖片的?人們又是如何感知噪音的?我們先來(lái)了解一下人類(lèi)的感官特征。我們來(lái)看左邊這部分。我們研究人類(lèi),然后了解人類(lèi)的視覺(jué)系統(tǒng),然后利用我們對(duì)人類(lèi)視覺(jué)系統(tǒng)的了解,生成我們稱(chēng)之為“敏感性感知圖像擾動(dòng)”的模型,等一下我會(huì)繼續(xù)詳細(xì)解釋這個(gè)模型。現(xiàn)在,我們先來(lái)看一下我們研究的整體框架,首先,是人類(lèi)研究,即了解人類(lèi)如何感知視覺(jué)變化。其次,我們?cè)O(shè)計(jì)一個(gè)機(jī)器學(xué)習(xí)模型,生成人類(lèi)無(wú)法察覺(jué)的擾動(dòng)噪音。最后,我們需要驗(yàn)證我們的方法,看看它是否有效,以及有多有效,當(dāng)然還有結(jié)果。

那么我們來(lái)看第一部分。人類(lèi)研究。我們準(zhǔn)備了一組圖像,然后給圖像加入高斯噪音。比如,下面這四張圖。最左邊的是原圖;第二張圖里,我們給人像加入高斯噪音;第三張圖里,我們給人像腦袋上頂著的盤(pán)子加入高斯噪音;在最后一張圖里,我們給背景加入高斯噪音。然后我們利用亞馬遜人端運(yùn)算平臺(tái)上的工人——也就是人類(lèi)——區(qū)分原圖和修改過(guò)的圖。我們讓工人查看兩張?jiān)诓煌恢镁哂胁煌潭仍胍舻膱D像,然后,我們讓他們回答,哪個(gè)圖像被修改過(guò),哪個(gè)被加入了噪音,是左邊的圖像A還是圖像B,還是兩張圖像是一模一樣的,沒(méi)有任何噪音。我們做了很多測(cè)試,讓數(shù)百人查看大量在不同位置具有不同程序噪音的對(duì)比圖像。我們做了大量的這種人類(lèi)的主觀實(shí)驗(yàn),然后通過(guò)分析實(shí)驗(yàn)數(shù)據(jù),我們發(fā)現(xiàn)了一些有趣的認(rèn)識(shí)。第一,人類(lèi)對(duì)積極的情感物體比對(duì)消極的情感物體更加敏感。也就是,如果一張圖片里有一張笑臉,那么我們給笑臉增加噪音的話(huà),人類(lèi)會(huì)立即發(fā)現(xiàn)圖片被修改過(guò)。但如果圖片里是一張悲傷的臉龐,而我們給這張臉加入噪音的話(huà),人類(lèi)會(huì)更加容易忽略這細(xì)微的變化。這個(gè)發(fā)現(xiàn)十分有趣。這是有科學(xué)依據(jù)的,不是針對(duì)某一個(gè)人,而是每個(gè)人都如此。這是人類(lèi)獨(dú)有的特征。我們也在我們的研究中發(fā)現(xiàn)了許多關(guān)于人類(lèi)特征的見(jiàn)解。比如我們還發(fā)現(xiàn),人類(lèi)感知非常容易受到物體和場(chǎng)景特點(diǎn)的影響。即,人類(lèi)對(duì)越是鼓舞人心的圖片越不敏感。這意味著,對(duì)這類(lèi)圖片,我們不能增加太多的噪音。在我們的研究論文中,我們羅列了其他的發(fā)現(xiàn)結(jié)果;诘谝徊糠值娜祟(lèi)研究,我們提出了一個(gè)新概念:“人類(lèi)敏感性示意圖”。拿到一張?jiān)瓐D后,我們?yōu)槠淅L制一張敏感性示意圖,它可以告訴我們?cè)谶@張圖里,哪些區(qū)域是敏感區(qū)域,應(yīng)該避免加入噪音。比如,下面這三張圖。左邊是原圖,中間是敏感性示意圖。在中間這張圖里,你可以看到紅色標(biāo)記的地方,那里原來(lái)是破碎的瓶子,意思是,我們應(yīng)該避免在標(biāo)記的區(qū)域增加噪音,但是其他地方,我們可以加入噪音。需要注意的是,人類(lèi)敏感性示意圖有別于顯著圖。視覺(jué)顯著性已經(jīng)被廣泛研究過(guò)。我們的敏感性示意圖和顯著圖不同。比如,你看,最右的那張顯著圖顯示,那條魚(yú)是圖中的最顯著物體。但是,在對(duì)抗機(jī)器學(xué)習(xí)中,如果是從人類(lèi)敏感性角度出發(fā)的隱私保護(hù),那么玻璃瓶才是最敏感的物體。當(dāng)然,我們就需要避免給瓶子增加噪音,但是給魚(yú)加噪音就沒(méi)有問(wèn)題。接下來(lái),我要介紹的是我們的模型,以及我們模型的原理。

我們已經(jīng)從人類(lèi)主觀視覺(jué)認(rèn)知研究中對(duì)人類(lèi)感知獲得充分的了解,下一步是將這些知識(shí)融入到我們的對(duì)抗機(jī)器學(xué)習(xí)模型中。這是我們模型的整體結(jié)構(gòu),包括一個(gè)輸入圖像,然后在右上角是我們基于這張圖生成的人類(lèi)敏感性示意圖。然后在這張圖像上,根據(jù)我們想要保護(hù)的敏感屬性(比如,我們想要圖像里的其他人臉),我們可以生成一個(gè)擾動(dòng)噪音。知道圖像中哪些是敏感區(qū)域,哪些可以增加噪音后,我們可以消除想要保護(hù)的敏感屬性,就這樣我們定義了整個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。今天我就不深入解釋這個(gè)模型,但會(huì)大概地講述一下它的工作原理。

首先,我們需要一個(gè)經(jīng)過(guò)訓(xùn)練的多類(lèi)分類(lèi)器。為什么呢?請(qǐng)繼續(xù)往下看。我們想要做的事情呢,是保護(hù)圖片里的敏感屬性。那么現(xiàn)在,以這張圖為例,其中哪些是敏感屬性呢?在這張圖里,我覺(jué)得敏感屬性很明顯,圖里有人,有人臉。現(xiàn)在,我們也可以把年齡納入敏感屬性。比如,我們不想要任何兒童照片,因?yàn)樵谏缃幻襟w上,有第三方公司試圖抓取平臺(tái)上的所有兒童照片,所以我們希望阻止這樣的事情發(fā)生,那么圖像中的寶寶內(nèi)容也會(huì)是我們要保護(hù)的屬性。所以我們可以決定,我們想要保護(hù)的內(nèi)容。而在這個(gè)特殊的例子中,我們要保護(hù)的是出現(xiàn)的人和人臉。但我們也可以簡(jiǎn)單地說(shuō)要保護(hù)的是兒童,或者女性,即性別,因?yàn)閳D中也出現(xiàn)了女性?傊,我們可以決定要保護(hù)的內(nèi)容。然后,我們?cè)O(shè)計(jì)了一個(gè)經(jīng)過(guò)訓(xùn)練的多類(lèi)分類(lèi)器,它可以識(shí)別這些敏感屬性,我們打算用這個(gè)算法來(lái)保護(hù)隱私。對(duì)算法進(jìn)行訓(xùn)練之后,我們的下一步是生成敏感性示意圖。我再來(lái)解釋一下,什么是敏感性示意圖。左邊這張圖,是我們想要保護(hù)的圖片,所以,我們要從這張圖里找出,哪些區(qū)域不能加噪音,哪些區(qū)域可以加噪音。然后,我們?cè)O(shè)計(jì)了這個(gè)結(jié)構(gòu),圖片經(jīng)過(guò)處理后,可以得到右邊的這張示意圖,大小跟原圖一樣。它可以告訴你,哪些區(qū)域可以加噪音,哪些區(qū)域不可以。比如,黑色的地方是可以加噪音的。簡(jiǎn)言之,敏感性示意圖就是告訴你哪里可以加噪音,哪里不可以。最后是生成擾動(dòng)噪音,這也是最關(guān)鍵的部分,意味著我們不得不損失一些功能性,例如敏感度圖像差異損失和屬性預(yù)測(cè)損失。我們想要實(shí)現(xiàn)的,就是生成最少量的噪音,這些噪音最后會(huì)根據(jù)敏感性示意圖添加到圖片中,不是加在這里,而是在這些位置。這樣,我們的分類(lèi)器就無(wú)法識(shí)別圖片中的人類(lèi),也無(wú)法識(shí)別圖片中的人臉。我們有了這最后的功能,然后我們給算法做了訓(xùn)練。當(dāng)然,訓(xùn)練過(guò)程必不可少。這是做訓(xùn)練的一個(gè)非常標(biāo)準(zhǔn)的深度學(xué)習(xí)結(jié)構(gòu)。一旦訓(xùn)練完成后,輸入一張圖片,我們就可以生成它的敏感性示意圖和相應(yīng)的噪音,再把噪音加入圖像中,F(xiàn)在,當(dāng)你想要分享這張寶寶和母親的照片時(shí),你可以把原圖輸入算法,給圖片加上不易察覺(jué)的噪音,然后再在社交媒體上和親朋好友分享處理后的圖片。照片很漂亮對(duì)吧?但是,如果有第三方想要下載這張照片,想要下載帶兒童內(nèi)容的照片時(shí),他們不會(huì)搜索到這張圖。

為什么呢?因?yàn)槲覀兘o圖片加了噪音,所以分類(lèi)器無(wú)法識(shí)別到這張圖。然后我們也做了實(shí)驗(yàn)來(lái)驗(yàn)證最終的效果。例如,左邊的這張是原圖,右邊的這張是擾動(dòng)后的圖片。右側(cè)表格給出了人物存在的屬性值。你可以注意到,擾動(dòng)處理前,人物存在的屬性值很高。如果屬性值很高,即意味著算法可以識(shí)別出圖中存在人物。處理后,人物依舊存在,但屬性值偏低,意味著機(jī)器已經(jīng)被欺騙,無(wú)法識(shí)別圖中的人物。

另一方面,對(duì)于我們沒(méi)有保護(hù)的被拍攝物體,混淆矩陣基本沒(méi)有變化。在擾動(dòng)處理前,算法認(rèn)為圖中有被拍攝物體,在擾動(dòng)處理后,算法還是認(rèn)為圖中有被拍攝物體。所以,機(jī)器只是無(wú)法識(shí)別被保護(hù)的敏感屬性,但仍可以有效識(shí)別出非敏感屬性。

(Attributes 即人物存在的屬性值)

我們也將原圖與其他噪音類(lèi)型基礎(chǔ)進(jìn)行比較,通過(guò)將噪音圖從原圖中減去,得到差異圖——即擾動(dòng)后的圖片和原圖之間的差異圖。再將我們的差異圖和敏感性示意圖進(jìn)行比較,可以看到噪音添加的位置和敏感性示意圖非常接近,這么做就是為了確保噪音不易被察覺(jué)。我們也讓亞馬遜人端運(yùn)算平臺(tái)上的工人查看我們的圖片,他們基本上看不出哪些圖片有噪音。所以,這個(gè)方法是可行的。

總結(jié)一下,我們對(duì)人類(lèi)視覺(jué)感知做了全面的研究,然后提出敏感性示意圖這個(gè)新概念。我們使用對(duì)抗機(jī)器學(xué)習(xí)來(lái)開(kāi)發(fā)一個(gè)敏感性感知圖像擾動(dòng)模型,以針對(duì)機(jī)器保護(hù)隱私。這里是代碼和數(shù)據(jù)的二維碼,我們提供了數(shù)據(jù)集,模型和代碼等等,如果感興趣的話(huà),大家可以下載查看。

我們這算是解決了針對(duì)機(jī)器如何保護(hù)隱私的難題嗎?我的回答是“沒(méi)有”。

我們的模型只是這種方法的第一個(gè)嘗試。我們的最大局限性在于我們的方式以模型為主。還記得我們使用的多類(lèi)分類(lèi)器嗎?在欺騙機(jī)器之前,我們首先需要知道該機(jī)器使用的分類(lèi)器。尚待解決的研究問(wèn)題是如何生成與模型無(wú)關(guān)的擾動(dòng)。它可以是其他的一些深度學(xué)習(xí)模型,或者支持向量機(jī)或者決策樹(shù),或者任何類(lèi)型的分類(lèi)器。我們是否可以開(kāi)發(fā)出一個(gè)通用的圖像擾動(dòng)技術(shù),可以用于欺騙所有類(lèi)型的分類(lèi)器,哪怕我們并不知道對(duì)方具體使用的是哪一種分類(lèi)器?這是一個(gè)非常有趣同時(shí)又極具挑戰(zhàn)的問(wèn)題,我們會(huì)繼續(xù)往這方面努力。

其次,目前我們的方法僅適用于圖像。那么我們?nèi)绾尾拍苡行У蒯槍?duì)文本數(shù)據(jù)、視頻數(shù)據(jù)、音頻數(shù)據(jù)以及一般的多媒體數(shù)據(jù),生成擾動(dòng)噪音呢?這也是我們繼續(xù)要深入的領(lǐng)域。

事實(shí)上,我們還有很多十分重要的問(wèn)題待解決。其中之一就是,在這些圖片中,哪些算是敏感的隱私內(nèi)容呢?傳統(tǒng)思維會(huì)認(rèn)為,指紋是隱私;時(shí)間日期、人、臉、車(chē)牌等是隱私,我們也可以遮擋這些,這些都是針對(duì)人的隱私保護(hù)。但現(xiàn)在,我們?cè)賮?lái)看下面的照片。圖中有一輛車(chē)和兩個(gè)人站在車(chē)邊。我不知道這兩個(gè)人是誰(shuí),但是為了保護(hù)隱私,很多人會(huì)像這樣給人物打上馬賽克(如中間圖片所示)。但其實(shí)這并沒(méi)什么用。為什么?因?yàn)槿绻抑肋@輛車(chē)的車(chē)主是誰(shuí),那我就可以推斷出旁邊的兩個(gè)人是誰(shuí)。

所以,問(wèn)題是如何才能刪除可能泄露圖像隱私的內(nèi)容?不僅是因?yàn)閳D中出現(xiàn)了你的臉或你在圖中,別人就可以認(rèn)出你。圖里出現(xiàn)你的一些東西或關(guān)于你特征的信息也會(huì)泄露你的隱私。這又是一個(gè)有趣的尚待解決的問(wèn)題。

另一個(gè)問(wèn)題是對(duì)象共現(xiàn)隱私。我們來(lái)看這張圖片。我們可以從中看到什么?我們可以說(shuō),從中看到一個(gè)女孩。但假如我們可以看到整張圖片呢?那我們又可以從圖中推斷出什么信息呢?

讓我們來(lái)看看完整的圖片。

這時(shí),你再看到這張圖片時(shí),你會(huì)推測(cè),這個(gè)女孩正在跟一名醫(yī)生交流,意味著女孩可能得了某種疾病,而這又是隱私。所以,單個(gè)的對(duì)象可能不會(huì)泄露隱私,但共現(xiàn)對(duì)象(和其他對(duì)象一起出現(xiàn)時(shí))可能會(huì)泄露隱私。在這種情況下,怎么保護(hù)隱私又是一個(gè)值得探究的問(wèn)題。

還有一個(gè)問(wèn)題是歷史數(shù)據(jù)隱私。我們來(lái)看左邊的兩張圖。上圖顯示,有人發(fā)了一串文本信息,提到了湯姆(“我要和湯姆一起喝一杯!),接著,這個(gè)人又發(fā)布了一張圖片,配文我和朋友一起喝酒了。那么在這里,你可以把“我要和湯姆一起喝一杯!备菑?zhí)岬胶团笥岩黄鸷染频膱D片聯(lián)系在一起。這類(lèi)數(shù)據(jù)在社交媒體上不是獨(dú)立的。你可以從歷史數(shù)據(jù)中推斷出某些隱私。那么,我們?nèi)绾卧谏缃幻襟w上就歷史數(shù)據(jù)保護(hù)隱私呢?這也是一個(gè)需要解決的問(wèn)題。

一般而言,在數(shù)字化的今天,集中式數(shù)據(jù)庫(kù)中有大量的敏感信息。在某個(gè)集中的地方,可能會(huì)存在大量的隱私泄露問(wèn)題。所以,眼下,很多研究人員都提出一個(gè)問(wèn)題:如果我是某個(gè)電商系統(tǒng)的用戶(hù),我的搜索記錄和購(gòu)買(mǎi)行為不應(yīng)該存儲(chǔ)在電商網(wǎng)站上,而只應(yīng)該存儲(chǔ)在我自己的設(shè)備上,本地設(shè)備上。那么問(wèn)題是,我們可以從中學(xué)習(xí)嗎?因?yàn)楹芏嗖煌南M(fèi)者在網(wǎng)站上進(jìn)行搜索。對(duì)于電商公司而言,我需要所有消費(fèi)者的匯總數(shù)據(jù)。但我不需要知道某個(gè)特定用戶(hù)的數(shù)據(jù),所以,問(wèn)題的關(guān)鍵在于,如果敏感信息保存在用戶(hù)的本地設(shè)備上之后,我們能否繼續(xù)有效地執(zhí)行機(jī)器學(xué)習(xí)任務(wù),比如推薦和預(yù)測(cè)等等?在不侵犯用戶(hù)數(shù)據(jù)隱私的前提下,真正獲得我們想要的見(jiàn)解?如果可以的話(huà),那當(dāng)然再好不過(guò)。

現(xiàn)在越來(lái)越多的工作通過(guò)聯(lián)邦機(jī)器學(xué)習(xí)和聯(lián)邦推薦系統(tǒng)完成。我也相信,隨著時(shí)間的推移,這也會(huì)變得越來(lái)越重要。我相信,數(shù)字時(shí)代下的隱私保護(hù)即隱私保護(hù)數(shù)據(jù)分析。怎么理解呢?我們還是用健康數(shù)據(jù)為例。如果我的健康數(shù)據(jù)對(duì)改善治療、藥物和療程有幫助的話(huà),我不介意和研究人員分享我的健康數(shù)據(jù)。但是另一方面,我分享的健康數(shù)據(jù)不用被用來(lái)針對(duì)我本人,保險(xiǎn)公司不能因?yàn)槲覟檠芯磕康姆窒淼慕】禂?shù)據(jù)而提高我的保費(fèi)。所以我們是否可以用這樣的方式做隱私保護(hù)數(shù)據(jù)分析呢?以便讓人工智能和機(jī)器學(xué)習(xí)更好地發(fā)揮它們的優(yōu)勢(shì)?當(dāng)然,隱私問(wèn)題也需要給予重視。這些會(huì)隨著時(shí)間的推移,變得越來(lái)越重要。

接下來(lái)我們來(lái)到今天演講的尾聲。我相信,隱私問(wèn)題對(duì)用戶(hù)極其重要,用戶(hù)們也越來(lái)越重視他們的隱私數(shù)據(jù)和敏感數(shù)據(jù)。我相信,這不僅關(guān)于用戶(hù),也關(guān)乎企業(yè)和行業(yè)。如果企業(yè)和行業(yè)重視用戶(hù)的隱私問(wèn)題的話(huà),他們其實(shí)也可以從中受益。比方說(shuō),假設(shè)很多公司都在嘗試獲得消費(fèi)者,他們都在銷(xiāo)售一款相同的產(chǎn)品,那么唯一讓你的產(chǎn)品或服務(wù)與眾不同的是,告訴消費(fèi)者我的產(chǎn)品或服務(wù)重視隱私。我相信,如果其他各方面都一樣,但你的產(chǎn)品或服務(wù)更加重視隱私的話(huà),消費(fèi)者一定會(huì)選擇你的產(chǎn)品或服務(wù)。因此,我認(rèn)為,從行業(yè)和企業(yè)的角度而言,重視隱私,會(huì)帶來(lái)長(zhǎng)遠(yuǎn)收益。

最后,我想告訴大家,不論是研究人員,企業(yè)還是消費(fèi)者,不論是用戶(hù)還是公民,我們都需要重視隱私保護(hù),不僅是傳統(tǒng)的針對(duì)人的隱私保護(hù),也有針對(duì)機(jī)器的隱私保護(hù)。

編 輯:孫秀杰
聲明:刊載本文目的在于傳播更多行業(yè)信息,本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。如網(wǎng)站內(nèi)容涉及作品版權(quán)和其它問(wèn)題,請(qǐng)?jiān)?0日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除內(nèi)容。本站聯(lián)系電話(huà)為86-010-87765777,郵件后綴為#cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
工信部張?jiān)泼鳎捍蟛糠謬?guó)家新劃分了中頻段6G頻譜資源
精彩專(zhuān)題
專(zhuān)題丨“汛”速出動(dòng) 共筑信息保障堤壩
2023MWC上海世界移動(dòng)通信大會(huì)
中國(guó)5G商用四周年
2023年中國(guó)國(guó)際信息通信展覽會(huì)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱(chēng): 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像