應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

被遺忘權(quán)的崩塌:當(dāng)AI可以通過(guò)你的朋友了解你

2019-01-29 14:19 億歐

導(dǎo)讀:人之于信息,很多時(shí)候不僅是興趣選擇,還有社交選擇。長(zhǎng)期浸淫在某一圈層的人,不僅失去了接受其他圈層信息的機(jī)會(huì),也失去了接受其他圈層信息的能力。更可怕的是通過(guò)互關(guān)好友摸清用戶(hù)喜好這種技術(shù),終于讓我們失去了個(gè)人隱私的最后領(lǐng)地。

在智能推薦無(wú)處不在的今天,相信我們每個(gè)人都或多或少患上了隱私焦慮癥。平時(shí)和朋友說(shuō)話聊天都疑神疑鬼覺(jué)得手機(jī)在偷聽(tīng),很多人也因此越來(lái)越不喜歡在社交媒體上發(fā)布信息了。

不說(shuō)、不轉(zhuǎn)、不點(diǎn)贊,看起來(lái)似乎是非常合理的“隱私三連”——如果我不留下任何數(shù)據(jù)痕跡,機(jī)器學(xué)習(xí)自然也沒(méi)辦法對(duì)我的喜好進(jìn)行分析了。

可事實(shí)真的如此嗎?

精準(zhǔn)預(yù)測(cè)你的社交媒體行為,只需要9位互關(guān)好友

最近在《自然》雜志中,來(lái)自佛蒙特大學(xué)的數(shù)據(jù)科學(xué)家們公布了這樣一項(xiàng)研究,在推特上無(wú)需查看個(gè)人用戶(hù)數(shù)據(jù),而是通過(guò)對(duì)個(gè)人用戶(hù)互相關(guān)注好友的推文數(shù)據(jù)分析,就能實(shí)現(xiàn)對(duì)個(gè)人用戶(hù)社交媒體行為的精準(zhǔn)預(yù)測(cè)。

換句話說(shuō),就算你刪號(hào)退網(wǎng),機(jī)器學(xué)習(xí)仍然可以通過(guò)你的好友列表來(lái)分析出你的用戶(hù)畫(huà)像。

在研究中,研究人員收集了一萬(wàn)三千余個(gè)推特賬號(hào),這些用戶(hù)分別都擁有150-200個(gè)好友。在好友中找到互動(dòng)率最高的前9位并進(jìn)行分組,將用戶(hù)好友組中好友的行為數(shù)據(jù)以時(shí)間為線索進(jìn)行分析。

數(shù)據(jù)科學(xué)家們通過(guò)研究得出,一般社交媒體用戶(hù),只要不是專(zhuān)注某一領(lǐng)域的KOL,通常在社交媒體上使用的詞匯不超過(guò)5000個(gè)。如果用中文來(lái)比喻,大概就是“哈哈哈哈”“不轉(zhuǎn)不是中國(guó)人”“我家哥哥太帥了吧”這些常規(guī)詞匯。

而通過(guò)對(duì)用戶(hù)好友的常用詞分析,基本可以圈定該用戶(hù)的興趣范圍。研究者提到,很多專(zhuān)注于某一領(lǐng)域的用戶(hù)(比如政治),其實(shí)在社交媒體用詞量上只有幾百個(gè)單詞。在興趣范圍內(nèi)的詞匯量中引入代表個(gè)人行為變化的熵率,再與建立在時(shí)間序列上的文本生成算法相結(jié)合,就能夠?qū)崿F(xiàn)通過(guò)社交關(guān)系來(lái)預(yù)測(cè)個(gè)人社交媒體行為。

而當(dāng)好友組中的好友數(shù)量越多時(shí),這種預(yù)測(cè)也越準(zhǔn)確。但值得注意的是,一旦好友數(shù)量超過(guò)150人,預(yù)測(cè)的準(zhǔn)確率反而會(huì)下降——因?yàn)楹糜褦?shù)量過(guò)多時(shí)往往雙方的關(guān)聯(lián)度降低,脫離了一個(gè)本來(lái)的興趣圈子,在行為上也很難形成映射關(guān)系。

也就是說(shuō),如果你微博好友都是戰(zhàn)狼團(tuán),那么你也會(huì)和大家一起“雖遠(yuǎn)必誅”,如果你的微博是追星陣地,那么你也會(huì)深夜和姐妹們一起為idol打榜。一個(gè)人的網(wǎng)友圈子,決定了他的認(rèn)知范圍,也進(jìn)而使得其行為可以被預(yù)測(cè)。

看來(lái),人類(lèi)的本質(zhì)是復(fù)讀機(jī)無(wú)誤了。

圈層豎立起高墻,隱私在內(nèi)部塌陷

這一研究雖然展示了自然語(yǔ)言處理能力的進(jìn)步,卻也證實(shí)了兩個(gè)我們擔(dān)憂已久的問(wèn)題。

首先,通過(guò)推特好友的言行對(duì)于用戶(hù)的言行進(jìn)行精準(zhǔn)推測(cè),無(wú)疑是為信息繭房理論投了一張成立票。

自從桑斯坦的信息繭房假設(shè)被傳播開(kāi)以來(lái),關(guān)于這一假設(shè)的認(rèn)可程度其實(shí)長(zhǎng)期處于不穩(wěn)定的狀態(tài)之下。尤其是近些年來(lái)社交媒體和個(gè)性化信息流的火熱,更讓很多人常常把信息繭房四字掛在嘴邊。支持者認(rèn)為算法推薦會(huì)源源不斷的把符合用戶(hù)興趣的信息推薦給用戶(hù),最終導(dǎo)致用戶(hù)認(rèn)知閉塞,缺乏對(duì)世界的完整化理解。

其反對(duì)者認(rèn)為,人天生就會(huì)對(duì)所接受的信息表現(xiàn)出興趣趨向,即使是報(bào)紙和書(shū)本時(shí)代,人們也會(huì)選擇自己感興趣的內(nèi)容來(lái)閱讀。而這種選擇并不會(huì)形成所謂“信息傳播阻礙”“對(duì)外部世界的認(rèn)知疏離”,所謂的繭房假說(shuō)也不能成立了。

可佛蒙特大學(xué)在這次研究中提出了觀點(diǎn)——人之于信息,很多時(shí)候不僅是興趣選擇,還存有社交選擇。社交媒體上朋友的興趣、語(yǔ)言風(fēng)格、活躍時(shí)間與個(gè)人用戶(hù)社交媒體行為存在的強(qiáng)關(guān)聯(lián),意味著一個(gè)人信息繭房是通過(guò)社交圈層搭建起來(lái)的,而這種繭房已經(jīng)直接作用在用戶(hù)的表達(dá)能力上,例如在研究中出現(xiàn)的一個(gè)有趣現(xiàn)象,越是對(duì)政治話題感興趣的用戶(hù),在社交媒體上發(fā)言的詞匯量越匱乏。某種程度上,這證明了信息繭房下的傳播圈層障礙越來(lái)越明顯,長(zhǎng)期浸淫在某一圈層的人,不僅僅失去了接受其他圈層信息的機(jī)會(huì),也失去了接受其他圈層信息的能力。

更可怕的是,通過(guò)互關(guān)好友摸清用戶(hù)喜好這種技術(shù),終于讓我們失去了個(gè)人隱私的最后一片領(lǐng)地。

奧地利法學(xué)家舍恩伯格曾經(jīng)出版過(guò)一本名為《刪除:忘記是在數(shù)字時(shí)代的美德》的書(shū),講述的是個(gè)人信息在互聯(lián)網(wǎng)上的被遺忘權(quán),那些關(guān)于個(gè)人用戶(hù)的信息,個(gè)人用戶(hù)應(yīng)有權(quán)要求網(wǎng)站和平臺(tái)從服務(wù)器端徹底刪除或者限制訪問(wèn)。

一開(kāi)始人們對(duì)被遺忘權(quán)的要求還只停留在強(qiáng)制拍賣(mài)、失信名單這一類(lèi)個(gè)人負(fù)面信息上,但很快相關(guān)需求開(kāi)始變得越來(lái)越廣泛。例如2013年左右曾經(jīng)很流行一種工具,可以根據(jù)用戶(hù)主頁(yè)鏈接找到那些曾經(jīng)被用戶(hù)刪除微博、豆瓣等信息,當(dāng)時(shí)被很多人用來(lái)進(jìn)行人肉搜索,以至于再次激起了人們對(duì)于被遺忘權(quán)的強(qiáng)烈需求。

到今天被遺忘權(quán)已經(jīng)被寫(xiě)進(jìn)歐盟的GDPR,注銷(xiāo)賬號(hào)、刪除一切已經(jīng)成了我們捍衛(wèi)網(wǎng)絡(luò)隱私的最后一條防線。可“好友算法”的出現(xiàn)意味著,只要對(duì)方能找到你的好友關(guān)系,即使你刪去了一切內(nèi)容,依然可以會(huì)將自己赤裸的展示在算法面前。

這也讓Facebook這樣靠探知用戶(hù)信息盈利的企業(yè)可以在倫理上鉆空子——假如一位用戶(hù)堅(jiān)持不給社交媒體授權(quán)數(shù)據(jù)權(quán)限,但他的社交媒體好友都向社交媒體開(kāi)放了權(quán)限,社交媒體平臺(tái)很可能會(huì)“合理合法地”繞過(guò)用戶(hù)本身獲取用戶(hù)信息。

自我的副本

世界上第一個(gè)發(fā)現(xiàn)天然放射性現(xiàn)象的物理學(xué)家,來(lái)自法國(guó)貝克勒爾在被放射性物質(zhì)奪走生命時(shí),恐怕也從為想到過(guò)這項(xiàng)讓自己奉獻(xiàn)了一生的技術(shù),未來(lái)會(huì)演變成奪走了無(wú)數(shù)人生命的核彈。

世事總是如此,那個(gè)無(wú)意中打開(kāi)潘多拉魔盒的人,往往看不到被魔盒改變過(guò)的世界的模樣。

這種社交媒體預(yù)測(cè)算法也是一樣,在同樣的邏輯下我們幾乎可以想象到:是否通過(guò)對(duì)一個(gè)主婦購(gòu)物數(shù)據(jù)的分析,也能獲知她丈夫刮胡子的頻率?是否在職場(chǎng)社交軟件上簡(jiǎn)單分析,就能獲知一個(gè)人的工作能力和薪資水平?

在數(shù)字化生存和AI的共同作用下,“自我”的所有權(quán)已經(jīng)形成副本并被無(wú)限分割,散落在那些一切與我們產(chǎn)生關(guān)聯(lián)的地方——我們的朋友的喜好、我們家人的行為、我們愛(ài)人的一舉一動(dòng)……以至于從這些關(guān)聯(lián)之中,也能挖掘出得碎片,還原出我們的自我。

面對(duì)這種可能,我們很難現(xiàn)在就為其下一個(gè)“好或壞”的定論。但這一次,讓法律法規(guī)走在技術(shù)前面,或許是個(gè)不錯(cuò)的選擇。