share_log

大数据杀熟背后,是我们裸奔的隐私

大數據殺熟背後,是我們裸奔的隱私

格隆汇 ·  2019/03/18 21:31

最近發生了一件令人氣憤的事情。

我一般出差都是選擇一個固定品牌的酒店,稱之為A酒店吧,因為感覺價格合適,質量又比較穩定。久而久之,每到一個地方,我都會通過手機中某個APP選擇附近的A酒店,因為每次在APP中顯示的價格波動不大,便沒有多留意。

但是上次通過手機訂好房間後,到了酒店大堂,發現這裏有顯示實時房間價格的電子顯示屏,不知道你們有沒有注意到,很多酒店都並沒有這種裝置。看到電子屏相同的標準間比我訂的價格便宜很多,我好奇是不是由於下單的時間原因,但在反覆對比後,我發現並不是,我用app訂的價格就是貴了一些,而前臺客服的手機APP裏顯示的價格就明顯低了很多。

我問了我身邊的朋友們,發現針對老用户收更高價格的現象並不少見——上班族們往返打車的路段往往會比不常在此路段打車的人收費更高;反覆搜索某個型號商品後會發現商品的價格在逐漸上漲,選擇越來越少;甚至於部分購物網站會蒐集不經常給評論或者很少給出差評的數據,進而商家可以利用這些數據向他們發出質量較次的產品。

如今有一個名詞來描述這種現象——大數據殺熟。

殺熟的背後,信息泄露日益普遍

而大數據殺熟背後,反映的不過是日益嚴重的個人信息泄漏現實的冰山一角。

通過收集與分析消費者社會屬性、生活習慣、消費行為等主要信息的數據之後,完美地抽象出一個用户的商業全貌,稱之為用户畫像。用户畫像為企業提供了足夠的信息基礎,能夠幫助企業快速找到精準用户羣體以及用户需求等更為廣泛的反饋信息。

在知乎“信息泄露可以有多恐怖?”話題下面有5000多條回答和6000多萬的瀏覽量。

wm

如果你曾經使用過支付寶或者微信的消費貸,那麼你大概率會隔三差五地接到各種小額貸款的短信或者電話;如果最近曾將開過股票賬户的話,你估計最近會收到很多配資的短信;連你自己都忘記何時註冊了一個在線學習英語的賬户,但是你仍然會頻繁地受到各種推銷電話的騷擾。

到底是誰泄露了我們的信息

我用一個陌陌軟件的安裝過程來舉例APP會獲取我們什麼信息以及怎樣獲取信息。

在應用市場搜索陌陌後,在應用詳情介紹下的應用權限項裏,可以看到系統顯示該應用獲取了14個敏感隱私權限。

wm

當然有人會説你可以在安裝過程中不接受啊。在我實際安裝過程中,首先彈出來的頁面就是下面這個,沒有不接受選項。在選擇一鍵開啟之後,會一一顯示是否接受這三個選項的界面,如果不接受的話就不能啟動陌陌。所以這三個是必須接受的,當然作為一款社交軟件,這個是可以接受的。

wm

接下來進入手機登錄頁面,當然你也可以選擇微信或者qq登錄,當時你仍然要綁定手機號。這裏最關鍵的就是最下面這一行不起眼的小字:註冊即表示同意《陌陌用户協議》和《默默隱私權政策》。

wm

分別點開之後,《陌陌用户協議》共計10791個字,《陌陌隱私政策》共計8674字。我分別在其中截取了一些內容:

wm

最後陌陌還保留了最終解釋權。

wm

陌陌在該處詳細列舉了用户信息的收集和使用:

wm

如:

wm

除了以上這些較為容易理解的條款之外,協議中還有大量很多普通人難以理解的條款。一般人註冊這些賬號時,很少會關注這些隱私協議,基本都是秒按同意安裝。在這個過程中,你也就是默認了商家對你的諸多信息進行採集和利用。

目前絕大多數APP都有這種隱含的協議,搜索軟件、購物軟件、社交軟件、地圖軟件、聽歌軟件,我們在接受算法帶來的更好的使用體驗時,放棄的是我們部分的隱私權作為代價。有些放棄也許是我們願意的,有些放棄是被迫的,或者是不知不覺的。

除了這種通過單個APP內數據的採集信息的方式,還有一種是基於設備的採集方式。一些第三方數據服務公司通過各種開發者服務的SDK嵌入在各類APP中,通過各種各樣的APP獲取海量的和提供服務息息相關的匿名設備行為數據。

對比之下,其他APP收集到的用户信息僅僅是該領域內的信息,例如汽車類APP往往收集到的僅僅是用户與“汽車”相關的信息,美粧類APP往往收集到的僅僅是用户與“化粧品”相關的信息,在APP所針對的領域之外,用户的其他信息都是模糊的。

但是這種基於設備的採集方式,通過一定的人工智能,機器學習,算法加工等,就能大概勾畫出這個手機設備持有者的一些特徵和行為標籤,並建立立體的、精準的用户畫像。例如手機中裝了一堆美粧APP、大姨媽監測軟件、鏈家和安居客等軟件,且經常打開海淘軟件的用户,大概率是一個打算買房的消費水平較高的女性,用户畫像十分立體。

wm

如何形成用户畫像

以上所説的仍然只是信息的採集,就好比是原材料,通過海量數據提取出真金白銀,最後形成具有商業價值的特徵數據,這需要考驗數據公司的大數據處理和分析技術,而不同的技術能夠產生的數據精度存在很大的差距。

用户畫像構建流程主要包括三部分:基礎數據收集、行為建模和構建畫像。其中數據處理的差異就體現在行為建模這一環中。

在行為建模這一過程中,需要抽象出能夠代表實物的一些典型特徵,對於人類來説,比如身高、體重、膚色、眼睛大小等等。然後通過機器學習的方法,構建一個類似於Y=kX+b的算法,其中X代表已知信息,Y代表用户畫像,通過不斷的精確k和b來精確Y。

wm

我們通過網易雲音樂來介紹建模過程。相信很多人都知道網易雲音樂會根據你之前的聽歌習慣來給你推薦新的歌曲,在這背後,也是由算法來支持的,而且這種算法也在持續的改進,最終推薦的歌曲也會越來越滿足特定用户的口味。

這裏嘗試介紹一種簡單的算法,其核心是數學中的“多維空間中兩個向量夾角的餘弦公式”。此處引用了知乎“網易雲音樂的歌單推薦算法是怎樣的?”下邰原朗的回答:

以三首歌來舉例子,《最炫民族風》,《晴天》,《Hero》。

A,收藏了《最炫民族風》,而遇到《晴天》,《Hero》則總是跳過;

B,經常單曲循環《最炫民族風》,《晴天》會播放完,《Hero》則拉黑了

C,拉黑了《最炫民族風》,而《晴天》《Hero》都收藏了。

這裏可以看出,A,B二位品味接近,C和他們很不一樣。那麼問題來了,説A,B相似,到底有多相似,如何量化?

我們把三首歌想象成三維空間的三個維度,《最炫民族風》是x軸,《晴天》是y軸,《Hero》是z軸,對每首歌的喜歡程度即該維度上的座標,並且對喜歡程度做量化(比如: 單曲循環=5, 分享=4, 收藏=3, 主動播放=2 , 聽完=1, 跳過=-1 , 拉黑=-5 )。

那麼每個人的總體口味就是一個向量,A君是 (3,-1,-1),B君是(5,1,-5),C君是(-5,3,3)。我們可以用向量夾角的餘弦值來表示兩個向量的相似程度, 0度角(表示兩人完全一致)的餘弦是1, 180度角(表示兩人截然相反)的餘弦是-1。

根據餘弦公式, 夾角餘弦 = 向量點積/ (向量長度的叉積) = ( x1x2 + y1y2 + z1z2) / ( 跟號(x1平方+y1平方+z1平方 ) x 跟號(x2平方+y2平方+z2平方 ) )。 A君B君夾角的餘弦是0.81 , A君C君夾角的餘弦是 -0.97。

以上是三首歌的情況,對於多首歌也可以進行如法炮製,建立N維N首歌的座標系。以上的思想核心就是,一個和你聽歌習慣特別相似的人,那麼他喜歡聽的其他歌也大概率是你喜歡聽的歌。這是建立在以人為本的基礎上

還有一種思想是建立在以物為本的基礎上,簡單説,就是買了X物品的人,一般都會買Y。比如網易雲音樂新來了一個用户D,只知道她喜歡最炫民族風,那麼問題來了,給她推薦啥好呢?

如下圖,數字代表對某首歌的好感度。通過將A/B/C三人對最炫民族風和其他兩首歌的好感度之差求平均,得出一般人對這些歌好感度差值的平均值。最後求出D對於另外兩首歌的好感度。

wm

現實中,由於數量量更大,算法也更加複雜,所以最後得出的預測值精度也會更好。同樣的,也有海量的模型用於預測其他類型的用户特徵。

我們能保護我們的隱私嗎?

在瀏覽器中搜索“如何保護隱私”,我們可以得到大量保護隱私的技巧,比如説不在公共區域登錄wifi,及時清除上網數據,在安裝手機APP時注意有沒有不合理的隱私獲取請求、遠離那些測試自己的心理年齡愛情運勢的小網站等等。

然而網絡的發達和各種手機應用的興起本質是服務我們的生活,如今我們為了保護隱私反而不得不小心謹慎,這必然是捨本逐末的。再者,就算你小心謹慎,你採取的這些防護措施在多大程度上真的可以保護你的隱私?

前段時間的一篇爆款文章《為什麼我的兒子不沉迷遊戲?》,講的是一個資深遊戲策劃現身説法如何讓孩子不沉迷遊戲。在文中,作者提到商業化的網絡遊戲,都是為讓玩家沉迷所設計的。每一個爆款遊戲背後都是成百上千的經驗豐富的工程師、遊戲策劃甚至心理學家,在反覆揣摩怎樣將遊戲設計的讓人上癮,遊戲產品也在持續反覆迭代。

勢單力薄的個人該如何與這種精心設計的誘惑向對抗?同樣的,數據公司也會絞盡腦汁地採用新的技術來採集你的數據,你們兩者根本就不在同一個維度。

26年前《紐約客》封面的漫畫上,洋洋得意地宣揚“在互聯網上,沒人知道你是一條狗”。

wm

然而26年的今天,利用大數據,你是黑是白、住在什麼地方、吃什麼牌子的狗糧、喜歡在哪裏散步這些都是可以獲取的。

在龐大的數據面前,人類越來越像一個提供輸入的變量角色。你使用的APP,正在試圖瞭解和定義你。

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論