大數據殺熟背後，是我們裸奔的隱私

格隆汇 · 2019/03/18 21:31

最近发生了一件令人气愤的事情。

我一般出差都是选择一个固定品牌的酒店，称之为A酒店吧，因为感觉价格合适，质量又比较稳定。久而久之，每到一个地方，我都会通过手机中某个APP选择附近的A酒店，因为每次在APP中显示的价格波动不大，便没有多留意。

但是上次通过手机订好房间后，到了酒店大堂，发现这里有显示实时房间价格的电子显示屏，不知道你们有没有注意到，很多酒店都并没有这种装置。看到电子屏相同的标准间比我订的价格便宜很多，我好奇是不是由于下单的时间原因，但在反复对比后，我发现并不是，我用app订的价格就是贵了一些，而前台客服的手机APP里显示的价格就明显低了很多。

我问了我身边的朋友们，发现针对老用户收更高价格的现象并不少见——上班族们往返打车的路段往往会比不常在此路段打车的人收费更高；反复搜索某个型号商品后会发现商品的价格在逐渐上涨，选择越来越少；甚至于部分购物网站会搜集不经常给评论或者很少给出差评的数据，进而商家可以利用这些数据向他们发出质量较次的产品。

如今有一个名词来描述这种现象——大数据杀熟。

杀熟的背后，信息泄露日益普遍

而大数据杀熟背后，反映的不过是日益严重的个人信息泄漏现实的冰山一角。

通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后，完美地抽象出一个用户的商业全貌，称之为用户画像。用户画像为企业提供了足够的信息基础，能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。

在知乎“信息泄露可以有多恐怖？”话题下面有5000多条回答和6000多万的浏览量。

如果你曾经使用过支付宝或者微信的消费贷，那么你大概率会隔三差五地接到各种小额贷款的短信或者电话；如果最近曾将开过股票账户的话，你估计最近会收到很多配资的短信；连你自己都忘记何时注册了一个在线学习英语的账户，但是你仍然会频繁地受到各种推销电话的骚扰。

到底是谁泄露了我们的信息

我用一个陌陌软件的安装过程来举例APP会获取我们什么信息以及怎样获取信息。

在应用市场搜索陌陌后，在应用详情介绍下的应用权限项里，可以看到系统显示该应用获取了14个敏感隐私权限。

当然有人会说你可以在安装过程中不接受啊。在我实际安装过程中，首先弹出来的页面就是下面这个，没有不接受选项。在选择一键开启之后，会一一显示是否接受这三个选项的界面，如果不接受的话就不能启动陌陌。所以这三个是必须接受的，当然作为一款社交软件，这个是可以接受的。

接下来进入手机登录页面，当然你也可以选择微信或者qq登录，当时你仍然要绑定手机号。这里最关键的就是最下面这一行不起眼的小字：注册即表示同意《陌陌用户协议》和《默默隐私权政策》。

分别点开之后，《陌陌用户协议》共计10791个字，《陌陌隐私政策》共计8674字。我分别在其中截取了一些内容：

最后陌陌还保留了最终解释权。

陌陌在该处详细列举了用户信息的收集和使用：

如：

除了以上这些较为容易理解的条款之外，协议中还有大量很多普通人难以理解的条款。一般人注册这些账号时，很少会关注这些隐私协议，基本都是秒按同意安装。在这个过程中，你也就是默认了商家对你的诸多信息进行采集和利用。

目前绝大多数APP都有这种隐含的协议，搜索软件、购物软件、社交软件、地图软件、听歌软件，我们在接受算法带来的更好的使用体验时，放弃的是我们部分的隐私权作为代价。有些放弃也许是我们愿意的，有些放弃是被迫的，或者是不知不觉的。

除了这种通过单个APP内数据的采集信息的方式，还有一种是基于设备的采集方式。一些第三方数据服务公司通过各种开发者服务的SDK嵌入在各类APP中，通过各种各样的APP获取海量的和提供服务息息相关的匿名设备行为数据。

对比之下，其他APP收集到的用户信息仅仅是该领域内的信息，例如汽车类APP往往收集到的仅仅是用户与“汽车”相关的信息，美妆类APP往往收集到的仅仅是用户与“化妆品”相关的信息，在APP所针对的领域之外，用户的其他信息都是模糊的。

但是这种基于设备的采集方式，通过一定的人工智能，机器学习，算法加工等，就能大概勾画出这个手机设备持有者的一些特征和行为标签，并建立立体的、精准的用户画像。例如手机中装了一堆美妆APP、大姨妈监测软件、链家和安居客等软件，且经常打开海淘软件的用户，大概率是一个打算买房的消费水平较高的女性，用户画像十分立体。

如何形成用户画像

以上所说的仍然只是信息的采集，就好比是原材料，通过海量数据提取出真金白银，最后形成具有商业价值的特征数据，这需要考验数据公司的大数据处理和分析技术，而不同的技术能够产生的数据精度存在很大的差距。

用户画像构建流程主要包括三部分：基础数据收集、行为建模和构建画像。其中数据处理的差异就体现在行为建模这一环中。

在行为建模这一过程中，需要抽象出能够代表实物的一些典型特征，对于人类来说，比如身高、体重、肤色、眼睛大小等等。然后通过机器学习的方法，构建一个类似于Y=kX+b的算法，其中X代表已知信息，Y代表用户画像，通过不断的精确k和b来精确Y。

我们通过网易云音乐来介绍建模过程。相信很多人都知道网易云音乐会根据你之前的听歌习惯来给你推荐新的歌曲，在这背后，也是由算法来支持的，而且这种算法也在持续的改进，最终推荐的歌曲也会越来越满足特定用户的口味。

这里尝试介绍一种简单的算法，其核心是数学中的“多维空间中两个向量夹角的余弦公式”。此处引用了知乎“网易云音乐的歌单推荐算法是怎样的？”下邰原朗的回答：

以三首歌来举例子，《最炫民族风》，《晴天》，《Hero》。

A，收藏了《最炫民族风》，而遇到《晴天》，《Hero》则总是跳过；

B，经常单曲循环《最炫民族风》，《晴天》会播放完，《Hero》则拉黑了

C，拉黑了《最炫民族风》，而《晴天》《Hero》都收藏了。

这里可以看出，A,B二位品味接近，C和他们很不一样。那么问题来了，说A，B相似，到底有多相似，如何量化？

我们把三首歌想象成三维空间的三个维度，《最炫民族风》是x轴，《晴天》是y轴，《Hero》是z轴，对每首歌的喜欢程度即该维度上的坐标，并且对喜欢程度做量化(比如：单曲循环=5, 分享=4, 收藏=3, 主动播放=2 , 听完=1, 跳过=-1 , 拉黑=-5 )。

那么每个人的总体口味就是一个向量，A君是 (3,-1,-1)，B君是(5,1,-5)，C君是(-5,3,3)。我们可以用向量夹角的余弦值来表示两个向量的相似程度， 0度角(表示两人完全一致)的余弦是1， 180度角(表示两人截然相反)的余弦是-1。

根据余弦公式, 夹角余弦 = 向量点积/ (向量长度的叉积) = ( x1x2 + y1y2 + z1z2) / ( 跟号(x1平方+y1平方+z1平方 ) x 跟号(x2平方+y2平方+z2平方 ) )。 A君B君夹角的余弦是0.81 ， A君C君夹角的余弦是 -0.97。

以上是三首歌的情况，对于多首歌也可以进行如法炮制，建立N维N首歌的坐标系。以上的思想核心就是，一个和你听歌习惯特别相似的人，那么他喜欢听的其他歌也大概率是你喜欢听的歌。这是建立在以人为本的基础上。

还有一种思想是建立在以物为本的基础上，简单说，就是买了X物品的人，一般都会买Y。比如网易云音乐新来了一个用户D，只知道她喜欢最炫民族风，那么问题来了，给她推荐啥好呢？

如下图，数字代表对某首歌的好感度。通过将A/B/C三人对最炫民族风和其他两首歌的好感度之差求平均，得出一般人对这些歌好感度差值的平均值。最后求出D对于另外两首歌的好感度。

现实中，由于数量量更大，算法也更加复杂，所以最后得出的预测值精度也会更好。同样的，也有海量的模型用于预测其他类型的用户特征。

我们能保护我们的隐私吗？

在浏览器中搜索“如何保护隐私”，我们可以得到大量保护隐私的技巧，比如说不在公共区域登录wifi，及时清除上网数据，在安装手机APP时注意有没有不合理的隐私获取请求、远离那些测试自己的心理年龄爱情运势的小网站等等。

然而网络的发达和各种手机应用的兴起本质是服务我们的生活，如今我们为了保护隐私反而不得不小心谨慎，这必然是舍本逐末的。再者，就算你小心谨慎，你采取的这些防护措施在多大程度上真的可以保护你的隐私？

前段时间的一篇爆款文章《为什么我的儿子不沉迷游戏？》，讲的是一个资深游戏策划现身说法如何让孩子不沉迷游戏。在文中，作者提到商业化的网络游戏，都是为让玩家沉迷所设计的。每一个爆款游戏背后都是成百上千的经验丰富的工程师、游戏策划甚至心理学家，在反复揣摩怎样将游戏设计的让人上瘾，游戏产品也在持续反复迭代。

势单力薄的个人该如何与这种精心设计的诱惑向对抗？同样的，数据公司也会绞尽脑汁地采用新的技术来采集你的数据，你们两者根本就不在同一个维度。

26年前《纽约客》封面的漫画上，洋洋得意地宣扬“在互联网上，没人知道你是一条狗”。

然而26年的今天，利用大数据，你是黑是白、住在什么地方、吃什么牌子的狗粮、喜欢在哪里散步这些都是可以获取的。

在庞大的数据面前，人类越来越像一个提供输入的变量角色。你使用的APP，正在试图了解和定义你。

最近發生了一件令人氣憤的事情。

我一般出差都是選擇一個固定品牌的酒店，稱之為A酒店吧，因為感覺價格合適，質量又比較穩定。久而久之，每到一個地方，我都會通過手機中某個APP選擇附近的A酒店，因為每次在APP中顯示的價格波動不大，便沒有多留意。

但是上次通過手機訂好房間後，到了酒店大堂，發現這裏有顯示實時房間價格的電子顯示屏，不知道你們有沒有注意到，很多酒店都並沒有這種裝置。看到電子屏相同的標準間比我訂的價格便宜很多，我好奇是不是由於下單的時間原因，但在反覆對比後，我發現並不是，我用app訂的價格就是貴了一些，而前臺客服的手機APP裏顯示的價格就明顯低了很多。

我問了我身邊的朋友們，發現針對老用户收更高價格的現象並不少見——上班族們往返打車的路段往往會比不常在此路段打車的人收費更高；反覆搜索某個型號商品後會發現商品的價格在逐漸上漲，選擇越來越少；甚至於部分購物網站會蒐集不經常給評論或者很少給出差評的數據，進而商家可以利用這些數據向他們發出質量較次的產品。

如今有一個名詞來描述這種現象——大數據殺熟。

殺熟的背後，信息泄露日益普遍

而大數據殺熟背後，反映的不過是日益嚴重的個人信息泄漏現實的冰山一角。

通過收集與分析消費者社會屬性、生活習慣、消費行為等主要信息的數據之後，完美地抽象出一個用户的商業全貌，稱之為用户畫像。用户畫像為企業提供了足夠的信息基礎，能夠幫助企業快速找到精準用户羣體以及用户需求等更為廣泛的反饋信息。

在知乎“信息泄露可以有多恐怖？”話題下面有5000多條回答和6000多萬的瀏覽量。

如果你曾經使用過支付寶或者微信的消費貸，那麼你大概率會隔三差五地接到各種小額貸款的短信或者電話；如果最近曾將開過股票賬户的話，你估計最近會收到很多配資的短信；連你自己都忘記何時註冊了一個在線學習英語的賬户，但是你仍然會頻繁地受到各種推銷電話的騷擾。

到底是誰泄露了我們的信息

我用一個陌陌軟件的安裝過程來舉例APP會獲取我們什麼信息以及怎樣獲取信息。

在應用市場搜索陌陌後，在應用詳情介紹下的應用權限項裏，可以看到系統顯示該應用獲取了14個敏感隱私權限。

當然有人會説你可以在安裝過程中不接受啊。在我實際安裝過程中，首先彈出來的頁面就是下面這個，沒有不接受選項。在選擇一鍵開啟之後，會一一顯示是否接受這三個選項的界面，如果不接受的話就不能啟動陌陌。所以這三個是必須接受的，當然作為一款社交軟件，這個是可以接受的。

接下來進入手機登錄頁面，當然你也可以選擇微信或者qq登錄，當時你仍然要綁定手機號。這裏最關鍵的就是最下面這一行不起眼的小字：註冊即表示同意《陌陌用户協議》和《默默隱私權政策》。

分別點開之後，《陌陌用户協議》共計10791個字，《陌陌隱私政策》共計8674字。我分別在其中截取了一些內容：

最後陌陌還保留了最終解釋權。

陌陌在該處詳細列舉了用户信息的收集和使用：

如：

除了以上這些較為容易理解的條款之外，協議中還有大量很多普通人難以理解的條款。一般人註冊這些賬號時，很少會關注這些隱私協議，基本都是秒按同意安裝。在這個過程中，你也就是默認了商家對你的諸多信息進行採集和利用。

目前絕大多數APP都有這種隱含的協議，搜索軟件、購物軟件、社交軟件、地圖軟件、聽歌軟件，我們在接受算法帶來的更好的使用體驗時，放棄的是我們部分的隱私權作為代價。有些放棄也許是我們願意的，有些放棄是被迫的，或者是不知不覺的。

除了這種通過單個APP內數據的採集信息的方式，還有一種是基於設備的採集方式。一些第三方數據服務公司通過各種開發者服務的SDK嵌入在各類APP中，通過各種各樣的APP獲取海量的和提供服務息息相關的匿名設備行為數據。

對比之下，其他APP收集到的用户信息僅僅是該領域內的信息，例如汽車類APP往往收集到的僅僅是用户與“汽車”相關的信息，美粧類APP往往收集到的僅僅是用户與“化粧品”相關的信息，在APP所針對的領域之外，用户的其他信息都是模糊的。

但是這種基於設備的採集方式，通過一定的人工智能，機器學習，算法加工等，就能大概勾畫出這個手機設備持有者的一些特徵和行為標籤，並建立立體的、精準的用户畫像。例如手機中裝了一堆美粧APP、大姨媽監測軟件、鏈家和安居客等軟件，且經常打開海淘軟件的用户，大概率是一個打算買房的消費水平較高的女性，用户畫像十分立體。

如何形成用户畫像

以上所説的仍然只是信息的採集，就好比是原材料，通過海量數據提取出真金白銀，最後形成具有商業價值的特徵數據，這需要考驗數據公司的大數據處理和分析技術，而不同的技術能夠產生的數據精度存在很大的差距。

用户畫像構建流程主要包括三部分：基礎數據收集、行為建模和構建畫像。其中數據處理的差異就體現在行為建模這一環中。

在行為建模這一過程中，需要抽象出能夠代表實物的一些典型特徵，對於人類來説，比如身高、體重、膚色、眼睛大小等等。然後通過機器學習的方法，構建一個類似於Y=kX+b的算法，其中X代表已知信息，Y代表用户畫像，通過不斷的精確k和b來精確Y。

我們通過網易雲音樂來介紹建模過程。相信很多人都知道網易雲音樂會根據你之前的聽歌習慣來給你推薦新的歌曲，在這背後，也是由算法來支持的，而且這種算法也在持續的改進，最終推薦的歌曲也會越來越滿足特定用户的口味。

這裏嘗試介紹一種簡單的算法，其核心是數學中的“多維空間中兩個向量夾角的餘弦公式”。此處引用了知乎“網易雲音樂的歌單推薦算法是怎樣的？”下邰原朗的回答：

以三首歌來舉例子，《最炫民族風》，《晴天》，《Hero》。

A，收藏了《最炫民族風》，而遇到《晴天》，《Hero》則總是跳過；

B，經常單曲循環《最炫民族風》，《晴天》會播放完，《Hero》則拉黑了

C，拉黑了《最炫民族風》，而《晴天》《Hero》都收藏了。

這裏可以看出，A,B二位品味接近，C和他們很不一樣。那麼問題來了，説A，B相似，到底有多相似，如何量化？

我們把三首歌想象成三維空間的三個維度，《最炫民族風》是x軸，《晴天》是y軸，《Hero》是z軸，對每首歌的喜歡程度即該維度上的座標，並且對喜歡程度做量化(比如：單曲循環=5, 分享=4, 收藏=3, 主動播放=2 , 聽完=1, 跳過=-1 , 拉黑=-5 )。

那麼每個人的總體口味就是一個向量，A君是 (3,-1,-1)，B君是(5,1,-5)，C君是(-5,3,3)。我們可以用向量夾角的餘弦值來表示兩個向量的相似程度， 0度角(表示兩人完全一致)的餘弦是1， 180度角(表示兩人截然相反)的餘弦是-1。

根據餘弦公式, 夾角餘弦 = 向量點積/ (向量長度的叉積) = ( x1x2 + y1y2 + z1z2) / ( 跟號(x1平方+y1平方+z1平方 ) x 跟號(x2平方+y2平方+z2平方 ) )。 A君B君夾角的餘弦是0.81 ， A君C君夾角的餘弦是 -0.97。

以上是三首歌的情況，對於多首歌也可以進行如法炮製，建立N維N首歌的座標系。以上的思想核心就是，一個和你聽歌習慣特別相似的人，那麼他喜歡聽的其他歌也大概率是你喜歡聽的歌。這是建立在以人為本的基礎上。

還有一種思想是建立在以物為本的基礎上，簡單説，就是買了X物品的人，一般都會買Y。比如網易雲音樂新來了一個用户D，只知道她喜歡最炫民族風，那麼問題來了，給她推薦啥好呢？

如下圖，數字代表對某首歌的好感度。通過將A/B/C三人對最炫民族風和其他兩首歌的好感度之差求平均，得出一般人對這些歌好感度差值的平均值。最後求出D對於另外兩首歌的好感度。

現實中，由於數量量更大，算法也更加複雜，所以最後得出的預測值精度也會更好。同樣的，也有海量的模型用於預測其他類型的用户特徵。

我們能保護我們的隱私嗎？

在瀏覽器中搜索“如何保護隱私”，我們可以得到大量保護隱私的技巧，比如説不在公共區域登錄wifi，及時清除上網數據，在安裝手機APP時注意有沒有不合理的隱私獲取請求、遠離那些測試自己的心理年齡愛情運勢的小網站等等。

然而網絡的發達和各種手機應用的興起本質是服務我們的生活，如今我們為了保護隱私反而不得不小心謹慎，這必然是捨本逐末的。再者，就算你小心謹慎，你採取的這些防護措施在多大程度上真的可以保護你的隱私？

前段時間的一篇爆款文章《為什麼我的兒子不沉迷遊戲？》，講的是一個資深遊戲策劃現身説法如何讓孩子不沉迷遊戲。在文中，作者提到商業化的網絡遊戲，都是為讓玩家沉迷所設計的。每一個爆款遊戲背後都是成百上千的經驗豐富的工程師、遊戲策劃甚至心理學家，在反覆揣摩怎樣將遊戲設計的讓人上癮，遊戲產品也在持續反覆迭代。

勢單力薄的個人該如何與這種精心設計的誘惑向對抗？同樣的，數據公司也會絞盡腦汁地採用新的技術來採集你的數據，你們兩者根本就不在同一個維度。

26年前《紐約客》封面的漫畫上，洋洋得意地宣揚“在互聯網上，沒人知道你是一條狗”。

然而26年的今天，利用大數據，你是黑是白、住在什麼地方、吃什麼牌子的狗糧、喜歡在哪裏散步這些都是可以獲取的。

在龐大的數據面前，人類越來越像一個提供輸入的變量角色。你使用的APP，正在試圖瞭解和定義你。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

大数据杀熟背后，是我们裸奔的隐私