首頁 找知識 分析優化. 網路人群畫像和你所不知道的真相(三)

網路人群畫像和你所不知道的真相(三)

前兩部分我們討論了理論上如何在網路上標記每一個人的唯一身份,即如何在PC端、mobile端和跨設備端識別一個網路用戶的唯一性,以及在實際中,真實落地的情況如何。如果你對這兩部分感興趣,請點擊這裡網路人群畫像和你所不知道的真相 〈一網路人群畫像和你所不知道的真相〈二〉

  這個系列的第三篇,將開始進入一個新的領域:我們如何為網路上的使用者建立“資料檔案”,從而能夠不僅僅識別他的唯一性,還能夠進一步瞭解他是什麼樣的人 – 他在真實世界中的情況如何、他在網路行為又是什麼樣的。人群畫像的基礎在於對個體的準確描述(profiling),如果個體描述不準確,人群畫像也會有偏差。對每一個個體的描述,我們使用一種被稱為“標籤”的東西。

個體畫像的標籤

  一般大眾對於畫像或許會相當反感,一個極為重要的原因是他們會認為自己的隱私正在被窺視。

  理論上這種擔憂是多餘的,但現實情況則複雜的多。在這方面,從理論入手反而簡單,所以我們先看看理論上事情應該是什麼樣的,然後在後面的內容中我再帶大家看看現實世界。

  個體畫像的構成要素包含三塊,一塊是描繪這個人的人口學上的屬性,諸如年齡性別什麼的,這些屬性短期內不怎麼發生變化,所以也被稱為靜態屬性。此外,你的姓名住址電話號碼屬於靜態屬性嗎? – 當然屬於,但這些東西非常敏感,所以我們後面再說。另一塊則是描繪這個人更為個性的東西,主要是他們的行為,以及行為反映出的興趣愛好是什麼,這些屬性容易發生變化,甚至是發生突然的變化,所以也被稱為動態屬性。

  第三塊是個體所處的環境屬性。例如,他某個時刻所在的位置,當時的天氣和溫度,他使用的終端的資訊,他瀏覽的網頁或者使用的APP的資訊,等等。這些資訊描述了與他緊密關聯的自然、地理和虛擬世界三類環境。
APP,網路,PII

靜態屬性

  所有的人群畫像服務提供者都宣稱,他們的畫像是準確的,而且用諸如80%、90%之類的高比例證明這種準確性。但實際上與現實有極大落差。

  先來看看靜態屬性。

  靜態屬性中有一部分內容且不說能否獲得,在法律上不允許。這些資訊就是我上面說的你的姓名、住址、電話號碼、身份證號碼等,這些資訊有一個共性,就是能夠跟現實生活中的你對應起來。任何能夠在現實世界中找到你的資訊,理論上都是不可以被記錄下來的敏感資訊,這些資訊被稱為PII,即個人識別資訊(Personally Identifiable Information)。


APP,網路PII不過,在中國,由於缺乏技術和法律上的充分保護,所以人民的PII實際上早就已經曝在陽光下。親愛的讀者朋友,你或者你的朋友一定被“猜猜我是誰”、“老闆要你明天去他辦公室”之類的騙子電話騷擾過,他們是如何知道你的電話號碼和真實姓名的呢?這些事情不能說,說出會來嚇死你。

 

  正常的廣告投放不可以利用這些資訊,而且正常管道是不可能獲取這些資訊的,但是很多追求立即變現的行銷操盤手們卻會千方百計的去搞這些資訊。這些資訊總是能夠在黑市被交易,所以,你時常收到騷擾電話和簡訊就不足為奇。總之,這是一個非常灰色的產業鏈,從來沒有消失過。這些資料從哪裡來? – 太多可能性,因為你在網站、各種機關單位、購物過程中等等日常生活中留下了大量PII,然後任何一個環節的管理不善(更多是放任不管)就會造成資訊的有意竊取或無意洩漏。

  有很多公司宣稱他們擁有運營商的資料,其中包含PII資訊。一家新創立不久的資料公司曾經拿出他們號稱所有的運營商的原始資料給我看,確實令我大感震驚,這些資料中間不僅僅包含一段時間內某個人訪問網站的全部URL資訊,還包括他在各個廣告公司中的cookie資訊,以及他的電話號碼,他的QQ號碼,乃至QQ暱稱。這些資訊,理論上,是絕對不應該被協力廠商獲得的,但似乎正在暗地流通。這段講的東西都是灰色地帶,真實與否大家自行辨別。

 

APP,網路PII上圖為某號稱運營商數據的資料,已經省略了敏感資訊

  那麼,大家會問,為什麼你前面說靜態資料準確性的「極大落差」呢?

  如果沒有真實的PII資訊,而完全靠其他方式來判斷每個人的靜態屬性,是一個非常困難的事情。

  舉一個例子,如果給你一個人在一個星期內的所有網站的訪問記錄,但你並不知道這個人是男是女,你能否從網站的訪問記錄中判斷出他或者她的性別?

  你會說,這有什麼難的。男人喜歡運動和汽車,女人喜歡衣服和化妝。所以,看看網站訪問記錄中瀏覽的網站類型偏好,這個問題不難解決。

  但實際情況是,這個問題的難度很大。

  首先,人們瀏覽網站沒有這麼必然的分水嶺,人們的性別差異會導致網路使用行為的差異,但在影音網站、購物網站、部分垂直網站上的差異最為明顯,在其他很多網站上的差異並不非常顯著。即使是前面的例子,讓你根據一個人的瀏覽記錄來判斷,如果記錄中間沒有購物資訊和影音瀏覽資訊的話(這些網站的瀏覽資訊憑什麼讓你知道?這可是人家的關鍵商業機密),也存在誤判的可能,更不用說讓機器識別。

  其次,機器識別最大的問題在於,它能有多麼聰明?如果沒有人事先把網站URL和內容輸入給機器,它能夠準確識別一個網頁的主題內容或者一個網站的主題嗎?NLP(自然語言處理)對於大多數廣告公司而言,只是一個概念,即使是網路巨頭,對中文的NLP的應用也還很生澀。

  不過,最麻煩的還不在上面兩個,最大的問題在於,一個協力廠商,它根本就沒有一個人瀏覽網站的所有記錄,事實上,它能看到的極為有限,原因很簡單,他沒許可權,沒有運營商數據,也不能使用駭客技術。因此,如果一個女用戶看了10個化妝品網站,你沒有記錄到,而她又看了1個汽車網站剛好被你記錄到了,你會認為她是一個男用戶。

APP,網路,PII

  所以,沒有PII,通過人們的網路行為來判斷性別是很難的,或者換句話說,準確率不會太高。

  有些公司會說,我們有大資料技術,我們會以一個已經確定性別的人群組(panel)為基礎,用這些人的準確網路行為資料去對照更大的未知人群的行為資料,從而通過不斷的相似性比較去確定未知人群的性別。這種方式用技術一點的語言,叫做train資料。這個嘛,大家聽聽也就ok了,原因參照前面說的幾點。

  不過,性別其實是所有靜態屬性中間,相對容易推斷的,而年齡、收入、學歷、婚姻狀態等等這些資訊,通過人們網路使用行為就更加困難了,準確率不會超過你擲骰子。所以,對於絕大部分廣告公司而言,靜態屬性其實就是個噱頭。

  那麼,你會問,行業中流傳的這些靜態屬性資料是不是根本就不能用?接著看。

誰的靜態屬性可靠?

  答案是,還是有很多地方有人的準確靜態屬性的。我只是說,通過人們的網路行為去推斷靜態屬性是很困難的,但並沒有說,我們就沒有其他的資料來源。

  一種準確的靜態屬性可能來源於人的真實的PII資料。前面所講的人的真實PII資料,肯定是準確的,誰擁有這些資料呢?

  運營商肯定有,然後是政府的各個服務老百姓的部門(工商稅務街道社保教育等等等等),後者的資料肯定非常準確。然後是各種公共事業單位,再然後是各個快遞公司,再然後是各個電商公司……就不舉例了。反正大家都知道。

  但是,上面的部門雖然都有PII資料,但並不是說他們都能成為個人畫像的資料。原因很簡單,個人畫像是網路用戶的畫像,是數位化的。雖然政府很多部門有人的準確PII,但是這些資料都是線下的,要關聯到個人的網路唯一身份標識(比如關聯到 cookie 上,見人群畫像的經典構成要素小節),就很困難了,所以這些部門的資料雖準確,但對網路行銷的作用幾乎可以忽略。

  唯有一種,他們的PII特別強,那就是運營商。運營商不僅有人的準確PII(因為我們國家法律要求辦理運營商服務都需要實名制),它們手上還有人們的網路唯一身份辨識,比如上網的MAC位址,比如手機的IMEI號碼等等。所以它們的資料很厲害,既是線下的,也都是線上的,能真正用在網路行銷上。

APP,網路,PII 只是再強調一遍,這些資料不可以拿出來直接使用,使用這些資料不合法,甚至有牢獄風險。只不過,現實呢,反正這些資料早已被濫用了。

  PII不能用,那麼還有可靠的靜態屬性嗎?還有。

  有些公司直接就擁有人們的靜態屬性。

我們使用很多網路服務的時候,會留下性別和年齡(或者生日),雖然有人故意造假,但畢竟是少數。我們也會註冊自己的百度帳號或者微信、淘寶帳號,還有很多其他媒體或服務的帳號,這其中也常常都會留下自己的靜態屬性資訊。

  你能看出明顯的區別 – 這些資料是找線民要來的,不是train出來的,所以,它們當然要可靠的多!

  但顯然,這些資料又只掌握在少數大型網路媒體中,所以,這塊資料你要想準確擁有,目前看,“找黑市”或者是“抱大腿”可能更可靠。超出這兩種辦法的資料,就得自求多福啦。

  這一節的故事講到這裡。下一節我們繼續進入個人畫像的動態屬性部分,敬請期待。


 

WAW夥伴介紹  宋星

網站分析在中國網站的創始人和全部文章的作者,WAW中國創始人,百度廣告主投放商業諮詢部總經理。同時,也是百度認證鑽石講師、北京航空航太大學特聘教授、北京傳媒大學MBA特約講師。

關於 网站分析在中国創辦人宋星

网站分析在中国創辦人宋星
「网站分析在中国——从基础到前沿」是一个关于网站分析(WA,即Web Analytics)的博客,这个博客旨在做3件事:1. 把国外最有价值的,最符合中国互联网实情的Web Analytics资源介绍给中国的互联网营销从业者们。 2. 扩大中国Web Analytics从业者的圈子,希望跟所有对网站分析和互联网营销感兴趣的朋友们建立联系和友谊。 3. 发表个人关于Web Analytics方面的一些心得,以及把自己的一些经验与大家分享。

大家都在看

「感覺」成效比較好?教你正確的 A/B Testing 觀念!

「感覺」成效比較好?教你正確的 A/B Testing 觀念!

這件事的開始是這樣的…某一天,公司可愛的同事說道:你走哪條路來公司啊?我知道一條快速的近路喔!究竟走這條路真的會比較快嗎?其實數位行銷中的 AB Testing 就能幫你解答這個疑惑,再加碼介紹你 Google Optimize 最佳化工具的功能!

還想知道更多數位新知?快來訂閱 dcplus 關鍵分享報

您希望收到哪些資訊呢?