首頁 找知識 趨勢通識. 大數據有時只要轉個彎就能夠很實用了|黑貘來說

大數據有時只要轉個彎就能夠很實用了|黑貘來說

有人知道我一直在思考與發展 “新媒體" 的可能性,雖然大家都已經知道不能用 “網路" 來去劃分甚麼是傳統媒體與新媒體,而是要以 “是否應用網路多對多的技術實現社群互動來產生價值" 來做區分,所以也提出了個計劃:

當然這計劃不會停下來也會持續進行,雖然這會那時實現也不確定,或許不見得是用甚麼形式實現,更有可能也不須要我來實現是最好啦,但記得在 4 個月前,寫下一個豪語:

新媒體,大數據,個人化

而做到現在,的確已經有很多 “成果" 了,但離真的具有 “效果" 卻又還很遠,但其中有一點最有趣的就是 “個人化"。

在做個人化大家都知道是很簡單的概念,就是若是系統能夠從一個人的閱讀記錄, 一篇篇了解這篇文章的獨特屬性,而不是單純的從個人檔案 (profile),或是文章分類決定一個人偏好,尤其是透過最近的閱讀,最新的閱讀能夠更精確的推薦給那個使用者。

這以現在的技術角度通常不是問題了,尤其是現在與時俱進的電腦計算能力與機器學習,以前做不到的現在都越來越簡單,只是接下來的問題是如何拿到使用者的閱讀記錄或是如何推薦給他?

當然閱讀記錄有時可以透過臉書的動態牆分享,對於須要大量閱讀的 “傳教士" 而言,其平常分享的內容就足夠聚焦到他的偏好,但其他人真的不是靠有人寫出閱讀器,不然就是要靠 Plug-In 來追蹤了。

前一陣子有人問我是否可以做文章分類,而新文易數當時抓資料時是以標籤 (Tag) 為目標,並不是以分類 (Catalogue) 為目標時,在想說要重新抓這些媒體是相當困難的,此時就想到一個很有趣的想法:

若是虛擬一個人格 (Agent),若是只餵食 (閱讀) 體育新聞時,此時推薦出來的清單都應該是以體育新聞或其相關為主。

當時就用這概念就做了幾個機器人 (Software Agent),就可以很輕易的把文章做分類, 只要有針對這分類的 “種子",即使這個分類只是次分類,如棒球、汽車、教育、 長照…. 因為不是針對這些類別去做定義,而是持續的把這相關的文章丟進去這系統,即使若是有算不到的情形,再經過 “工人" 的再 “餵食 (輸入)",此時配對出來的訊號 (Signal) 會越來越高,也越來越準。

新媒體,大數據,個人化

上面就是在新文易數尚未開放的新功能 (應該也不會開放,因為會直接寫成 API),這篇文章雖然是屬於社會類,但因為是國際的社會類,又跟產業金融相關,所以這三個數字都偏高,若是以演算法的角度,應該是屬於社會類與國際類,事實上很多文章的分類本來就是很模糊,甚至應該是網狀 (Network) 的多屬性關係 (Relation),而不是單一的階層關係,在這種系統就更可以表現出其 “優秀" 的地方。

此時就想到幾個有趣的地方,若不是持續輸入一種分類的文章,而是持續輸入一個媒體的文章,即使這個媒體是多種分類屬性,所以理論上最後推薦出來的應該是:

1. 可以建議這個媒體的記者該追蹤的新聞或文章

2. 可以建議這個媒體的讀者,他會有興趣閱讀的跨媒體內容

由於這種方法可以有足夠量的樣本來輸入偏好,所以通常會有很好的效果,此時也利用癮科技來做實驗,大家可以去看看效果如何,但此時並沒有去過濾排除這個媒體,所以出現這癮科技的文章也沒甚麼意外。

但很多網站沒有文章怎麼辦呢?大家可以參考 “透過 Search Console API 來做關鍵字建議工具的改良" 這篇文章, 或許就直接匯入這些關鍵字,把關鍵字當成文章,此時就可以持續與大量的輸入,且可以跟上時事,準確度就很高,這系統就變成可以推薦這網站值得發展的方向。

除了個人化、分類、媒體編輯、網站經營外,甚至可以輸入某立委 (政治人物) 的相關新聞,以及這政治人物在粉絲團發表的文章,就會跑出 “那些新聞值得這立法委員值得深入追蹤的建議清單",畢竟身為立委助理 (或政治人物) 每天要去看新聞來培養自己風向球的敏感度是很辛苦的,若能夠把較具影響力或社群有較多回應的去做篩選,再找到是這個政治人物的守備範圍或有關系的訊息,這樣是很有幫助的。

以現在大數據的分析中,大部份的困難不是沒有資料,而是有龐大的次級資料 (不是直接對應問題答案的資料),若是大家已經有做出個人化的推薦,可以嘗試看看轉個彎,透過資料的整合就可以產出很有趣的應用。

而很多有關媒體,立委之類的資訊,這邊已經整理出不錯的資訊,可以直接透過 API 匯入大家的編輯後台或 Dashboard (儀表版),有興趣的可以找我介接,希望對大家的工作有幫助。

留言

關於 食夢黑貘

食夢黑貘
新文易數創作者,工程師級的技術顧問 - 洪進吉Gene,知名網路技術部落格《IMHO, 黑貘來說》作者,以『食夢黑貘』為網路暱稱分享SEO搜尋引擎優化、社群行為、資料探勘和網路行銷…等相關文章。擁有強大的技術專業,曾經和一群夥伴,只花了30個小時,即打造出服貿東西軍網站,藉由資料探勘技術,從20億筆臉書留言中,找出100萬人對服貿議題支持者VS反對者的比例,能隨時反映出臺灣臉書使用者對於服貿事件支持或反對意見的比例。更多講師介紹:http://dcplus.com.tw/consultants/Gene_Hong

大家都在看

TA攻略|消費者行為分析

TA攻略|消費者行為分析

你的 TA 出沒的渠道為何、是否能清楚定義 TA 輪廓、TA 容易被什麼樣的行銷訊息打動?這三個問題所討論的皆涵蓋在消費者研究的範疇內,企業設定 TA 時不該是憑感覺,也不該是看競品往哪跑就往哪追,更不該是等銷售成績出狀況後無根據地修正。

還想知道更多數位新知?快來訂閱 dcplus 關鍵分享報