close

倫敦鬼圖、大數據和行銷資料科學

在AI、大數據當紅的近年,常有EMBA學生和業界朋友問我,他們常在新聞看到或聽到,某某跨國企業又利用「大數據」開發出新的商機。這其中有些概念很有趣,也很實用,但整體而言「大數據」對自己的公司似乎還是虛無飄渺,可望而不可及,想用卻不知如何下手。大數據真的有那麼神嗎?自己公司擁有的一些客戶或營業資料,算是大數據嗎?又該如何有效運用它們呢?

碰到這些問題,我都會先請他們稍安勿燥,靜下來想想:公司有那些數據?累積多久了?資料格式大致如何?有專人維護或分析嗎?過去都拿數據做什麼用途?公司的決策多靠經驗,還是靠數據?一下子提出這麼多問號,其實都很適合拿來問大部分的公司。因為這些問題就是大數據的入門,而這些資料也都普遍存在你我身邊,能否掌握這些資料,有時會關係著公司的成長和未來。現在,且先聽我說幾則故事。

大數據存在不經意間

「今早起床,發現自己喉嚨怪怪的,頭有點重,心想可能是昨天下午,在通風不佳的空間開會太久,被隔壁感冒的同事傳染了,這兩天也一直聽到有人『中獎』,而去掛病號的案例。這一波流感到底有什麼症狀?該去看哪位醫生?」念頭至此,習慣性地打開電腦,先向「谷歌」大神求診。當你在Google「搜尋欄」打上「喉嚨痛」三個字時,大家比較不知道的是,你已經在幫谷歌大神產生大數據了。因為一個人喉嚨痛可能沒什麼,但如果你住的台北市,同段時間內有一萬個人也在搜尋「喉嚨痛」時,你大概可以猜到,台北市的流行感冒已經是山雨欲來了。

這時候,如果將這一萬人搜尋所使用電腦的位址,全部以「光點」的方式套疊在GPS地圖上,又發現幾乎都集中在大安區,衛生單位是不是就可初步研判,大安區可能是這一波流行感冒的「熱區」了。這時候如果感冒還沒開始流行肆虐,是不是可在大安區的公共場所多宣導民眾,該戴上口罩了。

事實上,Google還真的透過大數據分析,對美國5,000萬個使用者常用的搜尋字串,以及2003~2008年間季節性流感的傳播資料進行比對,並透過機器學習的方式,發展出預測流感的模型。有趣的是,Google透過大數據進行的分析結果,其準確性遠勝於公部門運用專屬資料所獲得的預測結果。

大數據的存在由來已久

其實,類似上述光點套疊地圖的概念,早在十九世紀就有了。1854年8月31日到9月3日,英國倫敦蘇活區(SOHO)爆發了霍亂疫情,四天內共有127人死於霍亂。一週內,更有超過500人死亡。當時的醫學觀點認為,這個病是透過惡劣的空氣傳播,因此只要避免接觸混濁的空氣,就可遠離疾病,但這樣的做法,似乎沒什效果,也沒辦法抑制霍亂的持續擴散。

當時一位名為約翰‧斯諾(John Snow,見圖1)的醫師對此進行研究,他一一訪談蘇活區的住戶,並仔細檢視病人資料,他發現似乎所有的霍亂死亡病例,都圍繞在布拉德街水泵(Broad Street Pump)附近,其中只有10個死例離該水泵較遠,而更接近另一台水泵。但這10個死例中,有5例是由於對水質的偏好,而仍從布拉德街水泵取水;有3例雖然離水泵較遠,卻是在布拉德街水泵附近學校就讀的孩童。

圖1 約翰‧斯諾

約翰‧斯諾高度懷疑霍亂可能是透過水所傳染,而非逸散的惡劣空氣所致。他將病患住家與水泵的位置一一標誌在地圖上,就如同前述光點套疊地圖的作法,這張地圖就是日後在公衛界著稱的鬼圖(The Ghost Map,見圖2)。他將這圖以及對霍亂病因的推測,呈報給倫敦市政府衛生主管當局,隔天,市政府就派人拆除了布拉德街水泵的把手,以阻止民眾繼續在該處取水。而約翰‧斯諾本人也因這創意的視覺化資料呈現,和深具洞見的病因推測而名留青史。

 

 

2 倫敦鬼圖 

我們可以做什麼

我講這些故事,並不是要稱讚Google有多神,或討論光點套疊地圖的技術有多厲害,而是說,大數據其實是由個別資料所構成,當資料累積到一定數量後,就可能產生「由量變到質變」的現象和新價值,這裡的關鍵是我們能否養成累積數據的習慣,並跳脫舊有思考模式,以新觀點檢視並非那麼顯而易見的數據內涵。

如果你是中小企業的經營者,或公司主管,請回頭想想,貴公司歷年來,累積了多少顧客資料?供應商資料?銷售品項、數量、金額等?而公司裡是不是有專人管理和分析這些被稱為「數位時代」的「原油」呢?還是空有這些素材,卻是以各種不同形式或格式,散置公司各處而乏人問津?有心的管理者,或許可花時間盤點一下公司資料的量和質,然後找較年輕、熱情,有一些統計背景,最好還有R或Python程式撰寫經驗的同事,和他們共同討論,發想看看能否有不一樣的、新角度的分析。

如果公司內無適當的統計人才,但有對大數據應用很熱衷,或想「自學」的同事,我們建議:Œ從機器學習(machine learning)相關的影片開始,因為人對影片的吸收速度較傳統的書本學習,要快上許多。最推薦的影片是:Udemy的Machine Learning A-Z,這是一系列的影片,讓初學者可以從數學零基礎,直接跨入機器學習的領域。更重要的是,本課程有很多R與Python的開源程式碼(open source code),可供企業直接套用到現有專案;我們也非常推薦台大電機系李宏毅教授在 YouTube上的機器學習深度學習課程,他的授課內容專業十足且深入淺出,涵蓋了大數據和機器學習等領域的完整概念。Ž自學者也可到全世界最大的資料科學平台Kagglecompetition單元,搜尋與公司業務相關的競賽,並找到競賽內的Kernel,裡面便是全世界頂尖資料科學家們,嘔心瀝血卻毫無保留分享,貢獻出來的開源程式碼。這些比賽的主題經常很接近企業的實戰狀況,而在相當程度內可直接套用到企業的案例。各階層的管理者即使不懂大數據或程式語言,也應鼓勵公司同仁多在Kaggle上,搜尋與公司業務相關的競賽程式碼,並嘗試套用。

走筆至此,若將前述兩段的概念結合,我們或許可看到另一新的思維。當很多企業或公部門花大筆經費於員工訓練時,是否也應鼓勵和獎助員工在網路課程的自學。畢竟已有不少知名而可信的國內外學習網站,如:Coursera, Hahow, Udemy 等,提供很多優質且價格合理的大數據相關課程,而其內容的嶄新、多元和深度,是很難單純藉外聘講師或學校課程就可充分涵蓋的。

共同的期勉

凡事總有個開始,無論是對上述中小企業經營者和主管提問的初步回答、對自學者三點建議的付諸實施,或對網路自學課程的獎補助,都可大幅提升公司或個人,進入大數據領域的跨步。根據統計,一個人每天早上起床,到晚上睡覺,如果所有行為都被有效記錄下來,大約可產生2 MB的資料。企業營運所面對的常是一群相似屬性或行為的人,如:相同年齡層的顧客、在網上搜尋類似關鍵字、或在相同時段呼叫計程車的客人等,將這些資料有系統累積起來,就算是大數據的雛形了。若能因此做出一些分析,姑且不論分析結果是否精湛或實用,就是大數據試水溫的第一步。「登高自卑,行遠自邇」這小小的嘗試,很可能因此開始了貴公司的「大數據」元年。

以上的故事中,談到了商業應用、資料蒐集、大數據、機器學習、資料視覺化等概念,這些概念在企業界的單獨或整合應用,都可算是「行銷資料科學 Marketing Data Science」的範疇。

台科大企管系    林孟彥教授

arrow
arrow

    TMR 發表在 痞客邦 留言(0) 人氣()