close

資料的四大來源:企業資料、雲端資料、開放資料、物聯資料

        資料來源百百款,種類繁複,有些由人們所產生,有些則由機器所產生;有些資料存放在企業內部,極其珍貴,有些資料則屬於外部來源,讓資料科學家可以信手拈來。

        資料是資料科學家的「衣食父母」,沒有它們,資料科學家只能原地踏步,但有了資料,資料科學家也需要有慧眼和工具,才能將寶石自礦山中挖掘、篩選和過濾出來。

        以下簡單就中原大學資工所賀嘉生教授,所提出的四大資料來源進行說明。

  1. 企業資料:

        企業內部資料的來源,主要來自於資料庫(Data Base)或是資料倉儲(Data warehouse)。存放在資料庫裡的資料,源自於企業內各種資訊系統,包括:銷售系統、人力資源管理系統、進銷存系統、顧客關係管理系統(CRM)、企業資源規劃系統(ERP)、供應鏈管理系統(SCM)和企業網站。企業資料通常最難取得,因為這些資料攸關著企業的營業機密。

        當企業在進行內部資料分析時,通常採取自製(自行分析)或是外包(委外分析)的方式進行。一旦採取外包時,常要求外包商簽署「保密協定」(Non-disclosure agreement,NDA)不得外洩,否則得賠償。

  1. 雲端資料:

        雲端資料的種類很多,包括各類社群網站(Facebook、LinkedIn…等)所陳列的個人資料(Social network profiles)。還有,許多人會在網路上分享文章、撰寫評論,甚至是按「讚」(Like)等。

        這些資料都可透過網路探勘的方式,將使用者在網路平台上留下的紀錄(例如討論區中討論的內容)存取下來,再加以分析。

        不過要注意的是,網路探勘會有違法之虞。根據刑法第三十六章「妨害電腦使用罪」[1]第358條至363條,一般人不得無故入侵他人電腦主機、無故變更電磁記錄、干擾電腦系統及相關設備、製作專供電腦犯罪之程式等。所以,在網路爬文時,需特別注意。

  1. 開放資料:

        開放資料(Open Data)的概念由來已久,過去幾百年,科學界已經將許多的研究資料公開給其他研究者進行後續的研究。開放資料真正蓬勃的發展,還是在網際網路出現之後。2001年維基百科成立,截至2017年,已產生550萬個條目。此外,2004年,經濟合作與發展組織(Organisation for Economic Co-operation and Development, OECD)的各會員國,簽署一份共同聲明,要求所有由公家機關出資所收集的資料,都必需被公開。之後,許多政府機關、非營利組織都陸續在網路上公開各種資料。

        開放資料是個寶庫,端看我們是否懂得挖掘。以台灣的博連科技[2]為例,該公司透過連結與整合航空局、台灣港務、關務署、中央銀行等單位資訊,建立iPort2.0系統,讓業者能快速取得最佳的海空聯運方案(例如即時取得海空聯運運費及路徑分析、追蹤貨況)。

  1. 物聯資料

        物聯網(Internet of Things, IoT)的出現,讓企業可透過各種偵測裝置,紀錄各式各樣的資料。無論是透過手機進行定位,獲得GPS資料,或是透過影像偵測消費者購物的行為獲取影像資料,而這些都屬於物聯資料的範疇。

        美國經濟與社會理論學者傑瑞米.里夫金(Jeremy Rifkin)(見下圖,取材自維基百科)在他所著的《物聯網革命:改寫市場經濟,顛覆產業運行,你我的生活即將面臨巨變》[3]一書中提到,物聯網將會演變成一個高度整合的全球網路,未來人、天然資源、機器、產品、物流、交易、甚至回收等,經濟與生活面向的人事物,都將與物聯網平台進行連接。無論是組織或個人,透過資料科學技術,對物聯網背後所產生的大數據進行分析,將產生對經濟與生活有用的資訊,進而發展出更多的應用與價值。

        當物聯網出現後,除了可以透過「物」來記錄「人」,還可以將記錄的範圍擴大到「物」。舉例來說,智慧家庭的出現,紀錄了許多與人相關以及與物相關的資料。例如:透過攝影機紀錄家庭裡每個人走路的動線,經常出沒的區域。或是透過感測器,紀錄室內的溫度、濕度、電力消耗…等。然後,只要稍微加以分析,就可以改善電力或空調的使用。

        以上四種資料的出現,連帶對於資料的處理速度以及資料的儲存,產生了新的需求。舉例來說:為了滿足許多電子商務公司即時蒐集與分析大量資料的需求,讓「分散式運算」以及「非結構化資料庫」(NoSQL)領域有了重大的技術突破。而Hadoop開放式分散式運算系統,以及MongoDB、Cassandra等非結構化資料庫的出現,也讓這些需求得以滿足。

        事實上,以上的資料某些看起來很有價值,有些則可能一無是處,但依據筆者的經驗,任何資料背後都有「模型」。而西諺有云「 One man’s meat is another man’s poison你的美食,可能是他的毒藥),反之亦然,因此沒有無用的資料,資料否能夠產生價值,端賴各位的慧眼,以及是否採用正確的分析方法。

                  蘇宇暉(台科大管研所博士生)、羅凱揚(台科大兼任助理教授)

 

[1] 中華民國刑法 http://law.moj.gov.tw/LawClass/LawParaDeatil.aspx?Pcode=C0000001&LCNOS=%20358%20%20%20&LCC=2

[2] 博連資訊科技 http://www.pllink.com/AboutUs.jsp

[3] 傑瑞米.里夫金(Jeremy Rifkin),《物聯網革命:改寫市場經濟,顛覆產業運行,你我的生活即將面臨巨變》(The Zero Marginal Cost Society: The Internet of Things, the Collaborative Commons, and the Eclipse of Capitalism),陳儀、陳琇玲譯,商周出版,2014/12/11

arrow
arrow

    TMR 發表在 痞客邦 留言(0) 人氣()