close

淺談資料格式結構化與非結構化資料

進入大數據時代,資料成為挖掘商機的礦脈,對資料的管理不夠,想要利用大數據來開創新生意等於緣木求魚。請思考一下,自己公司有刻意收集甚麼樣的資料嗎?有善待貯存下來的各式資料嗎?有專人管理嗎?還是坐看它們放在倉庫中,隨著歲月崩解殆盡?

在過去,許多企業認為資料庫裡的銷售資料、生產資料、財務資料…等量化資料,特別具有價值。事實上,真的是如此嗎?我有個朋友,十多年前就開始在網路上,架設網站收集網友關於美妝的討論資料,而網友的留言都是一些文本(Text)資料,沒有固定格式,也不容易發掘出什麼內容來。當年他的員工就曾經問他,收攬這些資料到底要幹麻?他說他也不知道,反正先收集下來再說,只要收集到一定的規模,就一定會發現「什麼」。

現在,靠著網友的支持,他的網站現在已經是台灣最大的美妝網站之一,幾乎所有的化妝品要上市前,都會先到網站發佈試用資訊、徵求試用者、然後再逐一測試、改善,收集意見後,才敢正式上市。對歐美、日系、韓系,甚至是台灣的本土美容業者來說,他的網站已儼然成為美妝界「資料」的寶庫。

從以上的說明中,無論是銷售、生產、財務等量化資料,或是網友討論的文本資料,都是屬於資料型態的一環。而了解資料型態,正是踏入行銷資料科學領域的第一步。那到底資料是如何分類的?

我們先來看一下維基百科如何定義「資料」,它指的是「未經過處裡的原始記錄」,包括:數字、文字、聲音、影像…等。而在電腦裡的資料,最終可分解成0與1,進行儲存與計算。

而一般在資料科學裡,最重要的資料儲存方式,本文將可用SQL查詢結構化的資料稱為「SQL資料」,並將SQL以外可查詢非結構化資料稱為「NoSQL資料」,分成SQL資料與NoSQL資料兩大類(見圖1):

SQL資料與NoSQL資料.png

圖1 SQL資料與NoSQL資料

 繪圖者:張庭瑄

SQL是Structured Query Language的縮寫,意指「結構化查詢語言」,其資料為結構化資料。結構化資料在資料庫裡意指:它擁有固定欄位、固定格式與順序...等。例如:企業銷售資料庫裡的欄位,通常有「會員編號」、「購買日期」、「購買品項」、「購買金額」...等。類似目前企業最常用的excel格式檔案。

          至於NoSQL的英文為Not Only SQL,意指「不只是SQL」,其中包含非結構化或半結構化資料。非結構化資料在資料庫裡則意指:沒有固定欄位,也沒有固定格式。例如:影像檔、語音檔、圖檔、Office檔案、PDF檔、e-mail、網頁等。半結構化資料在資料庫裡意指:具有欄位,但內容不一致,例如:人力銀行網站上的職務內容,就是半結構化資料。因為每家公司的需求內容不一樣,無法有一致性的填寫方式,這類型的資料就無法透過欄位一一存放。

          再舉一個「半結構化」資料的例子,大家可能會更清楚,美國的石化產業中,常用一種Log ASCII(簡稱LAS)的檔案格式,裡面記載大量關於油氣井的識別碼、石油學會(API)的編號、油井位置和油井擁有者等資訊。更重要的是,LAS中還會記載地殻中所含伽馬射線、聲學數據或其他測量值,其目的即在不同深度的讀數,讓工程師可以用它來了解油井中的岩石特性。這種格式的記錄,乃是透過特殊設備在石油井內上下移動,但比較討厭的是,A公司是每英尺記錄一次,B公司則是每隔數英尺記載一次,造成資料性質的不一致,簡言之,並非所有的LAS文件都記載類似的東西,也不是所有的LAS文件都以相同的方式來標記相同的讀數,但是LAS文件卻是一個貨真價實的半資料結構。

以上簡單介紹結構化資料與非結構化資料的差異,之後,我們將陸續對「行銷資料」、「研究資料」、「資料類型的排列組合」進行介紹,為行銷資料科學的學習,奠定良好的基礎。

蘇宇暉(台科大管研所博士生)、羅凱揚(台科大兼任助理教授)

 

arrow
arrow

    TMR 發表在 痞客邦 留言(0) 人氣()