close

從大數據(Big Data)到全數據(Whole Data)

        被譽為資訊界的傳奇人物、也曾獲得資訊科學領域中最高榮譽圖靈獎(Turing Award)的美國資訊工程學家吉姆·格雷(Jim Gray),在其生前曾提出「科學典範」(Science Paradigm)的概念,他認為科學研究的演進,有以下四種典範[1],如圖1所示:

       1.第一典範「科學實驗」:以記錄方式,呈現實驗結果,描述自然現象。

       2.第二典範「理論推演」:發展理論,建立模型,歸納驗證。

       3.第三典範「模擬仿真」:透過電腦,對複雜現象進行模擬。

       4.第四典範「數據密集」:對數據進行探索(Data exploration),又稱eScience

       大數據,就是屬於上述科學研究的第四典範(Paradigm)。

科學研究演進四典範.png

圖1 科學研究演進四典範

(圖形中的時間為2009年前的時間)

資料來源:修改自The Fourth Paradigm: Data-intensive Scientific Discovery (T. Hey, S. Tansley, and K. Tolle, 2009)

繪圖者:周晏汝

       值得一提的是,第一典範其實是世界文明進步的開始,已存在約一千年,主要是人類以紀錄方式,描述自然現象、呈現實驗結果,而這也是人類知識得以累積的重要基礎;至於第二典範,則有一百年以上的歷史,大約是工業革命之後,人類大量投入基礎研究,科學研究為藉由發展理論、建立模型的歸納驗證方式。

       第三典範「模擬仿真」與第四典範「數據密集」都是利用電腦來對數據進行處理。兩者之間的差異,在於第三典範「模擬仿真」會先釐清問題並確認假設,再利用數據進行分析與驗證。而第四典範「數據密集」,則是先有大數據,然後再透過分析,發現未知的理論。因此,第四典範的作法,不強調推論「因果」(cause and effect),而是強調發現「相關」(correlation)。這種思維則徹底顛覆了傳統的科學研究做法。

       由於現有的行銷資料常被集中在各個企業或機構的「資料倉庫」內。這些資料可能有各種來源,各種不同格式,像是各種因為不同任務需要所蒐集而來的數據、統計報告和趨勢調查等。而資料探索(Data exploration)則是由資料科學家根據各方收集而來的資料,形成真實分析的一種資訊探索方式。

       舉例來說,目前各式各樣混亂、毫無結構的人類各種活動的痕跡,正由各種工具如臉書、Instagram和Youtube記錄下來,而藉由探索性資料分析(Exploratory Data Analysis, EDA)這種視覺化和統計分析工具,找出其中的關連,正是大數據分析或行銷資料科學的基本精神所在。

此外,第四典範「數據密集」的研究概念,更強調以完整的數據來進行分析,只要數據是真實的,我們就能透過分析工具,了解資料背後的可能存在的各種行為,進而找出其行為模式。這個部分包涵兩個層次,一是資料蒐集時,不僅是「大」,而是「全」(意即真實且完整)。其次,由於現行分析工具越來越強大,以前企業可能無法顧及末端的消費者(交易次數少、金額低),而只聚焦前端的顧客,現在拜大數據之賜,可以掌握「全部」的個別消費者的交易數據,企業甚至可以觀察到個別消費者的動態。如果某一消費者的交易突然靜止好一段時間,企業就可以盡快推出一對一行銷,將此顧客設法保留在會員名單內,而非坐等令其流失。這也是從大數據(Big Data)到全數據(Whole Data)的基本概念。

                  羅凱揚(台科大兼任助理教授)、蘇宇暉(台科大管研所博士生)

 

[1] The Fourth Paradigm: Data-intensive Scientific Discovery T. Hey, S. Tansley, and K. Tolle, 2009

arrow
arrow

    TMR 發表在 痞客邦 留言(0) 人氣()