close

大數據有多大?

        你的手機裡有Instagram、Facebook、Line的App嗎 ? 如果你每天都有上傳照片、心情感想到這些社群網站去的習慣。基本上,你也是大數據創造者的一員。根據統計,人們每天上傳到這些網站或雲端的文件數量高達十億份、照片則有一億張,而其它的影音和金融、電信資料更不在話下了。

        美國資訊專家提姆‧喬西( Tim Joyce)於2014年,寫了一篇分析資訊儲存成本的文章,內文中提到,造成資訊大量爆發的原因,其實是資訊儲存成本的大幅降低,因為消費者的行為產生出來之後,如果無處儲存,產生出來的資料也無以分析。舉例來說,現在1TB的硬碟製造成本不到100美元,而在1984年,IBM一台大型主機的四台儲存設備串連運作,每個容量只有2.52GB,也大約只有10G左右的容量,而要讓這些儲存設備能夠運作,造價可是高達5.5千萬美元。30多年前處理資訊的成本,與現在處理大數據,根本是天差地遠。

        讓我們簡單回顧一下電腦基本容量的概念。一個Byte(位元組),指的是資料常用的基本單位,可以表示一個數字或英文字母。而一個中文字全形字,則由2個Byte所組成。所以數字123 等於 3個Byte,其中每個數字佔1Byte。至於像是「大數據」則等於6個Byte ,1個中文字占2個Byte。

        常見的電腦容量單位如圖1所示。

常見的電腦容量單位.png

圖1 常見的電腦容量單位

繪圖者:余得如

        至於大數據到底有多大?有人說要達到Terabyte(TB)等級,有人說要到Petabyte (PB)等級才算。舉例來說,一家大型的電信公司每天則處理數個PB的資料量。而根據2017年的報導,Google谷歌大神每天要處理超過 20 PB的資料,換個方式說,其每天的資料處理量是美國國家圖書館所有紙質出版物所含資料量的千倍、萬倍了。

        大數據的單位,一般認為大約介於1012次方(TB)到1018次方(EB)之間。事實上,目前一般企業處理的數據,能達到GB左右已經算是很可觀。然而,大數據最重要的不是想辦法擁有更多的數據,而要思考的是,如何在現有的數據寶山之中挖出寶石,這才是行銷資料科學真正的目的。

                  蘇宇暉(台科大管研所博士生)、羅凱揚(台科大兼任助理教授)

 

arrow
arrow

    TMR 發表在 痞客邦 留言(0) 人氣()