close

盡信資料,不如無資料

        《孟子》第十四卷盡心篇下中有一句話︰「盡信書,則不如無書」。大意是說,「完全相信《尚書》中所記載的事,還不如沒有《尚書》這本書」。這句話源自於孟子認為《尚書》裡所寫的部分內容過於誇張,史官下筆時可能有所偏差。類比到行銷資料科學,我們也可說,「盡信資料(Data),則不如無資料(Data)」。

        2013年12月,哈佛商業評論(HBR)刊登一篇由湯瑪斯.雷曼(Thomas C. Redman)所寫的文章《盡信資料不如…(Data's Credibility Problem)》(中文版由侯秀琴翻譯),就在探討這個存在已久的議題。

        在這篇文章裡指出,醫學中心的實驗資料錯誤,可能會害死病人;工廠裡的產品規格資料不清楚,可能會大幅增加成本;公司的財務報告資料不正確,可能會誤導投資大眾。以上的例子,均點出資料正確的重要性。

        資訊界有句流傳逾半世紀的名言,叫做「垃圾進、垃圾出(Garbage in, garbage out)」,如圖1所示。這句話背後的問題至今依舊存在,亦即企業內部可能充斥著許多的錯誤資料,而對於這些錯誤資料,許多人常誤認為是資訊系統的問題。事實上,資料錯誤的成因,常常來自於資料的「輸入」,其與人、流程、制度有關;而非資料的「處理」,它反而與資訊系統有關。也由於資料的不可靠,管理者很難建立起以「資料導向」(Data Driven)來做決策,因而倒退回強調經驗的直覺決策方式。

垃圾進、垃圾出(Garbage in, garbage out).png

圖1 垃圾進、垃圾出(Garbage in, garbage out)

繪圖者:周晏汝

        在資料的存續期間,有兩個時點很重要,一是「建立資料時」,其次則是「使用資料時」,因為資料品質在建立的當下就已決定,但常得等到使用時才會知道其品質高低。也因此,建立資料的人與使用資料的人應密切溝通,這樣就能夠解決大部分資料正確性的問題。畢竟建立資料的人,通常不清楚其他人如何使用資料。這就如同設計或建造教室的人,不清楚老師如何使用教室一般。

        有趣的是,建立資料的人(例如︰現場業務或是後勤幕僚)與使用資料的人(例如︰各部門主管),常常與資訊人員沒有直接關係。而對於資訊品質的責任,企業裡卻常常會推給資訊人員。事實上,最應負起資訊品質責任的,該是各階層與各單位的主管(尤其是最高主管),因為資訊人員可以幫忙改正錯誤資料,卻無法改變資料採集的方式或是商業流程。而且資料的正確對使用單位來說意義重大,對資訊部門可能不痛不癢。

        如何讓全公司的資料保持「乾淨」(clean),是一個需要持續努力的過程。大數據4V之一的「資料正確性」(veracity)遠比我們想像中的重要。

                  蘇宇暉(台科大管研所博士生)、羅凱揚(台科大兼任助理教授)

arrow
arrow

    TMR 發表在 痞客邦 留言(0) 人氣()