「大數據」讀書心得報告－南投縣榮民服務處

「大數據」讀書心得報告 王金朗

壹、簡介：

一、作者簡介

麥爾荀伯格 Viktor Mayer-Schonberger

牛津大學網路研究所教授，並擔任微軟、世界經濟論壇等大公司和組織的顧問，是大數據（巨量資料）領域公認的權威，寫過八本書以及上百篇專論。

庫基耶 Kenneth Cukier

《經濟學人》雜誌資料編輯，巨量資料思潮評論員，經常於《紐約時報》、《金融時報》、以及《外交事務》期刊發表財經文章。

二、譯者：林俊宏

出版社：天下文化

出版日期：2013/05/30第一版、 2013/09/30第一版第11次印行
書的連結：http://www.books.com.tw/products/0010587258

出版社：遠見天下文化出版股份有限公司

大數據、巨量資料或者海量資料，談的其實都是同一件事，也就是近年來在資訊領域相當火熱的工具。根據維基百科的詮釋，Big Data（大數據）指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具，在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。

網路上每一筆搜尋、交易，或者大家敲打鍵盤、點擊滑鼠的每一個輸入都是數據，把這些資訊整理起來分析排行，它的功能可不僅僅止於事後被動了解市場，蒐集起來的資料還可以被規畫，引導開發更大的消費力量。

一般而言，Big Data（大數據）包括了三種層次，也就是巨量、即時性和多樣性。前兩者比較容易理解，不需太多解釋；而多樣性則主要是指資料的樣貌非常多元，包括結構與非結構化的部分，像是文字、影音和點擊，當然也包括專門用來統計的日誌檔（Log files）。

市面上，隨著Big Data愈來愈熱門，相關的書籍也愈來愈多了，每本的方向和主題也都不太一樣。而由麥爾荀伯格（Viktor Mayer-Schonberger）和庫基耶（Kenneth Cukier）這兩位專家所合寫的《大數據》，主要在談三種大數據時代的新思維。

第一種新思維是「樣本＝母體」，過去我們習慣用抽樣的方法來推估母體的全貌，蒐集資料的方式不但曠日廢時，而且還需要花費極大的金錢、人力，造成成本很高，所以統計學有很大一部分在嘗試解決抽樣的問題，不同的抽樣方式會造成不同的結果(誤差多少啦信度多少效度多少...離統計學太遠了，現在想掰都掰不出來了)，但現在的資訊技術已經有能力掌握全體資料，自然也就可以從龐大的數據中去爬梳隱匿的真相。這本書就是告訴你，可以把統計學(關於抽樣那部分)給扔了，來迎接大數據的時代吧，現代人掌握的數據資料之龐大，樣本=母體、面對大數據的時代，要如何更新思維，掌握重點，就是本書想要傳達的訊息。

第二種新思維是「擁抱不精確」，什麼叫做「先求有，再求好」，在Big Data（大數據）的時代，資料數量比資料品質更為重要。換言之，我們要能夠容忍資料不準確，因為這就是擁抱Big Data必須付出的代價。

第三種新思維則是「找到相關性，不再追求因果關係」，「追求相關性」的做法已經被普遍應用在許多購物網站，也由於有巨量資料的佐證，也讓這些智能推薦愈來愈準確。

透過這三種思維的轉換，不只讓我們理解Big Data（大數據）的重要性，感受到這股浪潮所帶來的衝擊和影響。我們都活在資訊爆炸的碎片化的時代，學習和巨量資料共處，也將是吾人必須學習的課題。