「大數據」讀書心得報告 王金朗
壹、簡介:
一、作者簡介
麥爾荀伯格 Viktor Mayer-Schonberger
牛津大學網路研究所 教授,並擔任微軟、世界經濟論壇等大公司和組織的顧問,是大數據(巨量資料)領域公認的權威, 寫過八本書以及上百篇專論。
庫基耶 Kenneth Cukier
《經濟學人》雜誌資料編輯,巨量資料思潮評論員,經常於《紐約時報》、《金融時報》、以及《外交事務》期刊發表財經文章。
二、譯者:林俊宏
出版社:天下文化
出版日期:2013/05/30第一版、 2013/09/30第一版第11次印行
書的連結:http://www.books.com.tw/products/0010587258
出版社:遠見天下文化出版股份有限公司
大數據、巨量資料或者海量資料,談的其實都是同一件事,也就是近年來在資訊領域相當火熱的工具。根據維基百科的詮釋,Big Data(大數據)指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。
網路上每一筆搜尋、交易,或者大家敲打鍵盤、點擊滑鼠的每一個輸入都是數據,把這些資訊整理起來分析排行,它的功能可不僅僅止於事後被動了解市場,蒐集起來的資料還可以被規畫,引導開發更大的消費力量。
一般而言,Big Data(大數據)包括了三種層次,也就是巨量、即時性和多樣性。前兩者比較容易理解,不需太多解釋;而多樣性則主要是指資料的樣貌非常多元,包括結構與非結構化的部分,像是文字、影音和點擊,當然也包括專門用來統計的日誌檔(Log files)。
市面上,隨著Big Data愈來愈熱門,相關的書籍也愈來愈多了,每本的方向和主題也都不太一樣。而由麥爾荀伯格(Viktor Mayer-Schonberger)和庫基耶(Kenneth Cukier)這兩位專家所合寫的《大數據》,主要在談三種大數據時代的新思維。
第一種新思維是「樣本=母體」,過去我們習慣用抽樣的方法來推估母體的全貌,蒐集資料的方式不但曠日廢時,而且還需要花費極大的金錢、人力,造成成本很高,所以統計學有很大一部分在嘗試解決抽樣的問題,不同的抽樣方式會造成不同的結果(誤差多少啦 信度多少 效度多少...離統計學太遠了,現在想掰都掰不出來了),但現在的資訊技術已經有能力掌握全體資料,自然也就可以從龐大的數據中去爬梳隱匿的真相。這本書就是告訴你,可以把統計學(關於抽樣那部分)給扔了,來迎接大數據的時代吧,現代人掌握的數據資料之龐大,樣本=母體、面對大數據的時代,要如何更新思維,掌握重點,就是本書想要傳達的訊息。
第二種新思維是「擁抱不精確」,什麼叫做「先求有,再求好」,在Big Data(大數據)的時代,資料數量比資料品質更為重要。換言之,我們要能夠容忍資料不準確,因為這就是擁抱Big Data必須付出的代價。
第三種新思維則是「找到相關性,不再追求因果關係」,「追求相關性」的做法已經被普遍應用在許多購物網站,也由於有巨量資料的佐證,也讓這些智能推薦愈來愈準確。
透過這三種思維的轉換,不只讓我們理解Big Data(大數據)的重要性,感受到這股浪潮所帶來的衝擊和影響。我們都活在資訊爆炸的碎片化的時代,學習和巨量資料共處,也將是吾人必須學習的課題。
留言列表