|
1. 認識 大數據分析大數據的源起
「儲存成本」與「資料取得成本」因科技進步而大幅下降,造就了這個年代大數據的興起。30 年前,1 TB 檔案存儲的成本為 16 億美金,如今一個 1 TB 的硬碟不到 100 美金。 同時間,全球各行業的資料量成長更是急速攀升;根據預估,從 2013 年至 2020 年間將成長 10 倍的資料量,資料總量將從 4.4 ZB 增加至 44 ZB 。
以天文學為例, 2000 年美國太空總署在新墨西哥州發起的史隆數位化巡天(Sloan Digital Sky Survey)專案啟動時,望遠鏡在短短幾周內收集到的資料,已經比天文學歷史上總共收集的資料還要多。在生物醫學領域,新型的基因儀三天內即可測序 1.8 TB 的量,使的以往傳統定序方法需花 10 年的工作,現在 1 天即可完成。 在金融領域,以銀行卡、股票、外匯等金融業務為例,該類業務的交易峰值每秒可達萬筆之上。
Google 每天要處理超過 24 千兆位元組的資料,這意味著其每天的資料處理量是美國國家圖書館所有紙質出版物所含資料量的上千倍。
Facebook 每天處理 500 億張的上傳相片 ,每天人們在網站上點擊”讚”(Like)按鈕、或留言次數大約有數十億次。
YouTube 的使用者人數已突破十億人,幾乎是全體網際網路使用者人數的三分之一,而全球的使用者每天在 YouTube 上觀看影片的總時數達上億小時。
在 Twitter 上,每秒鐘平均有 6000 多條推文發布,每天平均約五億條推文。
千禧年開始,天文學、海洋學、生物工程、電腦科學,到智慧型手機的流行,科學家發現:仰賴於科技的進步(感測器、智慧型手機),資料的取得成本相比過去開始大幅地下降──過去十多年蒐集的資料,今朝一夕之間即能達成。
也因為取得數據不再是科學研究最大的困難,如何「儲存」、「挖掘」海量數據,並成功地「溝通」分析結果,成為新的瓶頸與研究重點。 接下來,我們將進一步介紹大數據的定義、特性,與發展重點。大數據意指資料的規模巨大,以致無法透過傳統的方式在一定時間內進行儲存、運算與分析。 至於「大」是多大,則各家定義不一,有兆位元組(TB)、千兆位元組(PB)、百萬兆位元組(EB)、甚至更大的規模單位;然而若真要找到符合這麼大規模數據量的企業倒也是不容易。 事實上,根據 451 Research 的資料科學家 Matt Aslett,他將大數據定義為「以前因為科技所限而忽略的資料」,討論這些以前無法儲存、分析的資料。
|
|