筆者認為這波數據浪潮起源於2011年Google 啟動了一個專案Google Brain,這個項目是由著名的斯坦福大學機器學習教授Andrew Ng和在大規模計算機系統方面的世界頂尖專家Jeff Dean共同主導,
用16000個CPU Core的並行計算平台訓練一種稱為“深層神經網絡”(DNN ,Deep Neural Networks)的機器學習模型,在語音識別和圖像識別等領域獲得了巨大的成功。
事實上機器學習的分支深度學習能有出類拔萃的效果有個重要的原因
大量的學習數據在背後支持。而也因Google推動此項目讓整個世界認識到
數據的重要性。進而推動整個世界開始的盡可能地收集數據,產生一系列的變化。引發了這波數據浪潮推動數據革命。
前言
西元2011,全球開始掀起了一波數據的浪潮,以Google為首推出各式各樣的 科技應用開始影響你我的生活,在2016年AlphaGo 擊敗圍棋世界冠軍李世乭 震驚世界,靠的不是優異的演算法,而是大量的數據。人工智慧開始廣泛出 現我們的生活之中,臉部辨識作安全防護,用在醫療可以辨識乳癌或是骨折 協助醫生判斷。然而人工智慧的高速發展,可預期的是在未來會取代許多工 作,而在這可預見的未來我們又該如何面對?
快速了解數據與大數據是什麼
在了解數據浪潮之間,先了解數據與大數據的定義。
數據
- 數據是指對客觀事件進行記錄並可以鑑別的符號,是對客觀事物的性質、狀 態以及相互關係等進行記載的物理符號或這些物理符號的組合。它是可識別 的、抽象的符號
資訊
- 數據搭載資訊,可以拆解數據得到有用的資訊。
大數據
- 大數據的定義須滿足以下三個特性
- 資料量Volume
- 多樣性Variety
- 速度(即時性)Velocity
資料量Volume 有以下兩種說法:
- 數據的數量必須足夠多,可以完整描述一個事件或是事物。
- 數據量大到無法用傳統的資料儲存以及處理方法,通常這個量級會到PB規模以上
多樣性Variety
- 數據包含文字、影像、語音、搜尋行為等等
速度(即時性)Velocity
- 數據的傳輸速度,或是指數據的即時性,這個即時性端看各產業特性為主。
一張公開照片,讓日本人賺進大量財富
中國1959年9月26日發現大慶油田,該油田是中國第一大油田,蘊藏量更是當時世界前十大油田。大慶油田有效解決 中國國內的石油缺口,因此當時中國極力封鎖這個消息,保密做得非常好。 而在1964-1966年前後大慶油田產量提高,因此需要更多的設備跟煉油廠, 中國準備向全世界發出購買設備的需求,然而就當全世界對中國的大慶油田認識不足,要搶下訂單必須掌握以下兩個關鍵
- 大慶油田位置
- 大慶油田現在的產量?
就在各個競標廠商都在思考要如何獲得關鍵資訊時,日本的情報人員卻透過
上面這張照片,推敲出關鍵資訊。
原來日本情報專家根據這張照片解開——大慶油田的秘密:
1.分析出大慶油田位於齊齊哈爾與哈爾濱之間。
2.通過照片中王進喜所握手柄的架式,推斷出油井的直徑。
3.從王進喜所站的鑽井與背後油田間的距離和井架密度, 推斷出油田的大致儲量和產量。
日本三菱重工透過此情報掌握中國的需求,因此打造出最 符合中國所要求的設計設備獲得中國的訂單,賺取了巨大的利潤。
一張照片可以隱藏的這麼多的資訊,這就是數據的力量。
數據是21世紀的石油
掌握數據,就像擁有油田,然而要能夠將石油轉化成各種產品的能力也是至關重要的。以下透過幾個故事讓各位了解擁有數據以及解析數據能力能夠產生多大的力量。
百貨公司比你還了解你的家人
美國知名百貨公司Target應用數據分析,發現懷孕的女性顧客他們購買的商品會有趨勢與一致性。反過來推測購買商品來預測女性顧客是否懷孕,進而發送孕婦專屬商品的折 價券給懷孕的顧客,大幅有效提升銷售率。
而也正是這套推薦系統引發了以下的故事
有一天一名男子氣沖沖跑到百貨公司,手持著 Target 用電郵寄出的購物優惠券,但購物的內容卻已經有所預設﹕一些孕婦用品的優惠。那名男子原來是一少女的父親,因在其女兒的電郵信箱上收到 Target 寄來的優惠券,很不滿意地質問店員為何向他的女兒寄出如此有意圖的「鎖定式推廣」,其意思是否 Target鼓勵他的女兒嘗試懷孕?當下店長向該男子道歉,表示公司可能系統出錯,對其造成困擾表達歉意。 幾天後男子回到百貨公司,語帶愧疚地向店長道歉。原來她的女兒真的懷孕了,而Taget的推薦系統是根據她女兒的購買組合預測到可能該名顧客懷孕了,進而推薦。
GOOGLE翻譯團隊的第一次亮相,就讓世界震驚
故事要從2005年的二月說起。美國國家標準與技術研究所舉辦的評鑑和交流會,
其中Google的機器翻譯團隊是第一次參加,其他的團隊不是過去曾經取得很好的成績,比如德國亞琛工學院,就是研究的歷史非常長。比如IBM和SYSTRAN,因此在測試前誰也沒關注Google團隊。
當年評鑑結果出來後,讓除了Google以外的所有人都大吃一驚,在所有四項評鑑中從來沒做過機器翻譯的Google,比其他研究團隊的系統領先了一大截
在當時所有人都想知道Google的秘密武器到底是什麼。
原來Google用了大量的數據。當時科學家都清楚數據的重要性,但是在過去不同的研究組之間能使用的數據通常只相差兩三倍,對結果即便有影響也差不了多少。
但Google機器翻譯用的數據量卻是上萬倍的數據時,量變引發了質變。
數據的力量,擁有足夠多的高品質數據,就能夠引發質變,如同現在的人臉辨識。
亞馬遜的提高營收的秘密武器
亞馬遜擁有大量的客戶消費資訊,數據是21世紀的石油,他們自己有石油,也會提煉最終產生大量的收益
亞馬遜的商品推薦系統,能夠讓整體營收提高10-20個百分點,這個比例依照
亞馬遜2017年 電商營收2000億美元,提高10個百分點就是200億美元!!
數據是21世紀的石油,懂得挖掘石油,還要懂得提煉,就能夠帶來龐大的財富
我們該如何面對這波數據浪潮
數據浪潮掀起的數據革命可以媲美18世紀末的工業革命對人類帶來天翻地覆的影響。
而我們如果能夠正確認識數據的力量,學習解讀數據、應用數據,就能夠在這波浪潮之中找到立足點。
成為資料工程師/資料科學家都是一個不錯的職業,筆者認為學會分析數據的技能在未來肯定會是搶手的人才。
結尾
這波數據的浪潮的來臨好比十八世紀的工業大革命,會大幅改變人類的生活,對某些職業造成影響,然而卻也帶來更多的可能性。了解數據,認識數據能夠更好的讓這波浪潮推著我們前進。
這波數據浪潮僅是開始,將會持續影響我們的生活。