隨著裝載微型晶片的電子設備互連日益緊密,M2M 的定義已經擴展到人對機器(man-to-machine)、機器對人(machine-to-man)之間的通訊,數位世界和實體世界的界線逐漸模糊,愈來愈多和電腦看似毫不相干的東西,現在都能夠具備電腦運算能力並且傳送資料。
舉例來說,體積輕薄的微型電腦被廣泛應用在許多領域上,例如手錶裡插入信用卡晶片,購物時可以直接刷「錶」,而不是刷卡;或者有心血管疾病病史的患者戴上可監測心跳血壓的手錶,一天24小時隨時傳送數據資料,一旦指數發生異常,系統可以立刻發送訊息給附近的醫療院所,讓病患及早獲得必要的協助。這些可以互相「溝通」的機器正發展出新的應用層面,也正在產生更大量的資料。
Dave Cheng 猛然地張開眼睛,急忙從床上跳了下來。他用掌心搓了搓臉,希望自己快速清醒,然後打開電視新聞台,一面到浴室簡單梳洗,一面聽聽有什麼新鮮事發生。
今天應該算是個特別的日子,特別的忙碌!昨晚睡前他才利用家裡的桌上型電腦,連到公司內部網站上,再次確認今天上午他得參加兩場會議,一場部門會議,一場越洋電話會議;下午他要拜訪一家客戶;然後傍晚時飛往上海,陪老闆參加科技商展。走出家門,右轉100 公尺,到了公車站牌,Dave Cheng 檢視重要的隨身物品,筆電,帶了!護照,帶了! 20 吋登機箱,右手正拖著!萬事齊備。
看了看手錶,時針指向七點整,站牌前等公車的人開始多了起來。三分鐘過後,他有些小小地不耐,拿出手機點進「等公車」APP(手機應用程式),APP 上顯示公車再過2 分鐘就會到站,他這才安心。場景轉到3 分鐘後的公車上,乘客有六成以上都是高中生,幾乎每一個人都是低頭族,時不時聽到傳送LINE 訊息時發出的叮叮聲。Dave Cheng 也打開臉書(Facebook),回了幾個朋友的搞笑發文,按了幾個讚。
二十分鐘後公車到站,他先到附近的便利商店,買了份三明治加無糖豆漿的49 元超值早餐,然後打電話給女朋友說早安。八點鐘走進公司、打開電腦,趁著老闆還沒來,Dave Cheng 一邊吃早餐,一邊瀏覽著線上電子報。半小時過去,他讀了二篇關於歐債的報導,一篇明星八卦,還順便查看了一下星期五晚上有什麼新電影可看。
然後,他點進公司的專屬信箱,確認昨晚外國客戶已經收到了報價單,再看看有沒有什麼緊急郵件要處理,通常是沒有,今天也不例外!八點半過後,同事們陸續到了,Dave Cheng 開啟MSN和Skype,敲了消息靈通的Tom,問他對於公司最近進行的人事變動有沒有什麼小道消息,在閒扯中等著九點鐘的部門例行會議。截至目前為止,你是不是覺得有些平凡無趣?的確,Dave Cheng的生活和一般上班族沒什麼兩樣,但你沒注意到的是,光是從起床到公司上班的這兩個小時內,他平凡的個人行為,已經產生了數億個位元的資料,而且隨著時間過去,還在不斷增加中。
不斷增生的資料巨浪
使用手機APP 程式、上網到臉書按讚、或者是講電話,都有無數的數據資料跟著產生,即使是到便利商店買東西,店內的POS(Point of Sale,電腦銷售點管理)系統也正記錄著每一筆消費資訊,更別提他上網漫遊時所點擊的網頁、MSN 回覆的訊息,這些軌跡通通都是數據資料。
在這個數位化的世界裡,一天24 個小時,一年365 天,人們無時無刻都在生產著各種資料微粒。只要是使用手機、電腦、信用卡⋯⋯,都會產生並傳送出無數關於我們的資料,就算是用行動電話發送一個笑臉符號給朋友,在你還沒來得及把手機放回口袋中的一兩秒間,這個小小的動作就已經穿過光纖網路,發射到衛星上,抵達遠在數千公里外的某個伺服器裡,變成資料紀錄下來。
在這個數位化的世界裡,一天24 個小時,一年365 天,人們無時無刻都在生產著各種資料微粒。只要是使用手機、電腦、信用卡⋯⋯,都會產生並傳送出無數關於我們的資料,就算是用行動電話發送一個笑臉符號給朋友,在你還沒來得及把手機放回口袋中的一兩秒間,這個小小的動作就已經穿過光纖網路,發射到衛星上,抵達遠在數千公里外的某個伺服器裡,變成資料紀錄下來。
只要活在世上,每一天,我們「生產」的數位檔案就會愈來愈多。如果位元肉眼可見,那麼我們每一個人都像是採蜂人一樣,身上附裹著一層又一層、厚厚的位元資料。
再繼續觀察下午三點, 正坐在客戶公司會議室裡的Dave Cheng,從兩個小時前銀行保全監視攝影機捕捉到的影像,以及ATM(自動櫃員機)的紀錄上,可以知道他提領了五萬元;從一個小時前信用卡的簽單紀錄上,可以知道他喝了兩杯咖啡,而行動電話公司利用他的發話紀錄定位,發現他的活動範圍幾乎都在東區,短短兩個小時,又是好幾億位元資料的產生。
Big Data 新世界
我們所面對的,不只是一群隨時產生資料的個人,更是一個不斷被資料淹沒的Big Data(海量資料)新世界。每一秒,一家大型醫院會產生12萬筆生理健康數據;每一分鐘,YouTube 網站上傳影片的總長有72 小時;每一天,一家銀行要處理500 萬筆信用卡交易、一個推特(Twitter)網站上有2.3 億條推文(Tweets)。如果再加上全世界同一時間約有超過5 億支智慧型手機、10億台電腦和數兆個感測器同時運作,所產生的各種文字、聲音和圖片資料,每一天製造出來的資料量估計高達25 億GB(吉位元組),等於要用4000 萬台64GB的iPad 才能裝載。而且,光是過去兩年,人們製造的資料就佔了當今全球資料總量的90%。
依照這種每年約50%的增長速度計算,科技研究公司IDC 估測,到了2020 年全球資料總量將增長44 倍,達到35.2ZB(澤位元組,相當於1 兆GB)。如果把這些資料全都裝在64GB iPad 裡,這些iPad 疊起來的高度足足可堆出超過13 萬座玉山。
ZB 到底有多大?有人形容ZB 等級的資料量就像全世界海灘上的沙子數目一樣多,更驚人的是,它還在不斷蔓延!如果以每一分鐘在網路世界流動的資訊量來看, 當你打上關鍵字, 按下「Google 搜尋」的這一刻,其實你只是200 萬人其中的1 人;當你寫好Email,按下「傳送」的那一剎那,這封電子郵件也只是2 億封的其中1 封。
其他更驚人的一分鐘網路數據資料包括:
● Facebook 上產生超過68 萬條內容
● 超過27 萬美元的網路購物交易
● 蘋果商店裡的APP 被下載達4 萬7 千次
● Flickr 用戶分享了3,125 張照片
● 有217 名行動網路新用戶誕生
請記得,上述的數據只是現況,而未來呢?思科視覺網路指數(Cisco Visual Networking Index)發現,以前人們只用電腦上網,但現在,透過電腦、手機、平板電腦等多種設備隨時上網的生活型態,已逐漸成為文明世界的常態。 2011 年,全球網路連線設備為103 億個,以地球上的70 億人口計算,每個人分配到1.4 個,2016年前網路連線設備總數將成長至189 億個,等於每人約有2.5 個。
在台灣,每個人擁有一台桌上型電腦、一台筆記型電腦、一支智慧型手機,是再普通不過的基本配備,現在可能還要加上一台平板電腦。而人們「隨時on line」也讓全球網路流量正以一年成長1ZB 的速度增加當中,2016 年前將達到1.3ZB,平均流量將達到每秒245TB(太位元組),
相當於有 200 萬人同時間觀看HD 影片。為什麼資料量暴增的速度會這麼快?因為這個世界已經變了,變得感知化(instrumented)、物聯化(interconnected) 和智能化(intelligent)。簡單來說,所有的物體,包括風、流水、空氣中的濕度,都能被感測,這就是感知化;感測過程中產生大量的數據,需要輸送到後台進行處理,這就是物聯化;而獲取數據只是一個手段,最終目的是要從龐雜巨量的數據資料中,分析出有用的資訊,幫助人們做出決策,這就是智能化。
而這三個「i」,也分別反映了資料來源、傳送方式和使用方法的改變。
感知化(instrumented)的世界
「感知化」指的是資料來源的變化。你或許沒有感覺到,大量內建晶片、感測器、RFID(無線射頻晶片)等具有「電子神經」的感知設備產品,其實已經遍布在我們的生活周遭。2011 年,全球嵌入的晶片、感測器、RFID 標籤的電子設備,初估超過一兆個,世界上的每一個人平均約擁有10 億個晶片。這些無所不在的電子設備也是增加速度最快的資料來源。
電子設備與物品相互連接、成為網絡的「感知化」現象,使得人們可以更靈敏地、更全面地感知物理的世界,促成這個改變的最大原因是電晶體(transistor)技術的突破與普及。1947 年電晶體問世,為數位時代揭開序幕,直到1980 年代,上面覆蓋著數百萬微小電晶體的小小矽晶片都還是新奇的發明。
不過,科技設備發展也的確如同摩爾定律的預測,單一矽晶片的電晶體數目,每隔十八到二十四個月增加一倍,晶片容量也會增加一倍,且成本等比例下降。循著摩爾定率發展的半導體業,讓電晶體的體積愈來愈小,晶片價格也愈來愈便宜。以電腦的大腦——微處理器來看,1994 年掀起筆電風潮的Intel-486 晶片,單價約美金300 元,當時搭載了800K 容量的電晶體;而十年後,Pentium 4 3.0 晶片,搭載55M 容量的電晶體,數目是486 的68 倍,速度是486 的120 倍,現在的售價卻比當時的486 還要便宜。
如今,一個晶片裡面已可包含數億個電晶體,平均每個晶片的成本只要十萬分之一美元。售價只有幾塊美元的音樂生日賀卡,其運算效能早已超越了數十年前最快的大型主機,從個人電腦、行動電話、電視遊樂器,到汽車(內含GPS 導航系統)、寵物項圈(內含身分辨識功能),全都有這些便宜晶片的身影。愈來愈多晶片,「植入」我們的生活之中,記錄它們接收到的每一個指令。其中,也有極大量的晶片被製成感測器與電子標籤,再置入到監控攝影機、大樓溫溼度感應器、醫院檢查儀器、風力發電機和大賣場中的無線射頻辨識系統(RFID)中,各式各樣、總數上兆的電子設備,不受時間限制地感測著人們工作、購物和休閒的各項動態。
例如這兩年來,全世界的電力公司為了節省能源,戮力研發的智慧型電表,就運用了大量的感測器,一天24 小時不停歇地測量、擷取和傳輸終端用戶的用電量資訊。
對消費者來說,這些電表即時反映出家裡的耗電量與電費資訊,也可依據現階段用電量估算未來24 小時的電費會增加多少,有助於用戶控制和調整用電的習慣;對業者而言,電表則變成遠端的監控感測器,幫助它隨時掌握電網供電的狀態,萬一耗電量瞬間飆高、可能超過電網負荷時,電力公司就能提早採取應變措施,大大減低了無預警停電的機率。
電表、水表、瓦斯表,這類智慧型儀表已大量被嵌入到全世界各類的器具中,不僅裝設數量驚人,而且很快就會存在於每一個人的家裡,24 小時紀錄著每一個用戶的能源消耗量,然後捕捉、測量和傳遞資料。
為了不間斷地計算流量,一個智慧型儀表需要至少每秒檢查簧片開關狀態20 次、至少每15 秒鐘就要建立一個無線資料封包、並將這些資料傳輸到無線發射器進行傳送,這也是目前最難以計數且大量增加的新資料來源。
物聯化(interconnected)的世界
「物聯化」指的是資料傳送方式的變化。根據聯合國公布的統計數字,目前全球網路的使用人口已經突破20 億大關,使用手機的人口更已突破50 億,而電腦、手機等3C 產品都可以和前面提到的上兆個,可能來自汽車、電器、道路、自來水管,甚至是食物包裝盒的感測器,彼此連結並交換資訊。
當機器與人類社會系統全面互通互連時,所創造出來的各類資料量非常龐大,也難怪有分析師估計,「M2M」(machine-to-machine,機器對機器)每年可帶動超過兩位數的資料量成長。
M2M 的運用主要是透過移動通訊(手機)為核心,對設備進行有效控制。從狹義的定義來看,M2M 是代表機器和機器之間的自動通訊,而且不只是簡單的傳輸數據而已。換言之,即使人們沒有發出信號,機器也會根據既定程式主動進行通訊,甚至根據所得到的數據做出篩選後再傳輸。
以這些資料的流動量來看,2010 年底時還只有3%的網路流量來自電視、平板電腦、智慧手機、以及機器對機器(M2M)模組等非PC 設備,但預估到了2015 年時,非PC 的網路流量將成長到13%,其年複合成長率分別為電視的101%、平板電腦的216%、智慧手機的144%、M2M 模組的258%。以成長潛力最大的M2M 來說,屆時全球會有150億台機器,可以不透過人工的介入直接互連。
目前,M2M 大多應用在遠端監視、控制、以及資料追蹤和供應鏈管理上。例如,為了因應層出不窮的食品安全問題,中國山東省商業集團正在導入一套豬肉生產追溯管理系統,這套系統廣泛使用了監測設備與運送豬肉的多元資料,從生產源頭農戶、肉品加工到零售店的整個商品流通過程全面互連。
這套系統連結了條碼、溫度和濕度感測器以及全球衛星定位系統(GPS)等不同技術的多元資料,可以對生產、流通和零售等各階段的豬肉產品狀態統一管理,如果消費者因食用豬肉而健康受損,可以立即確定銷售豬肉的店舖,也就可以儘快實施包括下架、回收等應對措失。
首先,在生產階段,屠宰場內裝設RFID 設備,收集豬隻從進場到宰殺,以及運送前各個流程處理的資料,保障肉品處理流程的效率,也避免因為某環節的疏失(如某批肉品未及時裝運)而影響肉品品質。
再者,在運送階段,運送貨車採用溫溼度感測器、GPS 與地理資訊系統(GIS),每隔一段時間傳送貨品溫溼度和所在位置回中心主系統。要是貨櫃內溫溼度不符合標準,系統便會自動提醒負責人員採取相對應的行動,及時排除問題肉品進入銷售鏈的可能。
最後,在零售階段,超市結帳人員透過產品上的條碼和櫃檯的收銀系統,一一掃描記錄每件生鮮豬肉商品銷售的時間和地點,如果真的有消費者食用豬肉後生病而通報,主管機關就可循線找到販售豬肉的店舖,並且盡快召回同批出廠的問題產品。除了豬肉之外,這套系統也將運用在海鮮和雞肉等生鮮的生產管理上。隨著裝載微型晶片的電子設備互連日益緊密,M2M 的定義已經擴展到人對機器(man-to-machine)、機器對人(machine-to-man)之間的通訊,數位世界和實體世界的界線逐漸模糊,愈來愈多和電腦看似毫不相干的東西,現在都能夠具備電腦運算能力並且傳送資料。
舉例來說,體積輕薄的微型電腦被廣泛應用在許多領域上,例如手錶裡插入信用卡晶片,購物時可以直接刷「錶」,而不是刷卡;或者有心血管疾病病史的患者戴上可監測心跳血壓的手錶,一天24小時隨時傳送數據資料,一旦指數發生異常,系統可以立刻發送訊息給附近的醫療院所,讓病患及早獲得必要的協助。這些可以互相「溝通」的機器正發展出新的應用層面,也正在產生更大量的資料。
智能化(intelligent)的世界
「智能化」則是指資料使用方式的變化。當上述感知化、物聯化的網絡被注入強大的分析、運算能力後,各種設備、機器具有比以往更高的人工智慧,也因而改變了資料使用與處理的方法。
在運算技術的創新突破下,散布在四面八方的終端電子產品和感應器等各式設備,和後端的電腦連結之後,資料被大量地、系統性地解構、處理,再加上新型運算架構的興起,如雲端技術,或是把傳統電腦叢集起來形成的平行運算架構的Hadoop(參考第十三章),就能夠整合和分析跨越不同地理區域、產業和領域的大量資料,進行複雜的分析、統整、演算和預測。
以2011 年在美國知名的益智搶答競賽《危險境地!》(Jeopardy)中,打敗人腦的超級電腦「華生」(Watson)為例,在經過三天激戰、一次當機之後,它最後擊敗了兩位該節目史上兩位最強的高手詹寧斯(Ken Jennings)及拉特(Brad Rutter),贏得百萬美元獎金,也改寫了超級電腦的歷史。
華生是以2,800 個處理器核心、16 兆位元組的工作記憶體運轉,每秒運算能力高達80 兆次。得知問題之後,它得先針對句子中的名字、資料、地理位置或其他條件,運用600 萬條邏輯指令層層分析才能找到正確答案,而找到答案之後,還要快速控制金屬手指按鈴搶答。
而且,即使華生內建了2 億頁、4 百萬位元組的百科知識庫,但它不僅要熟知重要的歷史人物、文學、科學、藝術、娛樂及遊戲策略等知識,還要了解笑話、雙關語、諷刺語及謎語等隱喻,才有可能答對這些複雜甚至藏有陷阱的題目。
我們以比賽中的題目之一為例,「以色列的摩西. 戴陽(Mosche Dayan)是以什麼裝飾讓全世界都認識?」以電腦的運算方式來說,華生要先確認「戴陽是一個地方嗎?還是一個人名?或是一處《聖經》提過的聖蹟?」之後它要從以色列軍隊、名人語錄、甚至穿著風格等來判斷這是一個人名,在從數百種可能的答案中挑出一項正確答案。
這位以色列前國防部長戴陽將軍的左眼眼罩是他的著名象徵,華生必須在3 秒鐘以內回答出正確答案才有機會獲勝,而華生做到了。你可能不知道,這個益智節目中所抽樣的兩萬個問題中,有高達2500 種題目類型,而要回答其中一個簡單的問題,一般電腦則要花兩小時,原因就在於聽得懂人類語言、能夠和人類談話對電腦來說難如登天。
要電腦了解語言變化遠比關鍵字搜尋困難太多了,因為人類在日常溝通時就常常語意模糊、不精確。以一道華生答錯的題目為例,題目是「有一本小說的書名及一九五七年一部電影的片名靈感都來自於這個東西,且它橫跨湄公河(Mae Khlung)」。答案是《桂河大橋》,但其實華生沒答對是很合理的,因為其實桂河大橋並不如題目所說的橫跨湄公河,而是建造在桂河上,而桂河則是湄公河的支流。
我們不能說電腦已經打敗了人腦,因為華生還無法在詞彙有謬誤時精準地除錯,在比賽過程中的按鈴速度也常常比人類對手慢上一步,但它的確證明了機器不僅能收集、儲存龐大的資料,還已經能像人類一樣思考。事實上,我們日常生活裡擁有的終端設備,也已經有了不同程度的「智慧」,判斷哪些程式或功能的使用狀況,或是或該用什麼方式傳送與處理資料。
讓資料不只是資料
這就像是在智慧型手機安裝了各式各樣的APP 應用程式,有些APP 需要傳輸和處理資料,例如天氣預報APP 需要連結氣象局的資料系統,或是運用衛星定位系統呈現用戶所在地的衛星雲圖。
相較之下,手機裡內建的單機小遊戲或是記事本等程式,就不必傳輸或處理這麼大量的資料。
相較之下,手機裡內建的單機小遊戲或是記事本等程式,就不必傳輸或處理這麼大量的資料。
智慧型手機之所以「智慧」,是因為它有判別能力。在處理過程中,不是每筆資料都值得分析,也不是每一次分析資料都要動用到全部的運算力,因此在資料送入分析之前,資料源頭的設備和資料匯集的節點(Node),如果可以有智慧地「清洗」一些不需要或不合格的資料,再送往後端平台中進行處理,分析和演算的效能和結果,參考價值將會更高。
以銀行服務為例,同一個客戶在某銀行的網路平台購買基金,也在同一家銀行臨櫃存款,對於銀行的核心電腦來說,網銀和臨櫃系統的設備就像兩條並行的神經線一樣,各自傳導著同一個客戶不同的交易資訊。如果在這兩條神經線連結時的節點,就可以去除資料的雜質且分門別類,主核心電腦的分析效能會更高。例如,客戶英文姓名統一採前姓後名的格式、客戶ID 都以身分證字號而非出生年月日為準、郵遞區號統一採五碼而非三碼的格式等,再連到大腦(主核心電腦),大腦不用浪費時間和效能進行重複比對,就知道這是同一個人的資料。如此一來,資料分析出來的結果也會更即時、更準確。
如果機器無法智能化,即使有了「感知化」與「物聯化」的設備,被產生、收集和傳送的資料也只能被儲存下來,而無法用來分析和輔助決策,那麼,資料就永遠是資料。但也是因為機器被賦予了更高的智慧,產生了更多的思考結果,更多的資料也隨之而生。
時代變革的起點
在感知化(instrumented)、物聯化(interconnected)和智能化(intelligent)的交會下,就好像把調節水量的三道閘門同時開啟一樣,遍及各處的資料量,從原本的潺潺細流匯流成磅礡大川,再傾洩灌入一片無邊無際的數據海。
在如此巨量的資料衝擊下,這已經不是一個簡單的數據增加問題,而是一場量變形成質變,足以匹敵20世紀科技革命的巨大變革。2012 年2 月,物理學家邁爾斯( Mark P. Mills)和美國西北大學應用科學院長歐提諾( Julio M. Ottino)在《華爾街日報》撰文,認為100 年前出現了電氣化、電話、汽車、不銹鋼和無線電放大器等機器,改變了人們的生活方式。時隔100 年,我們再度站在時代變革的起點。而再次改變世界的推力之一,就是伴隨著無數機器而來的海量資料分析(Big Data)。
哈佛大學量化社會科學學院(Institute for Quantitative Social Science)院長蓋瑞金(Gary King)認為,龐大的新數據來源所帶來的轉變,將在學術界、企業界和政界中迅速蔓延開來,沒有哪一個領域會不受到影響。而巨量數據資料的處理能力將使以往無法想像的服務和業務成為可能,進一步改變人們的生活方式,甚至引領新一波的經濟繁榮。
2012 的倫敦奧運才落幕不久,令大家驚艷的不僅是精采的賽事,還有歷史悠久的英倫之都,如今已運用海量資料蛻變成一個智慧之城。
擁有149 年歷史的倫敦地鐵,11 條路線全長超過400 公里,沿線建有270 座車站,每年運送10 億人次。為了讓地鐵幹線正常運行,倫敦地鐵裡的每輛火車都有GPS,月臺上的乘客隨時可以在顯示牌上了解下一趟車的抵達時間;月臺上佈滿無數的感測器,將等候的乘客人數提供給控制中心,讓調度人員可以靈活控制車次和出車時間間隔。
同時,為了快速得到最新的流動資訊(例如進出站人數、等候人數),倫敦地鐵站內也鋪設了無線區域網路(Wi-Fi),而現在,任何人都可以在地鐵站裡透過免費的Wi-fi,用手機查看地鐵即時動態地圖,以及接收各種地理位置的便利資訊;博物館、藝術中心、歌劇院、或是酒吧也都有相應的地理資訊APP,各種文化、藝術、科學等資源,也全都可以透過無線網路獲得豐富而詳盡的免費資料。
從地鐵站走到街上。倫敦是歐洲第一個對汽車進入市中心要額外課稅的城市。由於交通擁塞,人們可以在停車高峰時段,用手機上網即時查詢停車位的空置情況,並且下單預訂停車位,因為只要隨意停車,倫敦交警會用掌上型電腦在你車前的條碼上掃描一下,包括這輛車的車速、停車紀錄、未繳費紀錄等各種資訊全都無所遁形,幾秒後罰單就從員警手中的小型電腦裡直接列印出來。
另一方面,為了因應奧運期間湧入的百萬遊客,倫敦街頭設置了超過100 個配置液晶螢幕的智慧型垃圾桶,與Wi-Fi 相連,不僅可以指示民眾如何分類處理垃圾,還可以顯示天氣、氣溫、時間、股市行情等,裡面內藏的微型攝影機也可以防止街頭犯罪和恐怖攻擊。
倫敦以大量資料和科技設備建構了一個數位化的智慧城,但伴隨而來則是更大量的資料,為此倫敦市政府建立一個城市網路資料中心。每一個公務員都要把公共資料丟進這個包括交通、安全、經濟發展和旅遊業的開放式資料庫裡。民眾可以從這裡取得交通擁堵資料的即時更新、地鐵業務指南,或是自行車出租計劃的取車地點分佈,也可以自行經過切割和分流,將這些資料放到自己的個人電腦和其他電子裝置裡,進行商業開發。
例如有一個名為WhereDoesMyMoneyGo.org(我的金錢去向何方)的網站,就專門追蹤民眾稅金的流向,而這也使得倫敦公共建設的成本和得標價格非常透明。倫敦市政府認為,把這些資料移交給能夠把事情做好的人,比城市直接提供那些服務的成本更低,後來甚至推出電子商務化的資料商店(Data Store),向開發者提供多種API(Application Interface,應用程式介面),激勵創新開發。
新世界的新競爭力
在如此巨量的資料衝擊下,這已經不是一個簡單的數據增加問題,而是一場量變形成質變,足以匹敵20世紀科技革命的巨大變革。2012 年2 月,物理學家邁爾斯( Mark P. Mills)和美國西北大學應用科學院長歐提諾( Julio M. Ottino)在《華爾街日報》撰文,認為100 年前出現了電氣化、電話、汽車、不銹鋼和無線電放大器等機器,改變了人們的生活方式。時隔100 年,我們再度站在時代變革的起點。而再次改變世界的推力之一,就是伴隨著無數機器而來的海量資料分析(Big Data)。
哈佛大學量化社會科學學院(Institute for Quantitative Social Science)院長蓋瑞金(Gary King)認為,龐大的新數據來源所帶來的轉變,將在學術界、企業界和政界中迅速蔓延開來,沒有哪一個領域會不受到影響。而巨量數據資料的處理能力將使以往無法想像的服務和業務成為可能,進一步改變人們的生活方式,甚至引領新一波的經濟繁榮。
2012 的倫敦奧運才落幕不久,令大家驚艷的不僅是精采的賽事,還有歷史悠久的英倫之都,如今已運用海量資料蛻變成一個智慧之城。
擁有149 年歷史的倫敦地鐵,11 條路線全長超過400 公里,沿線建有270 座車站,每年運送10 億人次。為了讓地鐵幹線正常運行,倫敦地鐵裡的每輛火車都有GPS,月臺上的乘客隨時可以在顯示牌上了解下一趟車的抵達時間;月臺上佈滿無數的感測器,將等候的乘客人數提供給控制中心,讓調度人員可以靈活控制車次和出車時間間隔。
同時,為了快速得到最新的流動資訊(例如進出站人數、等候人數),倫敦地鐵站內也鋪設了無線區域網路(Wi-Fi),而現在,任何人都可以在地鐵站裡透過免費的Wi-fi,用手機查看地鐵即時動態地圖,以及接收各種地理位置的便利資訊;博物館、藝術中心、歌劇院、或是酒吧也都有相應的地理資訊APP,各種文化、藝術、科學等資源,也全都可以透過無線網路獲得豐富而詳盡的免費資料。
從地鐵站走到街上。倫敦是歐洲第一個對汽車進入市中心要額外課稅的城市。由於交通擁塞,人們可以在停車高峰時段,用手機上網即時查詢停車位的空置情況,並且下單預訂停車位,因為只要隨意停車,倫敦交警會用掌上型電腦在你車前的條碼上掃描一下,包括這輛車的車速、停車紀錄、未繳費紀錄等各種資訊全都無所遁形,幾秒後罰單就從員警手中的小型電腦裡直接列印出來。
另一方面,為了因應奧運期間湧入的百萬遊客,倫敦街頭設置了超過100 個配置液晶螢幕的智慧型垃圾桶,與Wi-Fi 相連,不僅可以指示民眾如何分類處理垃圾,還可以顯示天氣、氣溫、時間、股市行情等,裡面內藏的微型攝影機也可以防止街頭犯罪和恐怖攻擊。
倫敦以大量資料和科技設備建構了一個數位化的智慧城,但伴隨而來則是更大量的資料,為此倫敦市政府建立一個城市網路資料中心。每一個公務員都要把公共資料丟進這個包括交通、安全、經濟發展和旅遊業的開放式資料庫裡。民眾可以從這裡取得交通擁堵資料的即時更新、地鐵業務指南,或是自行車出租計劃的取車地點分佈,也可以自行經過切割和分流,將這些資料放到自己的個人電腦和其他電子裝置裡,進行商業開發。
例如有一個名為WhereDoesMyMoneyGo.org(我的金錢去向何方)的網站,就專門追蹤民眾稅金的流向,而這也使得倫敦公共建設的成本和得標價格非常透明。倫敦市政府認為,把這些資料移交給能夠把事情做好的人,比城市直接提供那些服務的成本更低,後來甚至推出電子商務化的資料商店(Data Store),向開發者提供多種API(Application Interface,應用程式介面),激勵創新開發。
新世界的新競爭力
成功運用海量資料分析打造新風貌的倫敦,已成為全英國未來十年內發展的重要依據。英國智庫政策交易所(British think tank Policy Exchange)在2012 年6 月發布報告認為,海量資料分析可為英國政府提高效率及削減浪費,一年可能省下160到330億英鎊。
美國歐巴馬政府也將海量資料分析視為下一步的國家發展戰略,白宮在2012 年3 月宣佈投資2 億美元啟動「海量資料研究和發展計劃」,包括海量資料分析以及海量資料在醫療、天氣和國防等領域的應用。白宮甚至將數據資料定義為「未來的新石油」;換言之,一個國家擁有數據資料的規模和解釋運用的能力,已成為一個國家的核心資產和國力指標。
資料分析運用的重要性對國力如此,對企業競爭力更是如此。在零售業,美國的沃爾瑪公司很早就開始利用交易資料庫來贏得競爭優勢。1969 年沃爾瑪開始使用電腦來追蹤存貨,1983 年所有門市開始採用條碼掃描系統,每一樣商品的「身分」都可以存進電腦資料庫,1987 年完成內部衛星系統,匯整全美各分店的即時資料,藉此分析顧客的購買行為。
隔年,數據資料就幫助沃爾瑪成就了一則零售業的經典傳奇。當時,管理人員分析銷售數字時發現了一個令人難以理解的現象:啤酒和尿布這兩件毫無關聯性的商品,銷售數字確有著難以理解的高度正相關,尤其是在年輕爸爸的購物車裡。後來發現,這是因為年輕夫妻的分工型態,通常是由媽媽在家照顧小孩,而爸爸外出購物,而買小孩尿布時,爸爸們通常也會帶個自己想喝的啤酒回家。沃爾瑪發現了這個獨特的現象,開始在賣場嘗試將啤酒與尿布擺放在相同的區域,讓年輕爸爸可以同時找到這兩件商品,並且很快地完成購物。調整之後,結果尿布和啤酒的銷售量雙雙增加三成。2005 年卡翠娜颶風來襲之前,沃爾瑪也用相同的邏輯,從手電筒和電池的銷售資料中分析出餡餅將會熱銷(因為颶風來襲時導致停電,所以人們特別喜歡方便食用的餡餅)而把手電筒和電池貨架移到冷凍櫃旁,業績果然也如預期增長。
西班牙品牌ZARA,則是運用資料分析引領快速時尚(FastFashion)風潮的崛起。每天,ZARA 平均賣出110 萬件衣服,透過全球資訊網路,每一件銷售出去的商品都有自己的銷售身分證(包含售價、部門、時段、客層),這些資料經由自動化程式分析出顧客的行為模式和消費喜好,做為產品的生產決策,讓ZARA最短3 天就可以推出一件新品,一年可推出12,000 款時裝。
在職業運動業,全世界獲得主要洲際賽事冠軍最多的球隊AC米蘭,也利用每一場賽事的影音檔分析球員資料,進行球員的運動損傷預防和治療管理,精準度高達70%,而在一個完整賽季中,因為球員損傷而無法比賽的天數減少了三分之二。後來,美國職棒的波士頓紅襪隊、舊金山巨人隊和密耳瓦基釀酒人隊開始跟進,甚至依此模式發展了一套3D 影像特訓法,把對手和自家選手的影像檔變成3D 顯像,可以從任何方向觀看、向前轉和倒轉,並加以解析,打者可以反覆比對同一投手的不同球路,或是利用3D 眼鏡和擬真的動畫對手(動作依特定真實對手的統計數字量身打造)對戰,以增進球員的戰力。而在公共領域中,資料分析的預測能力也正在開發當中。
美國歐巴馬政府也將海量資料分析視為下一步的國家發展戰略,白宮在2012 年3 月宣佈投資2 億美元啟動「海量資料研究和發展計劃」,包括海量資料分析以及海量資料在醫療、天氣和國防等領域的應用。白宮甚至將數據資料定義為「未來的新石油」;換言之,一個國家擁有數據資料的規模和解釋運用的能力,已成為一個國家的核心資產和國力指標。
資料分析運用的重要性對國力如此,對企業競爭力更是如此。在零售業,美國的沃爾瑪公司很早就開始利用交易資料庫來贏得競爭優勢。1969 年沃爾瑪開始使用電腦來追蹤存貨,1983 年所有門市開始採用條碼掃描系統,每一樣商品的「身分」都可以存進電腦資料庫,1987 年完成內部衛星系統,匯整全美各分店的即時資料,藉此分析顧客的購買行為。
隔年,數據資料就幫助沃爾瑪成就了一則零售業的經典傳奇。當時,管理人員分析銷售數字時發現了一個令人難以理解的現象:啤酒和尿布這兩件毫無關聯性的商品,銷售數字確有著難以理解的高度正相關,尤其是在年輕爸爸的購物車裡。後來發現,這是因為年輕夫妻的分工型態,通常是由媽媽在家照顧小孩,而爸爸外出購物,而買小孩尿布時,爸爸們通常也會帶個自己想喝的啤酒回家。沃爾瑪發現了這個獨特的現象,開始在賣場嘗試將啤酒與尿布擺放在相同的區域,讓年輕爸爸可以同時找到這兩件商品,並且很快地完成購物。調整之後,結果尿布和啤酒的銷售量雙雙增加三成。2005 年卡翠娜颶風來襲之前,沃爾瑪也用相同的邏輯,從手電筒和電池的銷售資料中分析出餡餅將會熱銷(因為颶風來襲時導致停電,所以人們特別喜歡方便食用的餡餅)而把手電筒和電池貨架移到冷凍櫃旁,業績果然也如預期增長。
西班牙品牌ZARA,則是運用資料分析引領快速時尚(FastFashion)風潮的崛起。每天,ZARA 平均賣出110 萬件衣服,透過全球資訊網路,每一件銷售出去的商品都有自己的銷售身分證(包含售價、部門、時段、客層),這些資料經由自動化程式分析出顧客的行為模式和消費喜好,做為產品的生產決策,讓ZARA最短3 天就可以推出一件新品,一年可推出12,000 款時裝。
在職業運動業,全世界獲得主要洲際賽事冠軍最多的球隊AC米蘭,也利用每一場賽事的影音檔分析球員資料,進行球員的運動損傷預防和治療管理,精準度高達70%,而在一個完整賽季中,因為球員損傷而無法比賽的天數減少了三分之二。後來,美國職棒的波士頓紅襪隊、舊金山巨人隊和密耳瓦基釀酒人隊開始跟進,甚至依此模式發展了一套3D 影像特訓法,把對手和自家選手的影像檔變成3D 顯像,可以從任何方向觀看、向前轉和倒轉,並加以解析,打者可以反覆比對同一投手的不同球路,或是利用3D 眼鏡和擬真的動畫對手(動作依特定真實對手的統計數字量身打造)對戰,以增進球員的戰力。而在公共領域中,資料分析的預測能力也正在開發當中。
四年前,Google 和美國疾病控制及預防中心合作,以關鍵字搜尋次數發展了Google Flu Trends,協助「追蹤」流感傳播趨勢,至少可以提早兩個星期掌握流感爆發的關鍵時刻。哈佛大學最近一篇醫學研究報告也發現,透過Twitter 監控海地的霍亂疫情比以傳統方式監控來得更為有效率,如果再配合政府與金融機構的數據更可以發現食物與水資源短缺的早期徵兆。
聯合國「全球脈動」(UN Global Pulse)研究計劃,更進一步利用社群網站、網路論壇和部落格發文進行「情緒分析」,預測失業率。研究中發現,失業率上升的3 個月前,網路上關於就業問題的抱怨或沮喪發言就會開始增加,而在失業率上升後的2 個月和3個月,則是房屋虧損和繳不起車貸的話題會增加,此時房地產業、汽車業的買氣也開始受到影響。
聯合國「全球脈動」(UN Global Pulse)研究計劃,更進一步利用社群網站、網路論壇和部落格發文進行「情緒分析」,預測失業率。研究中發現,失業率上升的3 個月前,網路上關於就業問題的抱怨或沮喪發言就會開始增加,而在失業率上升後的2 個月和3個月,則是房屋虧損和繳不起車貸的話題會增加,此時房地產業、汽車業的買氣也開始受到影響。
人類科學的典範轉移
海量資料分析不僅正在改變我們運作企業、制定決策、創新商業模式、管理風險的方式,同時也推動人類科學研究進入一個新典範。
為了紀念發明資料庫的著名科學家格雷(Jim Gray),微軟出版了《第四典範》(The Fourth Paradigm: Data-Intensive Scientific Discovery》一書,書中這位曾經獲得被視為資訊業諾貝爾的杜林獎得主認為,科學發展已經走過了「實驗、理論、計算」三個典範,漸漸形成以「資料」為重點的第四典範。
他主張,人類科學研究的歷史劃分為四個階段:幾千年前是實驗科學,主要是描述自然現象;過去幾百年是理論科學,描述的是物體運動現象的牛頓定律,或是描述電磁現象的麥斯威爾方程組(Maxwell's Equations);而過去幾十年,轉移到了計算科學,就像是之前所說的,以超級電腦模擬複雜的各種現象。
但到了今天,新典範是資料密集型科學,也就是理論、實驗和模擬的彙整。未來的科學發展,將取決於不同學科的研究者如何彼此合作,運用密集資料技術,改善處理流程,並透過雲端運算的分散平行處理技術、視覺化方式,來分析、提煉、解讀資料。例如,微軟正在研究一款從過濾垃圾郵件而來的數學模型,因為科學家從篩選垃圾郵件的過程中,發現這些垃圾郵件有類似「突變基因」的設計,以便躲過各種新的過濾方法,而這和HIV 這類引發出愛滋病的突變型病毒的變化軌跡有相似之處,也許可以從這方面找到HIV 病毒的有效疫苗。
透過數學演算,心理學家、經濟學家、生物學家和電腦科學家,正以前所未有的方式密切合作,從我們生活點滴中湧出的龐大資訊,以全新的視野開發下一個撼動人類文明的新發明。
我們可以預見,二十一世紀最偉大的發現之一,將來自於從龐大的數據資料中找出的新型態;二十一世紀最偉大的工程之一,將是模擬人性的數學模型建構。在這個由數字、向量和演算法構成的Big Data 新世界裡,整個世界就是創新和發現的人類行為實驗室,不管你願不願意,置身其中的你我都是參與者,但如果你願意從現在開始了解Big Data 帶來的衝擊和影響,你就不會只是參與者,而會是下一個發現者。(本文選自第一章,陳若雲整理)
為了紀念發明資料庫的著名科學家格雷(Jim Gray),微軟出版了《第四典範》(The Fourth Paradigm: Data-Intensive Scientific Discovery》一書,書中這位曾經獲得被視為資訊業諾貝爾的杜林獎得主認為,科學發展已經走過了「實驗、理論、計算」三個典範,漸漸形成以「資料」為重點的第四典範。
他主張,人類科學研究的歷史劃分為四個階段:幾千年前是實驗科學,主要是描述自然現象;過去幾百年是理論科學,描述的是物體運動現象的牛頓定律,或是描述電磁現象的麥斯威爾方程組(Maxwell's Equations);而過去幾十年,轉移到了計算科學,就像是之前所說的,以超級電腦模擬複雜的各種現象。
但到了今天,新典範是資料密集型科學,也就是理論、實驗和模擬的彙整。未來的科學發展,將取決於不同學科的研究者如何彼此合作,運用密集資料技術,改善處理流程,並透過雲端運算的分散平行處理技術、視覺化方式,來分析、提煉、解讀資料。例如,微軟正在研究一款從過濾垃圾郵件而來的數學模型,因為科學家從篩選垃圾郵件的過程中,發現這些垃圾郵件有類似「突變基因」的設計,以便躲過各種新的過濾方法,而這和HIV 這類引發出愛滋病的突變型病毒的變化軌跡有相似之處,也許可以從這方面找到HIV 病毒的有效疫苗。
透過數學演算,心理學家、經濟學家、生物學家和電腦科學家,正以前所未有的方式密切合作,從我們生活點滴中湧出的龐大資訊,以全新的視野開發下一個撼動人類文明的新發明。
我們可以預見,二十一世紀最偉大的發現之一,將來自於從龐大的數據資料中找出的新型態;二十一世紀最偉大的工程之一,將是模擬人性的數學模型建構。在這個由數字、向量和演算法構成的Big Data 新世界裡,整個世界就是創新和發現的人類行為實驗室,不管你願不願意,置身其中的你我都是參與者,但如果你願意從現在開始了解Big Data 帶來的衝擊和影響,你就不會只是參與者,而會是下一個發現者。(本文選自第一章,陳若雲整理)
作者︰胡世忠
美國威斯康辛大學麥迪遜分校工商管理系畢業,現為IBM全球副總裁兼IBM軟體集團大中華區總經理,全面負責IBM軟件中間業務和解決方案業務。曾任IBM新興市場資訊管理軟體總監,領導旗下的數據管理、企業內容管理、商業分析等業務,擁有豐富的軟體業務管理經驗。
美國威斯康辛大學麥迪遜分校工商管理系畢業,現為IBM全球副總裁兼IBM軟體集團大中華區總經理,全面負責IBM軟件中間業務和解決方案業務。曾任IBM新興市場資訊管理軟體總監,領導旗下的數據管理、企業內容管理、商業分析等業務,擁有豐富的軟體業務管理經驗。
出版:天下雜誌(2013年3月)
書名:雲端時代的殺手級應用
目錄:
推薦序 衝擊社會文化的大趨勢 張善政
推薦序 在數據海中航向創新之地 錢大群
推薦序 連女神卡卡都愛用的新技術 黃慧珠
推薦序 一個由資料組成的人與世界 戴季全
導讀 人類生活的下一塊拼圖 李實恭
第一部 什麼是Big Data?
第一章 海量資料新世界
第二章 不只是大而已
第二部 Big Data大商機
第三章 破壞式的全新競爭力
第四章 應用案例:從行銷到反恐
第五章 零售:更好、更快、更便宜
第六章 醫療:降低成本、促進醫學研發
第七章 政府部門:提高效率、打擊犯罪
第八章 能源:節能減碳新利器
第九章 電信:龐大通訊資料就是寶山
第十章 金融:防堵詐騙、有效行銷
第十一章 製造:協調產銷、管理供應鏈
第十二章 娛樂:更深入、更即時的娛樂體驗
第三部 技術與前瞻
第十三章 海量分析的技術要件
第十四章 結語與展望
推薦序 在數據海中航向創新之地 錢大群
推薦序 連女神卡卡都愛用的新技術 黃慧珠
推薦序 一個由資料組成的人與世界 戴季全
導讀 人類生活的下一塊拼圖 李實恭
第一部 什麼是Big Data?
第一章 海量資料新世界
第二章 不只是大而已
第二部 Big Data大商機
第三章 破壞式的全新競爭力
第四章 應用案例:從行銷到反恐
第五章 零售:更好、更快、更便宜
第六章 醫療:降低成本、促進醫學研發
第七章 政府部門:提高效率、打擊犯罪
第八章 能源:節能減碳新利器
第九章 電信:龐大通訊資料就是寶山
第十章 金融:防堵詐騙、有效行銷
第十一章 製造:協調產銷、管理供應鏈
第十二章 娛樂:更深入、更即時的娛樂體驗
第三部 技術與前瞻
第十三章 海量分析的技術要件
第十四章 結語與展望