1、引言
從人類文明誕生的那一刻起,數據就伴隨我們而生——人類交流信息所用的文字和語言,計量距離或數量使用的記號和圖案,觀察自然所積累和傳承的經驗等,都是數據構成的。這些數據在百萬年歷史長河里,為人類文明的發(fā)展進化帶來了難以估量的巨大價值。
自從人類發(fā)明了紙和筆,創(chuàng)造了數字、文字、幾何技術后,數據有了更精確的描述和記錄的方法,在此基礎上催生出了數字、物理、化學,以及文學、藝術、管理等學科,我們今天所享受的現代文明,都深深的植根于數據技術。
隨著互聯網時代的大發(fā)展,數據記錄逐步脫離了紙筆的限制,人類發(fā)明了廉價的硅晶半導體所蘊藏的秘密,大量的數據可以按0或1的二進制方式存儲半導體材料內,它們的存儲能力如此巨大,成本如此低廉,以至于以往被輕易忽略的數據都能被忠實的保存下來:我們每一下輕微的呼吸、每一次心臟的跳動、每一下鼠標的點擊,企業(yè)里員工的每一次出勤、財務的每一筆賬單、客戶的每一個評論,包羅萬象都能一一記錄。
與此同時,數據的概念也在進一步拓寬。傳統的數據是指用數字或文字描述的內容,通稱為結構化數據,而大數據時代涌現出了大量新型數據的、非結構化的數據。例如人群之間看不見的社交關系(Social Relationships),移動設備發(fā)射的GPS位置,網絡傳播的圖像、視頻信號,可穿戴設備采集的健康數據等。對這些各種各樣的數據的采集、挖掘、運用,也是現代大數據挖掘的重要研究課題。
正在發(fā)生的大數據變革,恐怕是人類技術發(fā)展中最重要的話題之一,它沖擊著許多主要的行業(yè),包括零售業(yè)、服務業(yè)、電子商務和金融領域等,同時大數據技術也正在徹底的改變我們的日常生活。如果把數據比作是礦石的話,大數據挖掘技術就是要從礦石中提煉出黃金,并形成各種精致的制成品發(fā)揮作用的過程。它既能夠通過移動應用和云服務追蹤和提升個人的生活品質,也能為現代企業(yè)帶來更高效和穩(wěn)健的管理方式。小到個人,大到企業(yè)和國家,大數據均是極度重要的一個議題,需要我們真正的深入理解它,因此本文將對大數據挖掘技術給出全景式的介紹,首先給出大數據的背景、原理和概念,然后闡述大數據挖掘的方法和步驟,再講解大數據在企業(yè)應用中的方式和收益,最后分享大數據時代的產業(yè)狀況,和我們面臨的挑戰(zhàn)與機遇。
2、大數據技術的背景、概念和意義
2.1大數據的產生背景
大數據熱潮誕生的先決條件是計算機存儲能力的迅速擴大和成本的一再降低。得益于半導體技術在過去20年里持續(xù)快速的發(fā)展,今天我們用500元人民幣就能輕松買到一塊能裝得下63萬本《紅樓夢》的1T 容量的移動硬盤;價值2000元的一塊PC硬盤甚至能存儲下全世界迄今為止所有的音樂內容。在很多大型互聯網公司里,拿一臺較好配置的服務器,就可以一舉裝下美國國家圖書館里所有紙質書的內容——縱觀整個人類文明發(fā)展史,今天人類擁有了史無前例的海量信息的存儲能力,并且這個能力仍然在日新月異的向前發(fā)展著。
與此同時,人類創(chuàng)造數據的能力也同樣在高速增長。傳統社會只有文人墨客、達官顯貴才能青史上留下只言片語,而互聯網時代里所有人都能輕松成為數據的生產者,例如Facebook上每月被用戶分享500億條新信息,全球的社交網絡每天產生1億張新照片。能夠產生和采集數據的方式也越來越多——電腦、手機、電視、汽車……一切都在大踏步的向“智能化”邁進。
我們對數據進行挖掘和處理的能力也遵照著“摩爾定律”在飛速的發(fā)展。這些IT技術在數據產生、存儲、挖掘、運用方面的逐步成熟,讓數據驅動產生價值的門檻越來越低,終于大數據時代的腳步匆匆到來了。
2.2大數據的“4V”要素
大數據(Big Data)概念最早的提出者是麥肯森咨詢公司和IBM公司的科學家們。在大數據的定義中,有如下“4V”要素是必須的:Volume, Variety, Velocity, Value,具體含義如下:
Volume:具備超出典型數據庫軟件收集、存儲、管理和分析能力的數據集;Variety:具備多樣性的,結構化、半結構化、非結構化等多種類型的數據形式;Velocity:具備快速、實時的數據處理能力;Value:具備從稀疏的數據中挖掘高價值內容的意義。
4V要素之間存在密切的關聯關系:Volume是所有工作的基礎,構建一個容量足夠巨大的數據處理平臺才能保證其上的應用;基于Volume進一步有Variety,用于多樣化數據的處理;Velocity保證了系統有實時數據處理的能力;最終的Value體現了數據所能發(fā)揮的價值,大數據最重要的并非“大”,也并非“數據”本身,而是人們如何認識和使用它,盡最大可能挖掘出其中價值,正所謂吹盡黃沙始見金。
2.3大數據價值
企業(yè)信息化數據價值的最直觀應用就是在企業(yè)管理里,這個過程和企業(yè)信息化的發(fā)展往往交織在一起。在1980s年代及以前,企業(yè)的各類業(yè)務、財務數據都是通過賬簿記錄,這種方式查閱和統計的效率都很低,可靠性也不高。從1990s年代末開始,金融業(yè)、電信業(yè)、大型零售等行業(yè)企業(yè)率先將核心交易數據電子化,2000年以后隨著IT技術的進步,越來越多的企業(yè)將信息化納入議程,ERP(Enterprise Resource Planning)、MIS(Management Information System)系統蓬勃發(fā)展,設計、制造、進存銷等業(yè)務管理逐步數據化,這些數據被大家意識到是企業(yè)最寶貴的資產,隨之而起的統計報表技術也漸漸完善。2010年以后,更多種類的數據,包括客戶的瀏覽數據、反饋數據等在一些企業(yè)中也都開始記錄并逐步進行個性化建模和分析,數據驅動的CRM(Customer Relationship Management)客戶關系管理開始在精準運營和個性化服務方面嶄露頭角,基于數據分析的預測技術也逐步開始出現。
從過去到未來,數據的價值在一點一滴的凸顯,注意這個過程是動態(tài)變化的,十年以前的大數據在如今看來根本不算很大;而同樣的,今天的大數據在若干年后也將不再被認為是大數據。數據容量、速度、多樣性、復雜度方面在今天來看無法想象的事情,幾年之后都將完全被顛覆;唯一不變的,是對數據的思考和分析的方法,和利用數據來產生附加價值的出發(fā)點。
3、大數據挖掘的方法、流程和場景
3.1大數據采集的特點
大數據應用的第一步就是采集數據。巧婦難為無米之炊,數據采集的完整性、準確性,決定了數據應用是否能真實可靠的發(fā)揮作用。大數據時代的數據采集有如下三個特點:
1)數據采集以自動化手段為主,要盡量擺脫人工錄入的方式;2)采集內容以全量采集為主,要擺脫對數據進行采樣的方式;3)采集方式多樣化、內容豐富化,擺脫以往只采集基本數據的方式。
從采集數據的類型上看,不僅要涵蓋基礎的結構化交易數據,還將逐步包括半結構化的用戶行為數據,網狀的社交關系數據,文本或音頻類型的用戶意見和反饋數據,設備和傳感器采集的周期性數據,網絡爬蟲獲取的互聯網數據,以及未來越來越多有潛在意義的各類數據。
3.2常見數據采集技術
傳統的數據采集方法包括人工錄入、調查問卷、電話隨訪等方式,大數據時代到來后,一個突出的變化是數據采集的方法有了質的飛躍,下面所介紹的數據采集方式的突破直接改變著大數據應用的場景。
移動互聯網的興起讓面向移動設備的數據采集技術有了迅速發(fā)展,目前使用最多的常稱為Android或iOS的采集SDK(SoftwareDevelop Kit),這種技術能幫助統計APP的基礎數據,包括用戶數、活躍情況、流失比例、使用時長等;用戶的位置、安裝列表、通信情況等通過授權也可以采集。網絡爬蟲是另一類廣泛使用的互聯網采集技術,常被用于進行大規(guī)模全網信息采集、輿情監(jiān)控、競品分析等領域。
物聯網也和大數據息息相關,因為物聯網的關鍵技術之一是無線射頻標簽(RFID):當安裝有RFID微型標簽的讀卡器在近距離發(fā)出信號時,帶有RFID的物品能自動返回其唯一的序列號,這樣就能實現自動大批量辨識物品信息的工作。RFID技術解決了物品信息與互聯網實現自動連接的問題,結合后續(xù)的大數據挖掘工作,能發(fā)揮其強大的威力。
在工業(yè)制造業(yè)里,傳感器(Sensor)是另一類常見的大數據采集裝置,它能將測量到的信息按一定規(guī)律變換為電信號輸出,通常用于自動檢測和控制等環(huán)節(jié)。傳感器的種類極為豐富:大到機械設備、汽車、飛機、建筑物,小到一部智能手機、一個智能設備,都可以安裝很多種傳感器,傳遞溫度、壓力、位置、位移、光敏、距離、化學感應、生物、磁場等各類信號。未來攜帶傳感器+大數據平臺的智能設備將越來越多,基于傳感器數據的大數據應用才剛剛起步,如智能醫(yī)療,智慧城市等,這方面有著廣闊的前景。
3.3數據存儲技術的發(fā)展和演進
傳統企業(yè)信息化系統采用關系數據庫來進行數據存儲,其中規(guī)模較大的通常被稱為“數據集市”(DataMart)。隨著采集數據的種類越來越多,部分行業(yè)領先的公司看到了把不同數據集市集中到一個大系統中的價值,這個大系統稱為企業(yè)級數據倉庫(Enterprise Data Warehouse, EDW),由專門的數據團隊(或稱為數據中心)負責集中式的數據管理和維護。
隨著數據量的驚人增長,已經使用了20余年的傳統數據庫再也無法支撐起新的存儲需求了,所以被Google稱為Big Table和GFS的新型存儲技術在過去的幾年里被發(fā)明出來,并在行業(yè)中廣泛應用,這些技術通過自動調配上萬臺服務器協同工作,能完成高性能和高可靠的數據存儲任務,為大數據的運用鋪平了道路。
3.4云計算與大數據
云計算可謂是大數據的最好載體。由于大數據存儲和運算非常復雜,傳統企業(yè)在運作時需要投入很高的人力物力,因此把涉及存儲運算的基礎設施抽象和獨立出來,形成的專門性服務稱為云計算(Cloud Computing)。云計算就好比大數據時代的“電”,大數據系統則是“家用電器”——云計算注重服務的通用性,大數據關注實際的用途和效果。
云計算服務分為兩大類:公有云和私有云。公有云是在開放網絡中為客戶提供服務,用戶并不完全擁有云資源。私有云是為特定客戶單獨使用而構建的,獨占使用的服務資源。使用公有云,相當于通過一根電線接入供電網;使用私有云,相當于在家里安裝了一臺發(fā)電機。
云計算的出現大大降低了大數據應用的門檻,未來無論是企業(yè)還是個人應用,采用云計算作為載體,大數據作為上層應用的方式將是最優(yōu)的發(fā)展方向。
3.5大數據挖掘原理和技術生態(tài)
在解決了大數據采集、存儲的問題后,最重要的環(huán)節(jié)是大數據挖掘技術。著名的Map-Reduce的計算框架很好的解決了大數據挖掘的性能問題,被產業(yè)界廣泛使用,基于Map-Reduce原理最為知名的開源實現方案稱為Hadoop。
在Map-Reduce基礎上,近1-2年來一些新的流式計算技術也被國際知名公司和大學提出,例如twitter提出的Storm,Yahoo的S4,UC Berkeley的Spark,斯坦福大學的Phoenix等新技術。圍繞這些核心的挖掘平臺,現在已經形成了一整套大數據挖掘技術生態(tài),為上層的數據應用奠定了基礎。
3.6數據類型與常見應用
大數據挖掘應用中最常見的數據類型稱為結構化數據,定義為存儲在數據庫里,能用二維表結構來邏輯表達實現的數據。結構化數據常用于記錄生產、業(yè)務、交易、客戶信息等方面的數據,這些數據規(guī)模較小,內容規(guī)范,含義明確,處理方式成熟,可以方便的產生各類數據報表,為企業(yè)運作提供最直接的依據。
以典型的制造型企業(yè)運作為例,其資產負債表、現金流表等核心財務報表,均出自于結構化數據的統計分析;其業(yè)務相關的庫存、銷量、分品類貨物流轉等數據,也通過類似的方式來產生。
如果是面向互聯網業(yè)務的新型企業(yè),則會更關注諸如網站的流量、移動APP的日活躍用戶數(DAU,Daily Active Users)、登錄用戶數、停留時間等數據,這類數據統計則很多來源于半結構化數據,網絡訪問日志就是典型的一種半結構化數據。半結構化數據具有可被理解的邏輯流程和格式,但這些格式并不是用戶友好的,有價值的信息參雜在大量的噪聲和無用的數據中,分析起來比結構化數據復雜。
比半結構化數據更復雜的是非結構化數據。文本信息是目前已記錄的數量最為龐大的數據形式,例如網頁中的文字內容、聊天記錄、電子郵件,企業(yè)的各類文檔等,它們包含了大量有價值的信息,對它們的分析處理催生出了自然語言處理(NLP , Natural Language Processing)這樣專門的計算機學科。
大數據處理難度最高的是多媒體類的非結構化數據,包括圖像、語音、視頻等,對這些數據的深入挖掘和理解,能產生非常多新穎實用的功能,如自動監(jiān)控、人臉識別、自動駕駛等。近年來Google、Facebook等公司積極進行深度學習(Deep Learning)相關技術的研發(fā),用大規(guī)模機器學習的技術來解讀多媒體的數據,已經取得了非??捎^的進步。(陳運文博士)
對各種類似數據的挖掘和處理還遠沒有結束,存在巨大的應用潛力。相信大數據系統在不久的將來能產生越來越多令人驚嘆的功能,甚至改變大量產業(yè)的形態(tài)。
4、大數據應用的策略、方式和收益
4.1數據統計是最直接應用
數據統計是大數據應用的最直觀的形式,數據統計在企業(yè)中常被稱為商業(yè)智能(BI, BusinessIntelligence)系統,使用者們通過觀察數據報表來掌握企業(yè)的經營狀況,發(fā)現企業(yè)運營的問題。大數據技術利用各種分析方法和工具在大規(guī)模海量數據中建立模型和發(fā)現數據間的潛在關系,幫助管理者們發(fā)現著眼點。
隨著技術的進步,數據統計應用發(fā)展的越來越迅速,例如傳統按周按天生成的數據報表,可以縮短為小時級甚至分鐘級,同時報表的細分刻畫能力也更強,有助于更及時的掌握業(yè)務變化情況,更深入了解變化的細節(jié)。
4.2個性化技術蘊藏巨大價值
每個人生來就是與眾不同的,需求也天然是個性化的。以時裝產業(yè)為例,每個用戶穿著打扮的口味、偏好、喜愛的款式是各不相同的,大數據能充分發(fā)揮所長,挖掘出用戶的個性化需求并加以滿足。亞馬遜公司(Amazon)通過挖掘用戶在線的瀏覽行為和購買記錄,成功挖掘出了用戶個性化模型并進行針對性商品推薦,極大促進了商品的購買率。目前亞馬遜上超過30%的購買收入由個性化推薦系統所貢獻,是了不起的成就。
私人訂制就是個性化的一個典型案例,以往私人訂制是高端人群獨有的服務,價格昂貴,耗時耗力,而大數據技術能將定制過程自動化,降低成本,讓普羅大眾享受到個性化服務的優(yōu)勢。亞馬遜(Amazon)總裁杰夫·貝佐斯曾說過:“如果我的網站有一百萬個顧客,我就應該有一百萬個商店”。
個性化數據技術對合理調配企業(yè)資源也有積極的意義,例如美國的Dunnhumby Shop公司通過分析消費者來訪問超市的時間和消費明細,對不同顧客群體采取針對性的促銷手段,同時幫助供應商對不同區(qū)域制訂合理有效的價格和庫存和配送方案,合理的節(jié)約了運營成本。
4.3最有吸引力的應用:預測技術
我們每天都在進行著大大小小的預測:如預測從家里出發(fā)到工作地點所需要的時間;預測某款產品發(fā)布以后一個月內的訂單量。預測的愈準確,則成功的把握愈大。如果我們擁有百分之百準確的預測能力,像先知穆罕默德那樣,就會變得無往不利。
誰能預知未來?——大數據技術能幫你做到,因為它熟知過去。隨著技術的進步,借助時間序列分析技術,·通過對趨勢、季節(jié)變動、循環(huán)波動和不規(guī)則波動的因素的細致把握,大數據正在賦予我們更強的洞察未來的能力。
美國第二大連鎖超市Target,通過大數據技術分析顧客的詳細購買記錄,判斷出某位還在讀書的年輕女孩已經懷孕了,并給她寄去了大量嬰兒用品的優(yōu)惠券,這位女孩的父親收到優(yōu)惠券后極為驚訝,經過和女兒的進一步溝通才發(fā)現真的已經有孕在身了。大數據技術比父親更早預測出了這個真實的真相。
4.4分類和回歸技術
如同諺語“朝霞不出門,晚霞行千里”所說的,我們常常通過經驗來分析不同現象之間存在的潛在關聯和因果關系。而如今大數據技術能代替人工經驗來更好的分析數據間的關聯關系,幫助找出規(guī)律。常見的包括兩類技術,一類稱為回歸分析技術(Regression Analysis),它通過統計科學來把握兩個或多個變量間相關關系的強度。另一類稱為分類技術(Classification),分類是指通過分析已標注好的訓練數據,來自動的將新的未知數據按種類、等級或性質分別歸類的過程。
分類和回歸是人腦最常進行的操作,現在計算機也能逐步代替人類完成這樣的操作,且效率是人類的數萬倍。典型的應用是英國Adzuna公司根據積累的海量職位薪酬數據,自動為招聘雙方提供薪酬制定的科學依據,其最優(yōu)的預測算法非常精確,生成的預測值和實際薪水值誤差不到10%。Adzuna已成為英國內閣高官“幕后智囊團”,幫助英國政府了解失業(yè)率、職位空缺、薪資水平等經濟發(fā)展情況,制定國策。
4.5輔助決策系統
企業(yè)戰(zhàn)略決策往往決定了企業(yè)的生死存亡,怎樣才能更科學合理進行決策?華為公司總裁任正非曾說過“要讓聽得見炮火的人來決策”,提出了要從實際數據中產生科學決策結果。
大數據技術基于海量一線數據,能讓決策更科學,降低誤判的風險。其中大數據輔助分析有一個稱為GREAT的原則:Guided, Relevant, Explainable, Actionable, Timely,基于GREAT原則越來越多的企業(yè)將會用好大數據,發(fā)揮智囊團的作用。
5、大數據時代的探索、機遇和挑戰(zhàn)
5.1國內外大數據行業(yè)發(fā)展態(tài)勢
在上述大數據技術上,通過串聯起特定的數據采集、存儲、挖掘、應用的機制,就能誕生出一個個具體的創(chuàng)新應用。例如通過RFID技術采集倉儲信息,在云端存儲數據并加上預測技術,能實現一個智能的物流管理系統;通過可穿戴感知器設備,加上私有云、個性化、社交網絡等技術,則可以實現一個智能健康管理系統等等,可供拓展的機會有很多。
近年來大數據行業(yè)發(fā)展極為熱烈:2009年美國政府啟動Data.gov網站開放了社會公共數據的大門,向公眾提供各種各樣的政府數據。2009年歐洲一些研究型圖書館和科技信息研究機構建立了伙伴關系,致力于改善在互聯網上獲取科學數據的簡易性。2011年中國工信部發(fā)布了物聯網十二五規(guī)劃,將信息處理技術作為4 項關鍵技術創(chuàng)新工程提出,包括了海量數據存儲、數據挖掘、圖像視頻智能分析,都是大數據的重要組成部分。2012年瑞士達沃斯世界經濟論壇上,大數據是主題之一,會上發(fā)布的報告《大數據,大影響B(tài)igData, Big Impact》 宣稱,數據已經成為一種新的經濟資產,就像貨幣或黃金。近年來大數據行業(yè)的投資并購,新興企業(yè)發(fā)展等,更是呈現出如火如荼的發(fā)展態(tài)勢。
5.2大數據時代面臨的風險挑戰(zhàn)
大數據時代所面臨的重大風險之一是用戶的隱私保護問題。近年來國內外多起的密碼泄漏、隱私侵權等事件,暴露了這方面存在的問題。一方面我們需要對用戶數據進行創(chuàng)新性的挖掘,另一方面還需要兼顧用戶隱私的保護,兩者是硬幣的正反兩面,其平衡和博弈的問題會始終存在。
大數據思維則是面臨的更嚴峻挑戰(zhàn),則來自思維方式的轉變。在企業(yè)經營逐步從傳統粗放式向大數據精細化轉向時,以往“差不多”、“還可以”、“領導說”等拍腦袋決策的方式要逐步讓位于精確的數據分析、統計、預測系統,從“行或不行,官大的說了算”轉變?yōu)椤靶谢虿恍校瑪祿f了算”,從“事后統計”轉變?yōu)椤笆虑邦A測”,是大數據思維方式的落實和轉變。
5.3大數據時代的創(chuàng)新機遇
信息技術正在以突飛猛進的速度向前進步,包括新傳感器采集技術、移動互聯網技術、社交網絡技術的蓬勃發(fā)展,將帶來大量的創(chuàng)新性應用。大數據是新時代的石油,通過研發(fā)分析各種多元結構化數據的高效技術,提高數據產品的易用性,讓數據分析實現“開箱即用”,其蘊藏的巨大能量將使數據成為政府和企業(yè)建立核心競爭力的關鍵途徑,甚至能夠顛覆很多傳統行業(yè)的運作方式,帶領我們進入信息革命的新時代。
對我們每個人而言,跟隨大數據的浪潮,把握機遇,投身其中,在大數據創(chuàng)新的浪潮之巔定能一展身手。
(來源:達觀數據)