- 無(wú)線(xiàn)校園
- 電子郵箱
- 校園卡服務(wù)
- 用戶(hù)門(mén)戶(hù)
發(fā)布時(shí)間:2020-06-03 | 打印頁(yè)面 關(guān)閉頁(yè)面 |
1、引言
從人類(lèi)文明誕生的那一刻起,數(shù)據(jù)就伴隨我們而生——人類(lèi)交流信息所用的文字和語(yǔ)言,計(jì)量距離或數(shù)量使用的記號(hào)和圖案,觀察自然所積累和傳承的經(jīng)驗(yàn)等,都是數(shù)據(jù)構(gòu)成的。這些數(shù)據(jù)在百萬(wàn)年歷史長(zhǎng)河里,為人類(lèi)文明的發(fā)展進(jìn)化帶來(lái)了難以估量的巨大價(jià)值。
自從人類(lèi)發(fā)明了紙和筆,創(chuàng)造了數(shù)字、文字、幾何技術(shù)后,數(shù)據(jù)有了更精確的描述和記錄的方法,在此基礎(chǔ)上催生出了數(shù)字、物理、化學(xué),以及文學(xué)、藝術(shù)、管理等學(xué)科,我們今天所享受的現(xiàn)代文明,都深深的植根于數(shù)據(jù)技術(shù)。
隨著互聯(lián)網(wǎng)時(shí)代的大發(fā)展,數(shù)據(jù)記錄逐步脫離了紙筆的限制,人類(lèi)發(fā)明了廉價(jià)的硅晶半導(dǎo)體所蘊(yùn)藏的秘密,大量的數(shù)據(jù)可以按0或1的二進(jìn)制方式存儲(chǔ)半導(dǎo)體材料內(nèi),它們的存儲(chǔ)能力如此巨大,成本如此低廉,以至于以往被輕易忽略的數(shù)據(jù)都能被忠實(shí)的保存下來(lái):我們每一下輕微的呼吸、每一次心臟的跳動(dòng)、每一下鼠標(biāo)的點(diǎn)擊,企業(yè)里員工的每一次出勤、財(cái)務(wù)的每一筆賬單、客戶(hù)的每一個(gè)評(píng)論,包羅萬(wàn)象都能一一記錄。
與此同時(shí),數(shù)據(jù)的概念也在進(jìn)一步拓寬。傳統(tǒng)的數(shù)據(jù)是指用數(shù)字或文字描述的內(nèi)容,通稱(chēng)為結(jié)構(gòu)化數(shù)據(jù),而大數(shù)據(jù)時(shí)代涌現(xiàn)出了大量新型數(shù)據(jù)的、非結(jié)構(gòu)化的數(shù)據(jù)。例如人群之間看不見(jiàn)的社交關(guān)系(Social Relationships),移動(dòng)設(shè)備發(fā)射的GPS位置,網(wǎng)絡(luò)傳播的圖像、視頻信號(hào),可穿戴設(shè)備采集的健康數(shù)據(jù)等。對(duì)這些各種各樣的數(shù)據(jù)的采集、挖掘、運(yùn)用,也是現(xiàn)代大數(shù)據(jù)挖掘的重要研究課題。
正在發(fā)生的大數(shù)據(jù)變革,恐怕是人類(lèi)技術(shù)發(fā)展中最重要的話(huà)題之一,它沖擊著許多主要的行業(yè),包括零售業(yè)、服務(wù)業(yè)、電子商務(wù)和金融領(lǐng)域等,同時(shí)大數(shù)據(jù)技術(shù)也正在徹底的改變我們的日常生活。如果把數(shù)據(jù)比作是礦石的話(huà),大數(shù)據(jù)挖掘技術(shù)就是要從礦石中提煉出黃金,并形成各種精致的制成品發(fā)揮作用的過(guò)程。它既能夠通過(guò)移動(dòng)應(yīng)用和云服務(wù)追蹤和提升個(gè)人的生活品質(zhì),也能為現(xiàn)代企業(yè)帶來(lái)更高效和穩(wěn)健的管理方式。小到個(gè)人,大到企業(yè)和國(guó)家,大數(shù)據(jù)均是極度重要的一個(gè)議題,需要我們真正的深入理解它,因此本文將對(duì)大數(shù)據(jù)挖掘技術(shù)給出全景式的介紹,首先給出大數(shù)據(jù)的背景、原理和概念,然后闡述大數(shù)據(jù)挖掘的方法和步驟,再講解大數(shù)據(jù)在企業(yè)應(yīng)用中的方式和收益,最后分享大數(shù)據(jù)時(shí)代的產(chǎn)業(yè)狀況,和我們面臨的挑戰(zhàn)與機(jī)遇。
2、大數(shù)據(jù)技術(shù)的背景、概念和意義
2.1大數(shù)據(jù)的產(chǎn)生背景
大數(shù)據(jù)熱潮誕生的先決條件是計(jì)算機(jī)存儲(chǔ)能力的迅速擴(kuò)大和成本的一再降低。得益于半導(dǎo)體技術(shù)在過(guò)去20年里持續(xù)快速的發(fā)展,今天我們用500元人民幣就能輕松買(mǎi)到一塊能裝得下63萬(wàn)本《紅樓夢(mèng)》的1T 容量的移動(dòng)硬盤(pán);價(jià)值2000元的一塊PC硬盤(pán)甚至能存儲(chǔ)下全世界迄今為止所有的音樂(lè)內(nèi)容。在很多大型互聯(lián)網(wǎng)公司里,拿一臺(tái)較好配置的服務(wù)器,就可以一舉裝下美國(guó)國(guó)家圖書(shū)館里所有紙質(zhì)書(shū)的內(nèi)容——縱觀整個(gè)人類(lèi)文明發(fā)展史,今天人類(lèi)擁有了史無(wú)前例的海量信息的存儲(chǔ)能力,并且這個(gè)能力仍然在日新月異的向前發(fā)展著。
與此同時(shí),人類(lèi)創(chuàng)造數(shù)據(jù)的能力也同樣在高速增長(zhǎng)。傳統(tǒng)社會(huì)只有文人墨客、達(dá)官顯貴才能青史上留下只言片語(yǔ),而互聯(lián)網(wǎng)時(shí)代里所有人都能輕松成為數(shù)據(jù)的生產(chǎn)者,例如Facebook上每月被用戶(hù)分享500億條新信息,全球的社交網(wǎng)絡(luò)每天產(chǎn)生1億張新照片。能夠產(chǎn)生和采集數(shù)據(jù)的方式也越來(lái)越多——電腦、手機(jī)、電視、汽車(chē)……一切都在大踏步的向“智能化”邁進(jìn)。
我們對(duì)數(shù)據(jù)進(jìn)行挖掘和處理的能力也遵照著“摩爾定律”在飛速的發(fā)展。這些IT技術(shù)在數(shù)據(jù)產(chǎn)生、存儲(chǔ)、挖掘、運(yùn)用方面的逐步成熟,讓數(shù)據(jù)驅(qū)動(dòng)產(chǎn)生價(jià)值的門(mén)檻越來(lái)越低,終于大數(shù)據(jù)時(shí)代的腳步匆匆到來(lái)了。
2.2大數(shù)據(jù)的“4V”要素
大數(shù)據(jù)(Big Data)概念最早的提出者是麥肯森咨詢(xún)公司和IBM公司的科學(xué)家們。在大數(shù)據(jù)的定義中,有如下“4V”要素是必須的:Volume, Variety, Velocity, Value,具體含義如下:
Volume:具備超出典型數(shù)據(jù)庫(kù)軟件收集、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集;Variety:具備多樣性的,結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等多種類(lèi)型的數(shù)據(jù)形式;Velocity:具備快速、實(shí)時(shí)的數(shù)據(jù)處理能力;Value:具備從稀疏的數(shù)據(jù)中挖掘高價(jià)值內(nèi)容的意義。
4V要素之間存在密切的關(guān)聯(lián)關(guān)系:Volume是所有工作的基礎(chǔ),構(gòu)建一個(gè)容量足夠巨大的數(shù)據(jù)處理平臺(tái)才能保證其上的應(yīng)用;基于Volume進(jìn)一步有Variety,用于多樣化數(shù)據(jù)的處理;Velocity保證了系統(tǒng)有實(shí)時(shí)數(shù)據(jù)處理的能力;最終的Value體現(xiàn)了數(shù)據(jù)所能發(fā)揮的價(jià)值,大數(shù)據(jù)最重要的并非“大”,也并非“數(shù)據(jù)”本身,而是人們?nèi)绾握J(rèn)識(shí)和使用它,盡最大可能挖掘出其中價(jià)值,正所謂吹盡黃沙始見(jiàn)金。
2.3大數(shù)據(jù)價(jià)值
企業(yè)信息化數(shù)據(jù)價(jià)值的最直觀應(yīng)用就是在企業(yè)管理里,這個(gè)過(guò)程和企業(yè)信息化的發(fā)展往往交織在一起。在1980s年代及以前,企業(yè)的各類(lèi)業(yè)務(wù)、財(cái)務(wù)數(shù)據(jù)都是通過(guò)賬簿記錄,這種方式查閱和統(tǒng)計(jì)的效率都很低,可靠性也不高。從1990s年代末開(kāi)始,金融業(yè)、電信業(yè)、大型零售等行業(yè)企業(yè)率先將核心交易數(shù)據(jù)電子化,2000年以后隨著IT技術(shù)的進(jìn)步,越來(lái)越多的企業(yè)將信息化納入議程,ERP(Enterprise Resource Planning)、MIS(Management Information System)系統(tǒng)蓬勃發(fā)展,設(shè)計(jì)、制造、進(jìn)存銷(xiāo)等業(yè)務(wù)管理逐步數(shù)據(jù)化,這些數(shù)據(jù)被大家意識(shí)到是企業(yè)最寶貴的資產(chǎn),隨之而起的統(tǒng)計(jì)報(bào)表技術(shù)也漸漸完善。2010年以后,更多種類(lèi)的數(shù)據(jù),包括客戶(hù)的瀏覽數(shù)據(jù)、反饋數(shù)據(jù)等在一些企業(yè)中也都開(kāi)始記錄并逐步進(jìn)行個(gè)性化建模和分析,數(shù)據(jù)驅(qū)動(dòng)的CRM(Customer Relationship Management)客戶(hù)關(guān)系管理開(kāi)始在精準(zhǔn)運(yùn)營(yíng)和個(gè)性化服務(wù)方面嶄露頭角,基于數(shù)據(jù)分析的預(yù)測(cè)技術(shù)也逐步開(kāi)始出現(xiàn)。
從過(guò)去到未來(lái),數(shù)據(jù)的價(jià)值在一點(diǎn)一滴的凸顯,注意這個(gè)過(guò)程是動(dòng)態(tài)變化的,十年以前的大數(shù)據(jù)在如今看來(lái)根本不算很大;而同樣的,今天的大數(shù)據(jù)在若干年后也將不再被認(rèn)為是大數(shù)據(jù)。數(shù)據(jù)容量、速度、多樣性、復(fù)雜度方面在今天來(lái)看無(wú)法想象的事情,幾年之后都將完全被顛覆;唯一不變的,是對(duì)數(shù)據(jù)的思考和分析的方法,和利用數(shù)據(jù)來(lái)產(chǎn)生附加價(jià)值的出發(fā)點(diǎn)。
3、大數(shù)據(jù)挖掘的方法、流程和場(chǎng)景
3.1大數(shù)據(jù)采集的特點(diǎn)
大數(shù)據(jù)應(yīng)用的第一步就是采集數(shù)據(jù)。巧婦難為無(wú)米之炊,數(shù)據(jù)采集的完整性、準(zhǔn)確性,決定了數(shù)據(jù)應(yīng)用是否能真實(shí)可靠的發(fā)揮作用。大數(shù)據(jù)時(shí)代的數(shù)據(jù)采集有如下三個(gè)特點(diǎn):
1)數(shù)據(jù)采集以自動(dòng)化手段為主,要盡量擺脫人工錄入的方式;2)采集內(nèi)容以全量采集為主,要擺脫對(duì)數(shù)據(jù)進(jìn)行采樣的方式;3)采集方式多樣化、內(nèi)容豐富化,擺脫以往只采集基本數(shù)據(jù)的方式。
從采集數(shù)據(jù)的類(lèi)型上看,不僅要涵蓋基礎(chǔ)的結(jié)構(gòu)化交易數(shù)據(jù),還將逐步包括半結(jié)構(gòu)化的用戶(hù)行為數(shù)據(jù),網(wǎng)狀的社交關(guān)系數(shù)據(jù),文本或音頻類(lèi)型的用戶(hù)意見(jiàn)和反饋數(shù)據(jù),設(shè)備和傳感器采集的周期性數(shù)據(jù),網(wǎng)絡(luò)爬蟲(chóng)獲取的互聯(lián)網(wǎng)數(shù)據(jù),以及未來(lái)越來(lái)越多有潛在意義的各類(lèi)數(shù)據(jù)。
3.2常見(jiàn)數(shù)據(jù)采集技術(shù)
傳統(tǒng)的數(shù)據(jù)采集方法包括人工錄入、調(diào)查問(wèn)卷、電話(huà)隨訪(fǎng)等方式,大數(shù)據(jù)時(shí)代到來(lái)后,一個(gè)突出的變化是數(shù)據(jù)采集的方法有了質(zhì)的飛躍,下面所介紹的數(shù)據(jù)采集方式的突破直接改變著大數(shù)據(jù)應(yīng)用的場(chǎng)景。
移動(dòng)互聯(lián)網(wǎng)的興起讓面向移動(dòng)設(shè)備的數(shù)據(jù)采集技術(shù)有了迅速發(fā)展,目前使用最多的常稱(chēng)為Android或iOS的采集SDK(SoftwareDevelop Kit),這種技術(shù)能幫助統(tǒng)計(jì)APP的基礎(chǔ)數(shù)據(jù),包括用戶(hù)數(shù)、活躍情況、流失比例、使用時(shí)長(zhǎng)等;用戶(hù)的位置、安裝列表、通訊情況等通過(guò)授權(quán)也可以采集。網(wǎng)絡(luò)爬蟲(chóng)是另一類(lèi)廣泛使用的互聯(lián)網(wǎng)采集技術(shù),常被用于進(jìn)行大規(guī)模全網(wǎng)信息采集、輿情監(jiān)控、競(jìng)品分析等領(lǐng)域。
物聯(lián)網(wǎng)也和大數(shù)據(jù)息息相關(guān),因?yàn)槲锫?lián)網(wǎng)的關(guān)鍵技術(shù)之一是無(wú)線(xiàn)射頻標(biāo)簽(RFID):當(dāng)安裝有RFID微型標(biāo)簽的讀卡器在近距離發(fā)出信號(hào)時(shí),帶有RFID的物品能自動(dòng)返回其唯一的序列號(hào),這樣就能實(shí)現(xiàn)自動(dòng)大批量辨識(shí)物品信息的工作。RFID技術(shù)解決了物品信息與互聯(lián)網(wǎng)實(shí)現(xiàn)自動(dòng)連接的問(wèn)題,結(jié)合后續(xù)的大數(shù)據(jù)挖掘工作,能發(fā)揮其強(qiáng)大的威力。
在工業(yè)制造業(yè)里,傳感器(Sensor)是另一類(lèi)常見(jiàn)的大數(shù)據(jù)采集裝置,它能將測(cè)量到的信息按一定規(guī)律變換為電信號(hào)輸出,通常用于自動(dòng)檢測(cè)和控制等環(huán)節(jié)。傳感器的種類(lèi)極為豐富:大到機(jī)械設(shè)備、汽車(chē)、飛機(jī)、建筑物,小到一部智能手機(jī)、一個(gè)智能設(shè)備,都可以安裝很多種傳感器,傳遞溫度、壓力、位置、位移、光敏、距離、化學(xué)感應(yīng)、生物、磁場(chǎng)等各類(lèi)信號(hào)。未來(lái)攜帶傳感器+大數(shù)據(jù)平臺(tái)的智能設(shè)備將越來(lái)越多,基于傳感器數(shù)據(jù)的大數(shù)據(jù)應(yīng)用才剛剛起步,如智能醫(yī)療,智慧城市等,這方面有著廣闊的前景。
3.3數(shù)據(jù)存儲(chǔ)技術(shù)的發(fā)展和演進(jìn)
傳統(tǒng)企業(yè)信息化系統(tǒng)采用關(guān)系數(shù)據(jù)庫(kù)來(lái)進(jìn)行數(shù)據(jù)存儲(chǔ),其中規(guī)模較大的通常被稱(chēng)為“數(shù)據(jù)集市”(DataMart)。隨著采集數(shù)據(jù)的種類(lèi)越來(lái)越多,部分行業(yè)領(lǐng)先的公司看到了把不同數(shù)據(jù)集市集中到一個(gè)大系統(tǒng)中的價(jià)值,這個(gè)大系統(tǒng)稱(chēng)為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)(Enterprise Data Warehouse, EDW),由專(zhuān)門(mén)的數(shù)據(jù)團(tuán)隊(duì)(或稱(chēng)為數(shù)據(jù)中心)負(fù)責(zé)集中式的數(shù)據(jù)管理和維護(hù)。
隨著數(shù)據(jù)量的驚人增長(zhǎng),已經(jīng)使用了20余年的傳統(tǒng)數(shù)據(jù)庫(kù)再也無(wú)法支撐起新的存儲(chǔ)需求了,所以被Google稱(chēng)為Big Table和GFS的新型存儲(chǔ)技術(shù)在過(guò)去的幾年里被發(fā)明出來(lái),并在行業(yè)中廣泛應(yīng)用,這些技術(shù)通過(guò)自動(dòng)調(diào)配上萬(wàn)臺(tái)服務(wù)器協(xié)同工作,能完成高性能和高可靠的數(shù)據(jù)存儲(chǔ)任務(wù),為大數(shù)據(jù)的運(yùn)用鋪平了道路。
3.4云計(jì)算與大數(shù)據(jù)
云計(jì)算可謂是大數(shù)據(jù)的最好載體。由于大數(shù)據(jù)存儲(chǔ)和運(yùn)算非常復(fù)雜,傳統(tǒng)企業(yè)在運(yùn)作時(shí)需要投入很高的人力物力,因此把涉及存儲(chǔ)運(yùn)算的基礎(chǔ)設(shè)施抽象和獨(dú)立出來(lái),形成的專(zhuān)門(mén)性服務(wù)稱(chēng)為云計(jì)算(Cloud Computing)。云計(jì)算就好比大數(shù)據(jù)時(shí)代的“電”,大數(shù)據(jù)系統(tǒng)則是“家用電器”——云計(jì)算注重服務(wù)的通用性,大數(shù)據(jù)關(guān)注實(shí)際的用途和效果。
云計(jì)算服務(wù)分為兩大類(lèi):公有云和私有云。公有云是在開(kāi)放網(wǎng)絡(luò)中為客戶(hù)提供服務(wù),用戶(hù)并不完全擁有云資源。私有云是為特定客戶(hù)單獨(dú)使用而構(gòu)建的,獨(dú)占使用的服務(wù)資源。使用公有云,相當(dāng)于通過(guò)一根電線(xiàn)接入供電網(wǎng);使用私有云,相當(dāng)于在家里安裝了一臺(tái)發(fā)電機(jī)。
云計(jì)算的出現(xiàn)大大降低了大數(shù)據(jù)應(yīng)用的門(mén)檻,未來(lái)無(wú)論是企業(yè)還是個(gè)人應(yīng)用,采用云計(jì)算作為載體,大數(shù)據(jù)作為上層應(yīng)用的方式將是最優(yōu)的發(fā)展方向。
3.5大數(shù)據(jù)挖掘原理和技術(shù)生態(tài)
在解決了大數(shù)據(jù)采集、存儲(chǔ)的問(wèn)題后,最重要的環(huán)節(jié)是大數(shù)據(jù)挖掘技術(shù)。著名的Map-Reduce的計(jì)算框架很好的解決了大數(shù)據(jù)挖掘的性能問(wèn)題,被產(chǎn)業(yè)界廣泛使用,基于Map-Reduce原理最為知名的開(kāi)源實(shí)現(xiàn)方案稱(chēng)為Hadoop。
在Map-Reduce基礎(chǔ)上,近1-2年來(lái)一些新的流式計(jì)算技術(shù)也被國(guó)際知名公司和大學(xué)提出,例如twitter提出的Storm,Yahoo的S4,UC Berkeley的Spark,斯坦福大學(xué)的Phoenix等新技術(shù)。圍繞這些核心的挖掘平臺(tái),現(xiàn)在已經(jīng)形成了一整套大數(shù)據(jù)挖掘技術(shù)生態(tài),為上層的數(shù)據(jù)應(yīng)用奠定了基礎(chǔ)。
3.6數(shù)據(jù)類(lèi)型與常見(jiàn)應(yīng)用
大數(shù)據(jù)挖掘應(yīng)用中最常見(jiàn)的數(shù)據(jù)類(lèi)型稱(chēng)為結(jié)構(gòu)化數(shù)據(jù),定義為存儲(chǔ)在數(shù)據(jù)庫(kù)里,能用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)常用于記錄生產(chǎn)、業(yè)務(wù)、交易、客戶(hù)信息等方面的數(shù)據(jù),這些數(shù)據(jù)規(guī)模較小,內(nèi)容規(guī)范,含義明確,處理方式成熟,可以方便的產(chǎn)生各類(lèi)數(shù)據(jù)報(bào)表,為企業(yè)運(yùn)作提供最直接的依據(jù)。
以典型的制造型企業(yè)運(yùn)作為例,其資產(chǎn)負(fù)債表、現(xiàn)金流表等核心財(cái)務(wù)報(bào)表,均出自于結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)計(jì)分析;其業(yè)務(wù)相關(guān)的庫(kù)存、銷(xiāo)量、分品類(lèi)貨物流轉(zhuǎn)等數(shù)據(jù),也通過(guò)類(lèi)似的方式來(lái)產(chǎn)生。
如果是面向互聯(lián)網(wǎng)業(yè)務(wù)的新型企業(yè),則會(huì)更關(guān)注諸如網(wǎng)站的流量、移動(dòng)APP的日活躍用戶(hù)數(shù)(DAU,Daily Active Users)、登錄用戶(hù)數(shù)、停留時(shí)間等數(shù)據(jù),這類(lèi)數(shù)據(jù)統(tǒng)計(jì)則很多來(lái)源于半結(jié)構(gòu)化數(shù)據(jù),網(wǎng)絡(luò)訪(fǎng)問(wèn)日志就是典型的一種半結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)具有可被理解的邏輯流程和格式,但這些格式并不是用戶(hù)友好的,有價(jià)值的信息參雜在大量的噪聲和無(wú)用的數(shù)據(jù)中,分析起來(lái)比結(jié)構(gòu)化數(shù)據(jù)復(fù)雜。
比半結(jié)構(gòu)化數(shù)據(jù)更復(fù)雜的是非結(jié)構(gòu)化數(shù)據(jù)。文本信息是目前已記錄的數(shù)量最為龐大的數(shù)據(jù)形式,例如網(wǎng)頁(yè)中的文字內(nèi)容、聊天記錄、電子郵件,企業(yè)的各類(lèi)文檔等,它們包含了大量有價(jià)值的信息,對(duì)它們的分析處理催生出了自然語(yǔ)言處理(NLP , Natural Language Processing)這樣專(zhuān)門(mén)的計(jì)算機(jī)學(xué)科。
大數(shù)據(jù)處理難度最高的是多媒體類(lèi)的非結(jié)構(gòu)化數(shù)據(jù),包括圖像、語(yǔ)音、視頻等,對(duì)這些數(shù)據(jù)的深入挖掘和理解,能產(chǎn)生非常多新穎實(shí)用的功能,如自動(dòng)監(jiān)控、人臉識(shí)別、自動(dòng)駕駛等。近年來(lái)Google、Facebook等公司積極進(jìn)行深度學(xué)習(xí)(Deep Learning)相關(guān)技術(shù)的研發(fā),用大規(guī)模機(jī)器學(xué)習(xí)的技術(shù)來(lái)解讀多媒體的數(shù)據(jù),已經(jīng)取得了非常可觀的進(jìn)步。(陳運(yùn)文博士)
對(duì)各種類(lèi)似數(shù)據(jù)的挖掘和處理還遠(yuǎn)沒(méi)有結(jié)束,存在巨大的應(yīng)用潛力。相信大數(shù)據(jù)系統(tǒng)在不久的將來(lái)能產(chǎn)生越來(lái)越多令人驚嘆的功能,甚至改變大量產(chǎn)業(yè)的形態(tài)。
4、大數(shù)據(jù)應(yīng)用的策略、方式和收益
4.1數(shù)據(jù)統(tǒng)計(jì)是最直接應(yīng)用
數(shù)據(jù)統(tǒng)計(jì)是大數(shù)據(jù)應(yīng)用的最直觀的形式,數(shù)據(jù)統(tǒng)計(jì)在企業(yè)中常被稱(chēng)為商業(yè)智能(BI, BusinessIntelligence)系統(tǒng),使用者們通過(guò)觀察數(shù)據(jù)報(bào)表來(lái)掌握企業(yè)的經(jīng)營(yíng)狀況,發(fā)現(xiàn)企業(yè)運(yùn)營(yíng)的問(wèn)題。大數(shù)據(jù)技術(shù)利用各種分析方法和工具在大規(guī)模海量數(shù)據(jù)中建立模型和發(fā)現(xiàn)數(shù)據(jù)間的潛在關(guān)系,幫助管理者們發(fā)現(xiàn)著眼點(diǎn)。
隨著技術(shù)的進(jìn)步,數(shù)據(jù)統(tǒng)計(jì)應(yīng)用發(fā)展的越來(lái)越迅速,例如傳統(tǒng)按周按天生成的數(shù)據(jù)報(bào)表,可以縮短為小時(shí)級(jí)甚至分鐘級(jí),同時(shí)報(bào)表的細(xì)分刻畫(huà)能力也更強(qiáng),有助于更及時(shí)的掌握業(yè)務(wù)變化情況,更深入了解變化的細(xì)節(jié)。
4.2個(gè)性化技術(shù)蘊(yùn)藏巨大價(jià)值
每個(gè)人生來(lái)就是與眾不同的,需求也天然是個(gè)性化的。以時(shí)裝產(chǎn)業(yè)為例,每個(gè)用戶(hù)穿著打扮的口味、偏好、喜愛(ài)的款式是各不相同的,大數(shù)據(jù)能充分發(fā)揮所長(zhǎng),挖掘出用戶(hù)的個(gè)性化需求并加以滿(mǎn)足。亞馬遜公司(Amazon)通過(guò)挖掘用戶(hù)在線(xiàn)的瀏覽行為和購(gòu)買(mǎi)記錄,成功挖掘出了用戶(hù)個(gè)性化模型并進(jìn)行針對(duì)性商品推薦,極大促進(jìn)了商品的購(gòu)買(mǎi)率。目前亞馬遜上超過(guò)30%的購(gòu)買(mǎi)收入由個(gè)性化推薦系統(tǒng)所貢獻(xiàn),是了不起的成就。
私人訂制就是個(gè)性化的一個(gè)典型案例,以往私人訂制是高端人群獨(dú)有的服務(wù),價(jià)格昂貴,耗時(shí)耗力,而大數(shù)據(jù)技術(shù)能將定制過(guò)程自動(dòng)化,降低成本,讓普羅大眾享受到個(gè)性化服務(wù)的優(yōu)勢(shì)。亞馬遜(Amazon)總裁杰夫·貝佐斯曾說(shuō)過(guò):“如果我的網(wǎng)站有一百萬(wàn)個(gè)顧客,我就應(yīng)該有一百萬(wàn)個(gè)商店”。
個(gè)性化數(shù)據(jù)技術(shù)對(duì)合理調(diào)配企業(yè)資源也有積極的意義,例如美國(guó)的Dunnhumby Shop公司通過(guò)分析消費(fèi)者來(lái)訪(fǎng)問(wèn)超市的時(shí)間和消費(fèi)明細(xì),對(duì)不同顧客群體采取針對(duì)性的促銷(xiāo)手段,同時(shí)幫助供應(yīng)商對(duì)不同區(qū)域制訂合理有效的價(jià)格和庫(kù)存和配送方案,合理的節(jié)約了運(yùn)營(yíng)成本。
4.3最有吸引力的應(yīng)用:預(yù)測(cè)技術(shù)
我們每天都在進(jìn)行著大大小小的預(yù)測(cè):如預(yù)測(cè)從家里出發(fā)到工作地點(diǎn)所需要的時(shí)間;預(yù)測(cè)某款產(chǎn)品發(fā)布以后一個(gè)月內(nèi)的訂單量。預(yù)測(cè)的愈準(zhǔn)確,則成功的把握愈大。如果我們擁有百分之百準(zhǔn)確的預(yù)測(cè)能力,像先知穆罕默德那樣,就會(huì)變得無(wú)往不利。
誰(shuí)能預(yù)知未來(lái)?——大數(shù)據(jù)技術(shù)能幫你做到,因?yàn)樗熘^(guò)去。隨著技術(shù)的進(jìn)步,借助時(shí)間序列分析技術(shù),·通過(guò)對(duì)趨勢(shì)、季節(jié)變動(dòng)、循環(huán)波動(dòng)和不規(guī)則波動(dòng)的因素的細(xì)致把握,大數(shù)據(jù)正在賦予我們更強(qiáng)的洞察未來(lái)的能力。
美國(guó)第二大連鎖超市Target,通過(guò)大數(shù)據(jù)技術(shù)分析顧客的詳細(xì)購(gòu)買(mǎi)記錄,判斷出某位還在讀書(shū)的年輕女孩已經(jīng)懷孕了,并給她寄去了大量嬰兒用品的優(yōu)惠券,這位女孩的父親收到優(yōu)惠券后極為驚訝,經(jīng)過(guò)和女兒的進(jìn)一步溝通才發(fā)現(xiàn)真的已經(jīng)有孕在身了。大數(shù)據(jù)技術(shù)比父親更早預(yù)測(cè)出了這個(gè)真實(shí)的真相。
4.4分類(lèi)和回歸技術(shù)
如同諺語(yǔ)“朝霞不出門(mén),晚霞行千里”所說(shuō)的,我們常常通過(guò)經(jīng)驗(yàn)來(lái)分析不同現(xiàn)象之間存在的潛在關(guān)聯(lián)和因果關(guān)系。而如今大數(shù)據(jù)技術(shù)能代替人工經(jīng)驗(yàn)來(lái)更好的分析數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,幫助找出規(guī)律。常見(jiàn)的包括兩類(lèi)技術(shù),一類(lèi)稱(chēng)為回歸分析技術(shù)(Regression Analysis),它通過(guò)統(tǒng)計(jì)科學(xué)來(lái)把握兩個(gè)或多個(gè)變量間相關(guān)關(guān)系的強(qiáng)度。另一類(lèi)稱(chēng)為分類(lèi)技術(shù)(Classification),分類(lèi)是指通過(guò)分析已標(biāo)注好的訓(xùn)練數(shù)據(jù),來(lái)自動(dòng)的將新的未知數(shù)據(jù)按種類(lèi)、等級(jí)或性質(zhì)分別歸類(lèi)的過(guò)程。
分類(lèi)和回歸是人腦最常進(jìn)行的操作,現(xiàn)在計(jì)算機(jī)也能逐步代替人類(lèi)完成這樣的操作,且效率是人類(lèi)的數(shù)萬(wàn)倍。典型的應(yīng)用是英國(guó)Adzuna公司根據(jù)積累的海量職位薪酬數(shù)據(jù),自動(dòng)為招聘雙方提供薪酬制定的科學(xué)依據(jù),其最優(yōu)的預(yù)測(cè)算法非常精確,生成的預(yù)測(cè)值和實(shí)際薪水值誤差不到10%。Adzuna已成為英國(guó)內(nèi)閣高官“幕后智囊團(tuán)”,幫助英國(guó)政府了解失業(yè)率、職位空缺、薪資水平等經(jīng)濟(jì)發(fā)展情況,制定國(guó)策。
4.5輔助決策系統(tǒng)
企業(yè)戰(zhàn)略決策往往決定了企業(yè)的生死存亡,怎樣才能更科學(xué)合理進(jìn)行決策?華為公司總裁任正非曾說(shuō)過(guò)“要讓聽(tīng)得見(jiàn)炮火的人來(lái)決策”,提出了要從實(shí)際數(shù)據(jù)中產(chǎn)生科學(xué)決策結(jié)果。
大數(shù)據(jù)技術(shù)基于海量一線(xiàn)數(shù)據(jù),能讓決策更科學(xué),降低誤判的風(fēng)險(xiǎn)。其中大數(shù)據(jù)輔助分析有一個(gè)稱(chēng)為GREAT的原則:Guided, Relevant, Explainable, Actionable, Timely,基于GREAT原則越來(lái)越多的企業(yè)將會(huì)用好大數(shù)據(jù),發(fā)揮智囊團(tuán)的作用。
5、大數(shù)據(jù)時(shí)代的探索、機(jī)遇和挑戰(zhàn)
5.1國(guó)內(nèi)外大數(shù)據(jù)行業(yè)發(fā)展態(tài)勢(shì)
在上述大數(shù)據(jù)技術(shù)上,通過(guò)串聯(lián)起特定的數(shù)據(jù)采集、存儲(chǔ)、挖掘、應(yīng)用的機(jī)制,就能誕生出一個(gè)個(gè)具體的創(chuàng)新應(yīng)用。例如通過(guò)RFID技術(shù)采集倉(cāng)儲(chǔ)信息,在云端存儲(chǔ)數(shù)據(jù)并加上預(yù)測(cè)技術(shù),能實(shí)現(xiàn)一個(gè)智能的物流管理系統(tǒng);通過(guò)可穿戴感知器設(shè)備,加上私有云、個(gè)性化、社交網(wǎng)絡(luò)等技術(shù),則可以實(shí)現(xiàn)一個(gè)智能健康管理系統(tǒng)等等,可供拓展的機(jī)會(huì)有很多。
近年來(lái)大數(shù)據(jù)行業(yè)發(fā)展極為熱烈:2009年美國(guó)政府啟動(dòng)Data.gov網(wǎng)站開(kāi)放了社會(huì)公共數(shù)據(jù)的大門(mén),向公眾提供各種各樣的政府?dāng)?shù)據(jù)。2009年歐洲一些研究型圖書(shū)館和科技信息研究機(jī)構(gòu)建立了伙伴關(guān)系,致力于改善在互聯(lián)網(wǎng)上獲取科學(xué)數(shù)據(jù)的簡(jiǎn)易性。2011年中國(guó)工信部發(fā)布了物聯(lián)網(wǎng)十二五規(guī)劃,將信息處理技術(shù)作為4 項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程提出,包括了海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、圖像視頻智能分析,都是大數(shù)據(jù)的重要組成部分。2012年瑞士達(dá)沃斯世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)是主題之一,會(huì)上發(fā)布的報(bào)告《大數(shù)據(jù),大影響B(tài)igData, Big Impact》 宣稱(chēng),數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn),就像貨幣或黃金。近年來(lái)大數(shù)據(jù)行業(yè)的投資并購(gòu),新興企業(yè)發(fā)展等,更是呈現(xiàn)出如火如荼的發(fā)展態(tài)勢(shì)。
5.2大數(shù)據(jù)時(shí)代面臨的風(fēng)險(xiǎn)挑戰(zhàn)
大數(shù)據(jù)時(shí)代所面臨的重大風(fēng)險(xiǎn)之一是用戶(hù)的隱私保護(hù)問(wèn)題。近年來(lái)國(guó)內(nèi)外多起的密碼泄漏、隱私侵權(quán)等事件,暴露了這方面存在的問(wèn)題。一方面我們需要對(duì)用戶(hù)數(shù)據(jù)進(jìn)行創(chuàng)新性的挖掘,另一方面還需要兼顧用戶(hù)隱私的保護(hù),兩者是硬幣的正反兩面,其平衡和博弈的問(wèn)題會(huì)始終存在。
大數(shù)據(jù)思維則是面臨的更嚴(yán)峻挑戰(zhàn),則來(lái)自思維方式的轉(zhuǎn)變。在企業(yè)經(jīng)營(yíng)逐步從傳統(tǒng)粗放式向大數(shù)據(jù)精細(xì)化轉(zhuǎn)向時(shí),以往“差不多”、“還可以”、“領(lǐng)導(dǎo)說(shuō)”等拍腦袋決策的方式要逐步讓位于精確的數(shù)據(jù)分析、統(tǒng)計(jì)、預(yù)測(cè)系統(tǒng),從“行或不行,官大的說(shuō)了算”轉(zhuǎn)變?yōu)椤靶谢虿恍?,?shù)據(jù)說(shuō)了算”,從“事后統(tǒng)計(jì)”轉(zhuǎn)變?yōu)椤笆虑邦A(yù)測(cè)”,是大數(shù)據(jù)思維方式的落實(shí)和轉(zhuǎn)變。
5.3大數(shù)據(jù)時(shí)代的創(chuàng)新機(jī)遇
信息技術(shù)正在以突飛猛進(jìn)的速度向前進(jìn)步,包括新傳感器采集技術(shù)、移動(dòng)互聯(lián)網(wǎng)技術(shù)、社交網(wǎng)絡(luò)技術(shù)的蓬勃發(fā)展,將帶來(lái)大量的創(chuàng)新性應(yīng)用。大數(shù)據(jù)是新時(shí)代的石油,通過(guò)研發(fā)分析各種多元結(jié)構(gòu)化數(shù)據(jù)的高效技術(shù),提高數(shù)據(jù)產(chǎn)品的易用性,讓數(shù)據(jù)分析實(shí)現(xiàn)“開(kāi)箱即用”,其蘊(yùn)藏的巨大能量將使數(shù)據(jù)成為政府和企業(yè)建立核心競(jìng)爭(zhēng)力的關(guān)鍵途徑,甚至能夠顛覆很多傳統(tǒng)行業(yè)的運(yùn)作方式,帶領(lǐng)我們進(jìn)入信息革命的新時(shí)代。
對(duì)我們每個(gè)人而言,跟隨大數(shù)據(jù)的浪潮,把握機(jī)遇,投身其中,在大數(shù)據(jù)創(chuàng)新的浪潮之巔定能一展身手。
(來(lái)源:達(dá)觀數(shù)據(jù))