您當前位置> 主頁 > 知識 > 人(rén)工智能、大(dà)數(shù)據
大(dà)數(shù)據
發表時(shí)間(jiān):2022-08-19 08:39:05
文章作(zuò)者:小(xiǎo)編
浏覽次數(shù):
對于“大(dà)數(shù)據”(Big data)研究機構Gartner給出了這樣的定義。“大(dà)數(shù)據”是需要新處理(lǐ)模式才能具有(yǒu)更強的決策力、洞察發現力和(hé)流程優化能力來(lái)适應海量、高(gāo)增長率和(hé)多(duō)樣化的信息資産。
麥肯錫全球研究所給出的定義是:一種規模大(dà)到在獲取、存儲、管理(lǐ)、分析方面大(dà)大(dà)超出了傳統數(shù)據庫軟件工具能力範圍的數(shù)據集合,具有(yǒu)海量的數(shù)據規模、快速的數(shù)據流轉、多(duō)樣的數(shù)據類型和(hé)價值密度低(dī)四大(dà)特征。[3]
大(dà)數(shù)據技(jì)術(shù)的戰略意義不在于掌握龐大(dà)的數(shù)據信息,而在于對這些(xiē)含有(yǒu)意義的數(shù)據進行(xíng)專業化處理(lǐ)。換而言之,如果把大(dà)數(shù)據比作(zuò)一種産業,那(nà)麽這種産業實現盈利的關鍵,在于提高(gāo)對數(shù)據的“加工能力”,通(tōng)過“加工”實現數(shù)據的“增值”。[4]
從技(jì)術(shù)上(shàng)看,大(dà)數(shù)據與雲計(jì)算(suàn)的關系就像一枚硬币的正反面一樣密不可(kě)分。大(dà)數(shù)據必然無法用單台的計(jì)算(suàn)機進行(xíng)處理(lǐ),必須采用分布式架構。它的特色在于對海量數(shù)據進行(xíng)分布式數(shù)據挖掘。但(dàn)它必須依托雲計(jì)算(suàn)的分布式處理(lǐ)、分布式數(shù)據庫和(hé)雲存儲、虛拟化技(jì)術(shù)。[1]
随着雲時(shí)代的來(lái)臨,大(dà)數(shù)據(Big
data)也吸引了越來(lái)越多(duō)的關注。分析師(shī)團隊認為(wèi),大(dà)數(shù)據(Big
data)通(tōng)常用來(lái)形容一個(gè)公司創造的大(dà)量非結構化數(shù)據和(hé)半結構化數(shù)據,這些(xiē)數(shù)據在下載到關系型數(shù)據庫用于分析時(shí)會(huì)花(huā)費過多(duō)時(shí)間(jiān)和(hé)金錢(qián)。大(dà)數(shù)據分析常和(hé)雲計(jì)算(suàn)聯系到一起,因為(wèi)實時(shí)的大(dà)型數(shù)據集分析需要像MapReduce一樣的框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)千的電(diàn)腦(nǎo)分配工作(zuò)。
大(dà)數(shù)據需要特殊的技(jì)術(shù),以有(yǒu)效地處理(lǐ)大(dà)量的容忍經過時(shí)間(jiān)內(nèi)的數(shù)據。适用于大(dà)數(shù)據的技(jì)術(shù),包括大(dà)規模并行(xíng)處理(lǐ)(MPP)數(shù)據庫、數(shù)據挖掘、分布式文件系統、分布式數(shù)據庫、雲計(jì)算(suàn)平台、互聯網和(hé)可(kě)擴展的存儲系統。
最小(xiǎo)的基本單位是bit,按順序給出所有(yǒu)單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它們按照進率1024(2的十次方)來(lái)計(jì)算(suàn):
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
價值(value):合理(lǐ)運用大(dà)數(shù)據,以低(dī)成本創造高(gāo)價值。
大(dà)數(shù)據包括結構化、半結構化和(hé)非結構化數(shù)據,非結構化數(shù)據越來(lái)越成為(wèi)數(shù)據的主要部分。據IDC的調查報告顯示:企業中80%的數(shù)據都是非結構化數(shù)據,這些(xiē)數(shù)據每年都按指數(shù)增長60%。[6] 大(dà)數(shù)據就是互聯網發展到現今階段的一種表象或特征而已,沒有(yǒu)必要神話(huà)它或對它保持敬畏之心,在以雲計(jì)算(suàn)為(wèi)代表的技(jì)術(shù)創新大(dà)幕的襯托下,這些(xiē)原本看起來(lái)很(hěn)難收集和(hé)使用的數(shù)據開(kāi)始容易被利用起來(lái)了,通(tōng)過各行(xíng)各業的不斷創新,大(dà)數(shù)據會(huì)逐步為(wèi)人(rén)類創造更多(duō)的價值。[7]
其次,想要系統的認知大(dà)數(shù)據,必須要全面而細緻的分解它,着手從三個(gè)層面來(lái)展開(kāi):
第一層面是理(lǐ)論,理(lǐ)論是認知的必經途徑,也是被廣泛認同和(hé)傳播的基線。在這裏從大(dà)數(shù)據的特征定義理(lǐ)解行(xíng)業對大(dà)數(shù)據的整體(tǐ)描繪和(hé)定性;從對大(dà)數(shù)據價值的探討(tǎo)來(lái)深入解析大(dà)數(shù)據的珍貴所在;洞悉大(dà)數(shù)據的發展趨勢;從大(dà)數(shù)據隐私這個(gè)特别而重要的視(shì)角審視(shì)人(rén)和(hé)數(shù)據之間(jiān)的長久博弈。
第二層面是技(jì)術(shù),技(jì)術(shù)是大(dà)數(shù)據價值體(tǐ)現的手段和(hé)前進的基石。在這裏分别從雲計(jì)算(suàn)、分布式處理(lǐ)技(jì)術(shù)、存儲技(jì)術(shù)和(hé)感知技(jì)術(shù)的發展來(lái)說明(míng)大(dà)數(shù)據從采集、處理(lǐ)、存儲到形成結果的整個(gè)過程。
第三層面是實踐,實踐是大(dà)數(shù)據的最終價值體(tǐ)現。在這裏分别從互聯網的大(dà)數(shù)據,政府的大(dà)數(shù)據,企業的大(dà)數(shù)據和(hé)個(gè)人(rén)的大(dà)數(shù)據四個(gè)方面來(lái)描繪大(dà)數(shù)據已經展現的美好景象及即将實現的藍(lán)圖。[7]
洛杉矶警察局和(hé)加利福尼亞大(dà)學合作(zuò)利用大(dà)數(shù)據預測犯罪的發生(shēng)。
Google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散布。
統計(jì)學家(jiā)內(nèi)特·西爾弗(Nate Silver)利用大(dà)數(shù)據預測2012美國選舉結果。
麻省理(lǐ)工學院利用手機定位數(shù)據和(hé)交通(tōng)數(shù)據建立城市規劃。
醫(yī)療行(xíng)業早就遇到了海量數(shù)據和(hé)非結構化數(shù)據的挑戰,而近年來(lái)很(hěn)多(duō)國家(jiā)都在積極推進醫(yī)療信息化發展,這使得(de)很(hěn)多(duō)醫(yī)療機構有(yǒu)資金來(lái)做(zuò)大(dà)數(shù)據分析。[9]
現在的社會(huì)是一個(gè)高(gāo)速發展的社會(huì),科技(jì)發達,信息流通(tōng),人(rén)們之間(jiān)的交流越來(lái)越密切,生(shēng)活也越來(lái)越方便,大(dà)數(shù)據就是這個(gè)高(gāo)科技(jì)時(shí)代的産物。[10] 阿裏巴巴創辦人(rén)馬雲來(lái)台演講中就提到,未來(lái)的時(shí)代将不是IT時(shí)代,而是DT的時(shí)代,DT就是Data Technology數(shù)據科技(jì),顯示大(dà)數(shù)據對于阿裏巴巴集團來(lái)說舉足輕重。[11]
有(yǒu)人(rén)把數(shù)據比喻為(wèi)蘊藏能量的煤礦。煤炭按照性質有(yǒu)焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山(shān)煤礦的挖掘成本又不一樣。與此類似,大(dà)數(shù)據并不在“大(dà)”,而在于“有(yǒu)用”。價值含量、挖掘成本比數(shù)量更為(wèi)重要。對于很(hěn)多(duō)行(xíng)業而言,如何利用這些(xiē)大(dà)規模數(shù)據是赢得(de)競争的關鍵。[12]
大(dà)數(shù)據的價值體(tǐ)現在以下幾個(gè)方面:
(1)對大(dà)量消費者提供産品或服務的企業可(kě)以利用大(dà)數(shù)據進行(xíng)精準營銷;
(2)做(zuò)小(xiǎo)而美模式的中小(xiǎo)微企業可(kě)以利用大(dà)數(shù)據做(zuò)服務轉型;
(3)面臨互聯網壓力之下必須轉型的傳統企業需要與時(shí)俱進充分利用大(dà)數(shù)據的價值。
不過,“大(dà)數(shù)據”在經濟發展中的巨大(dà)意義并不代表其能取代一切對于社會(huì)問題的理(lǐ)性思考,科學發展的邏輯不能被湮沒在海量數(shù)據中。著名經濟學家(jiā)路德維希·馮·米塞斯曾提醒過:“就今日言,有(yǒu)很(hěn)多(duō)人(rén)忙碌于資料之無益累積,以緻對問題之說明(míng)與解決,喪失了其對特殊的經濟意義的了解。”這确實是需要警惕的。
在這個(gè)快速發展的智能硬件時(shí)代,困擾應用開(kāi)發者的一個(gè)重要問題就是如何在功率、覆蓋範圍、傳輸速率和(hé)成本之間(jiān)找到那(nà)個(gè)微妙的平衡點。企業組織利用相關數(shù)據和(hé)分析可(kě)以幫助它們降低(dī)成本、提高(gāo)效率、開(kāi)發新産品、做(zuò)出更明(míng)智的業務決策等等。例如,通(tōng)過結合大(dà)數(shù)據和(hé)高(gāo)性能的分析,下面這些(xiē)對企業有(yǒu)益的情況都可(kě)能會(huì)發生(shēng):
(1)及時(shí)解析故障、問題和(hé)缺陷的根源,每年可(kě)能為(wèi)企業節省數(shù)十億美元。
(2)為(wèi)成千上(shàng)萬的快遞車(chē)輛(liàng)規劃實時(shí)交通(tōng)路線,躲避擁堵。
(3)分析所有(yǒu)SKU,以利潤最大(dà)化為(wèi)目标來(lái)定價和(hé)清理(lǐ)庫存。
(4)根據客戶的購買習慣,為(wèi)其推送他可(kě)能感興趣的優惠信息。
(5)從大(dà)量客戶中快速識别出金牌客戶。
趨勢一:數(shù)據的資源化
何為(wèi)資源化,是指大(dà)數(shù)據成為(wèi)企業和(hé)社會(huì)關注的重要戰略資源,并已成為(wèi)大(dà)家(jiā)争相搶奪的新焦點。因而,企業必須要提前制(zhì)定大(dà)數(shù)據營銷戰略計(jì)劃,搶占市場(chǎng)先機。
趨勢二:與雲計(jì)算(suàn)的深度結合
大(dà)數(shù)據離不開(kāi)雲處理(lǐ),雲處理(lǐ)為(wèi)大(dà)數(shù)據提供了彈性可(kě)拓展的基礎設備,是産生(shēng)大(dà)數(shù)據的平台之一。自2013年開(kāi)始,大(dà)數(shù)據技(jì)術(shù)已開(kāi)始和(hé)雲計(jì)算(suàn)技(jì)術(shù)緊密結合,預計(jì)未來(lái)兩者關系将更為(wèi)密切。除此之外,物聯網、移動互聯網等新興計(jì)算(suàn)形态,也将一齊助力大(dà)數(shù)據革命,讓大(dà)數(shù)據營銷發揮出更大(dà)的影(yǐng)響力。
趨勢三:科學理(lǐ)論的突破
随着大(dà)數(shù)據的快速發展,就像計(jì)算(suàn)機和(hé)互聯網一樣,大(dà)數(shù)據很(hěn)有(yǒu)可(kě)能是新一輪的技(jì)術(shù)革命。随之興起的數(shù)據挖掘、機器(qì)學習和(hé)人(rén)工智能等相關技(jì)術(shù),可(kě)能會(huì)改變數(shù)據世界裏的很(hěn)多(duō)算(suàn)法和(hé)基礎理(lǐ)論,實現科學技(jì)術(shù)上(shàng)的突破。
趨勢四:數(shù)據科學和(hé)數(shù)據聯盟的成立
未來(lái),數(shù)據科學将成為(wèi)一門(mén)專門(mén)的學科,被越來(lái)越多(duō)的人(rén)所認知。各大(dà)高(gāo)校(xiào)将設立專門(mén)的數(shù)據科學類專業,也會(huì)催生(shēng)一批與之相關的新的就業崗位。與此同時(shí),基于數(shù)據這個(gè)基礎平台,也将建立起跨領域的數(shù)據共享平台,之後,數(shù)據共享将擴展到企業層面,并且成為(wèi)未來(lái)産業的核心一環。
趨勢五:數(shù)據洩露泛濫
未來(lái)幾年數(shù)據洩露事件的增長率也許會(huì)達到100%,除非數(shù)據在其源頭就能夠得(de)到安全保障。可(kě)以說,在未來(lái),每個(gè)财富500強企業都會(huì)面臨數(shù)據攻擊,無論他們是否已經做(zuò)好安全防範。而所有(yǒu)企業,無論規模大(dà)小(xiǎo),都需要重新審視(shì)今天的安全定義。在财富500強企業中,超過50%将會(huì)設置首席信息安全官這一職位。企業需要從新的角度來(lái)确保自身以及客戶數(shù)據,所有(yǒu)數(shù)據在創建之初便需要獲得(de)安全保障,而并非在數(shù)據保存的最後一個(gè)環節,僅僅加強後者的安全措施已被證明(míng)于事無補。
趨勢六:數(shù)據管理(lǐ)成為(wèi)核心競争力
數(shù)據管理(lǐ)成為(wèi)核心競争力,直接影(yǐng)響财務表現。當“數(shù)據資産是企業核心資産”的概念深入人(rén)心之後,企業對于數(shù)據管理(lǐ)便有(yǒu)了更清晰的界定,将數(shù)據管理(lǐ)作(zuò)為(wèi)企業核心競争力,持續發展,戰略性規劃與運用數(shù)據資産,成為(wèi)企業數(shù)據管理(lǐ)的核心。數(shù)據資産管理(lǐ)效率與主營業務收入增長率、銷售收入增長率顯著正相關;此外,對于具有(yǒu)互聯網思維的企業而言,數(shù)據資産競争力所占比重為(wèi)36.8%,數(shù)據資産的管理(lǐ)效果将直接影(yǐng)響企業的财務表現。
趨勢七:數(shù)據質量是BI(商業智能)成功的關鍵
采用自助式商業智能工具進行(xíng)大(dà)數(shù)據處理(lǐ)的企業将會(huì)脫穎而出。其中要面臨的一個(gè)挑戰是,很(hěn)多(duō)數(shù)據源會(huì)帶來(lái)大(dà)量低(dī)質量數(shù)據。想要成功,企業需要理(lǐ)解原始數(shù)據與數(shù)據分析之間(jiān)的差距,從而消除低(dī)質量數(shù)據并通(tōng)過BI獲得(de)更佳決策。
趨勢八:數(shù)據生(shēng)态系統複合化程度加強
大(dà)數(shù)據的世界不隻是一個(gè)單一的、巨大(dà)的計(jì)算(suàn)機網絡,而是一個(gè)由大(dà)量活動構件與多(duō)元參與者元素所構成的生(shēng)态系統,終端設備提供商、基礎設施提供商、網絡服務提供商、網絡接入服務提供商、數(shù)據服務使能者、數(shù)據服務提供商、觸點服務、數(shù)據服務零售商等等一系列的參與者共同構建的生(shēng)态系統。而今,這樣一套數(shù)據生(shēng)态系統的基本雛形已然形成,接下來(lái)的發展将趨向于系統內(nèi)部角色的細分,也就是市場(chǎng)的細分;系統機制(zhì)的調整,也就是商業模式的創新;系統結構的調整,也就是競争環境的調整等等,從而使得(de)數(shù)據生(shēng)态系統複合化程度逐漸增強。[14]
大(dà)數(shù)據概念應用到IT操作(zuò)工具産生(shēng)的數(shù)據中,大(dà)數(shù)據可(kě)以使IT管理(lǐ)軟件供應商解決大(dà)廣泛的業務決策。IT系統、應用和(hé)技(jì)術(shù)基礎設施每天每秒(miǎo)都在産生(shēng)數(shù)據。大(dà)數(shù)據非結構化或者結構數(shù)據都代表了“所有(yǒu)用戶的行(xíng)為(wèi)、服務級别、安全、風險、欺詐行(xíng)為(wèi)等更多(duō)操作(zuò)”的絕對記錄。
大(dà)數(shù)據分析的産生(shēng)旨在于IT管理(lǐ),企業可(kě)以将實時(shí)數(shù)據流分析和(hé)曆史相關數(shù)據相結合,然後大(dà)數(shù)據分析并發現它們所需的模型。反過來(lái),幫助預測和(hé)預防未來(lái)運行(xíng)中斷和(hé)性能問題。進一步來(lái)講,他們可(kě)以利用大(dà)數(shù)據了解使用模型以及地理(lǐ)趨勢,進而加深大(dà)數(shù)據對重要用戶的洞察力。他們也可(kě)以追蹤和(hé)記錄網絡行(xíng)為(wèi),大(dà)數(shù)據輕松地識别業務影(yǐng)響;随着對服務利用的深刻理(lǐ)解加快利潤增長;同時(shí)跨多(duō)系統收集數(shù)據發展IT服務目錄。
大(dà)數(shù)據分析的想法,尤其在IT操作(zuò)方面,大(dà)數(shù)據對于我們發明(míng)并沒有(yǒu)什麽作(zuò)用,但(dàn)是我們一直在其中。Gartner已經關注這個(gè)話(huà)題很(hěn)多(duō)年了,基本上(shàng)他們已經強調,如果IT正在引進新鮮靈感,他們将會(huì)扔掉大(dà)數(shù)據老式方法開(kāi)發一個(gè)新的IT操作(zuò)分析平台。[15]
經李克強總理(lǐ)簽批,2015年9月,國務院印發《促進大(dà)數(shù)據發展行(xíng)動綱要》(以下簡稱《綱要》),系統部署大(dà)數(shù)據發展工作(zuò)。
《綱要》明(míng)确,推動大(dà)數(shù)據發展和(hé)應用,在未來(lái)5至10年打造精準治理(lǐ)、多(duō)方協作(zuò)的社會(huì)治理(lǐ)新模式,建立運行(xíng)平穩、安全高(gāo)效的經濟運行(xíng)新機制(zhì),構建以人(rén)為(wèi)本、惠及全民的民生(shēng)服務新體(tǐ)系,開(kāi)啓大(dà)衆創業、萬衆創新的創新驅動新格局,培育高(gāo)端智能、新興繁榮的産業發展新生(shēng)态。
《綱要》部署三方面主要任務。一要加快政府數(shù)據開(kāi)放共享,推動資源整合,提升治理(lǐ)能力。大(dà)力推動政府部門(mén)數(shù)據共享,穩步推動公共數(shù)據資源開(kāi)放,統籌規劃大(dà)數(shù)據基礎設施建設,支持宏觀調控科學化,推動政府治理(lǐ)精準化,推進商事服務便捷化,促進安全保障高(gāo)效化,加快民生(shēng)服務普惠化。二要推動産業創新發展,培育新興業态,助力經濟轉型。發展大(dà)數(shù)據在工業、新興産業、農業農村等行(xíng)業領域應用,推動大(dà)數(shù)據發展與科研創新有(yǒu)機結合,推進基礎研究和(hé)核心技(jì)術(shù)攻關,形成大(dà)數(shù)據産品體(tǐ)系,完善大(dà)數(shù)據産業鏈。三要強化安全保障,提高(gāo)管理(lǐ)水(shuǐ)平,促進健康發展。健全大(dà)數(shù)據安全保障體(tǐ)系,強化安全支撐。[16]
2015年9月18日貴州省啓動我國首個(gè)大(dà)數(shù)據綜合試驗區(qū)的建設工作(zuò),力争通(tōng)過3至5年的努力,将貴州大(dà)數(shù)據綜合試驗區(qū)建設成為(wèi)全國數(shù)據彙聚應用新高(gāo)地、綜合治理(lǐ)示範區(qū)、産業發展聚集區(qū)、創業創新首選地、政策創新先行(xíng)區(qū)。
圍繞這一目标,貴州省将重點構建“三大(dà)體(tǐ)系”,重點打造“七大(dà)平台”,實施“十大(dà)工程”。
“三大(dà)體(tǐ)系”是指構建先行(xíng)先試的政策法規體(tǐ)系、跨界融合的産業生(shēng)态體(tǐ)系、防控一體(tǐ)的安全保障體(tǐ)系;“七大(dà)平台”則是指打造大(dà)數(shù)據示範平台、大(dà)數(shù)據集聚平台、大(dà)數(shù)據應用平台、大(dà)數(shù)據交易平台、大(dà)數(shù)據金融服務平台、大(dà)數(shù)據交流合作(zuò)平台和(hé)大(dà)數(shù)據創業創新平台;“十大(dà)工程”即實施數(shù)據資源彙聚工程、政府數(shù)據共享開(kāi)放工程、綜合治理(lǐ)示範提升工程、大(dà)數(shù)據便民惠民工程、大(dà)數(shù)據三大(dà)業态培育工程、傳統産業改造升級工程、信息基礎設施提升工程、人(rén)才培養引進工程、大(dà)數(shù)據安全保障工程和(hé)大(dà)數(shù)據區(qū)域試點統籌發展工程。
此外,貴州省将計(jì)劃通(tōng)過綜合試驗區(qū)建設,探索大(dà)數(shù)據應用的創新模式,培育大(dà)數(shù)據交易新的做(zuò)法,開(kāi)展數(shù)據交易的市場(chǎng)試點,鼓勵産業鏈上(shàng)下遊之間(jiān)的數(shù)據交換,規範數(shù)據資源的交易行(xíng)為(wèi),促進形成新的業态。
國家(jiā)發展改革委有(yǒu)關專家(jiā)表示,大(dà)數(shù)據綜合試驗區(qū)建設不是簡單的建産業園、建數(shù)據中心、建雲平台等,而是要充分依托已有(yǒu)的設施資源,把現有(yǒu)的利用好,把新建的規劃好,避免造成空(kōng)間(jiān)資源的浪費和(hé)損失。探索大(dà)數(shù)據應用新的模式,圍繞有(yǒu)數(shù)據、用數(shù)據、管數(shù)據,開(kāi)展先行(xíng)先試,更好地服務國家(jiā)大(dà)數(shù)據發展戰略。[17]
2016年3月17日,《中華人(rén)民共和(hé)國國民經濟和(hé)社會(huì)發展第十三個(gè)五年規劃綱要》發布,其中第二十七章“實施國家(jiā)大(dà)數(shù)據戰略”提出:把大(dà)數(shù)據作(zuò)為(wèi)基礎性戰略資源,全面實施促進大(dà)數(shù)據發展行(xíng)動,加快推動數(shù)據資源共享開(kāi)放和(hé)開(kāi)發應用,助力産業轉型升級和(hé)社會(huì)治理(lǐ)創新;具體(tǐ)包括:加快政府數(shù)據開(kāi)放共享、促進大(dà)數(shù)據産業健康發展。 [1