網(wǎng)站地圖聯(lián)系我們English中國科學(xué)院
您現(xiàn)在的位置:首頁 > 科學(xué)傳播 > 微媒精選
“大數(shù)據(jù)”如此熱門,真正的源頭在哪里?
2018-06-04 |文章來源: 小溪| 瀏覽次數(shù):  |

  ■ 小溪/撰文  汪璐/審校

    近些年來,“大數(shù)據(jù)(Big Data)”已成為一個受全世界關(guān)注的熱門詞匯,在科研、電信、金融、教育、醫(yī)療、軍事、電子商務(wù)甚至國家及政府機(jī)構(gòu)的決策時都離不開大數(shù)據(jù)技術(shù)的身影,幾乎人類發(fā)展的所有領(lǐng)域都有大數(shù)據(jù)技術(shù)的應(yīng)用,甚至有人宣告:人類已經(jīng)被大數(shù)據(jù)浪潮席卷而進(jìn)入了大數(shù)據(jù)時代。

  其實(shí),“大數(shù)據(jù)”并不是很新的概念,早在好幾十年前,從事粒子物理實(shí)驗(yàn)研究的科學(xué)家就已經(jīng)面臨了如何處理實(shí)驗(yàn)中所獲得的海量數(shù)據(jù)的問題,可那時大多數(shù)人還根本不知道大數(shù)據(jù)是什么。真正的大數(shù)據(jù)并不僅是數(shù)據(jù)量大,而是一個包含了數(shù)據(jù)的獲取、傳輸、存儲、分析等綜合性的最前沿技術(shù)。最早擁有這種全面應(yīng)對技術(shù)的正是粒子物理實(shí)驗(yàn)領(lǐng)域。以這個視角看,真正的大數(shù)據(jù)之源應(yīng)屬于科學(xué)基礎(chǔ)研究前沿的粒子物理實(shí)驗(yàn)。

  1.計數(shù)的進(jìn)制

  先需要說明一下數(shù)字的進(jìn)位制,這與后面要說到的數(shù)據(jù)格式相關(guān)。

  進(jìn)位制是人們?yōu)榱擞嫈?shù)和運(yùn)算而約定的記數(shù)方式。多位數(shù)中,數(shù)字的位置不同表示的數(shù)值是不同的。約定一個基數(shù)n,只要滿了n就進(jìn)一位,這就是n進(jìn)位制,簡稱n進(jìn)制。

  從古至今,人類使用過的計數(shù)進(jìn)制五花八門,以下列出的是最主要的幾種:

  60進(jìn)制:古巴比倫人的計數(shù)采用60進(jìn)制,每小時60分鐘,每分鐘60秒,以及將圓周分為360度角,每度為60分,每分為60秒,這些都是巴比倫人最早提出的。中國古歷法使用的“干支”紀(jì)年也屬于60進(jìn)制,將10個“天干”(甲、乙、丙、丁、戊、己、庚、辛、壬、癸)與12個“地支”(子、丑、寅、卯、辰、巳、午、未、申、酉、戌、亥)按順序排列組合可列出60個不同的年份。

  20進(jìn)制:古代瑪雅人計數(shù)時20以下用5進(jìn)制,20以上用20進(jìn)制。

  16進(jìn)制:中國舊時稱重使用的是1斤=16兩。

  12進(jìn)制:公元年月是12進(jìn)制。古人由觀察天象認(rèn)識了天、月、年,以及氣候冷暖的變化周期。因一年中月亮有12次盈虧,由此對應(yīng)將一年分為12個月,這就是最初的12進(jìn)制。

  10進(jìn)制:很可能是因?yàn)槿擞?0個手指,用手指數(shù)數(shù)最方便,10進(jìn)制就成了人類最自然的計數(shù)方式,很多民族的文字中都有10個數(shù)字。目前使用最廣泛的10進(jìn)制阿拉伯?dāng)?shù)字0-9其實(shí)是古印度人發(fā)明的,后經(jīng)阿拉伯人傳到了全世界,被稱為阿拉伯?dāng)?shù)字。中國早在商代就采用十進(jìn)制(一、二、三、四、五、六、七、八、九、十、百、千、萬)。

  2進(jìn)制:只用0和1兩個基本數(shù)字,逢2進(jìn)位。大部分歷史資料中將2進(jìn)制的發(fā)明與18世紀(jì)德國的數(shù)理哲學(xué)大師萊布尼茲(G. W. Leibniz)聯(lián)系在一起,也有資料介紹英國數(shù)學(xué)家哈里奧特(T. Harriot)17世紀(jì)初就提出過這種計數(shù)法。萊布尼茲沒能見到前人的論述,他一直以為這是自己的獨(dú)創(chuàng)。但萊布尼茨的確是大力提倡2進(jìn)制的第一人,他在自己的論文中詳細(xì)說明了2進(jìn)制的算術(shù)原理,還給出了加、減、乘、除四則運(yùn)算的規(guī)則。只是在那個年代,這套2進(jìn)制理論就像個數(shù)字游戲,并沒有發(fā)現(xiàn)它有什么實(shí)用的價值。

  除了上述的幾種進(jìn)制還有8進(jìn)制、7進(jìn)制等等。

  2. 數(shù)據(jù)的挑戰(zhàn)

  社會的發(fā)展使人們面臨了數(shù)據(jù)的挑戰(zhàn)。

  1880年,美國政府部門進(jìn)行了全國人口普查,沒想到耗時約8年才完成了所有數(shù)據(jù)的匯總,但此時很多滯后的數(shù)據(jù)都已經(jīng)失去了價值,因?yàn)檎_定稅收分?jǐn)傄约皣鴷砣藬?shù)等,都需以人口普查的數(shù)據(jù)為基礎(chǔ)。美國政府每10年就進(jìn)行一次人口普查,由于人口的不斷增長,預(yù)計匯總1890年進(jìn)行的人口普查數(shù)據(jù)將要花費(fèi)13年。

  幸虧美國的一位統(tǒng)計學(xué)家霍爾瑞斯(H. Hollerith)發(fā)明了利用穿孔卡片收集及整理數(shù)據(jù)的制表機(jī),這大大加快了匯總?cè)丝谄詹閿?shù)據(jù)的速度,使原本需要10多年才能處理完的數(shù)據(jù)僅用了1年就處理完畢。這可以算作自動處理數(shù)據(jù)的開端,只不過霍爾瑞斯的這種方法需要每個人填寫一張可制成穿孔卡片的表格然后再進(jìn)行統(tǒng)計,不僅過程比較麻煩,成本也比較高。當(dāng)所獲的數(shù)據(jù)用已有的數(shù)據(jù)處理工具難以應(yīng)付之時——這就像要被數(shù)據(jù)所淹沒——迫切地需要數(shù)據(jù)處理的新技術(shù)。

美國人口調(diào)查局使用霍爾瑞斯發(fā)明的制表機(jī)匯總數(shù)據(jù)(圖片來自網(wǎng)絡(luò))

  1965年,美國預(yù)算局提出創(chuàng)建一個國家級的數(shù)據(jù)中心,目的是記錄每個美國人的教育、醫(yī)療、福利、犯罪和納稅等情況,計劃將這些數(shù)據(jù)保存在磁帶上便于有關(guān)部門提取。沒想到,這個提案在美國國會和公眾中引起了一場大風(fēng)波,人們認(rèn)為這會侵犯個人的隱私。民眾的抵制最終導(dǎo)致該計劃于1968年中止,但這個計劃通常被認(rèn)為是大規(guī)模存儲數(shù)據(jù)的第一個嘗試。

  那時,雖然人們已經(jīng)遇到了大量數(shù)據(jù)的挑戰(zhàn),但這并不能算是大數(shù)據(jù)的源頭,因?yàn)樵谀莻€年代,人們處理大量數(shù)據(jù)的能力實(shí)在太弱了。

  3. 技術(shù)基礎(chǔ)

  20世紀(jì)40年代,初級的計算機(jī)已有人發(fā)明了。計算機(jī)的運(yùn)行要靠電流,對每個電路節(jié)點(diǎn)而言,電流通過的狀態(tài)只有通電和斷電兩種狀態(tài),而計算機(jī)的信息存儲一般采用磁帶、磁盤,對每個記錄點(diǎn)來說只有磁化和未磁化兩種狀態(tài),正因如此,多年前認(rèn)為沒有什么實(shí)用價值的2進(jìn)制運(yùn)算模式很自然地被應(yīng)用在計算機(jī)上了,計算機(jī)運(yùn)行時1表示通電,0表示斷電,存儲信息時1表示磁化,0表示未磁化。

  20世紀(jì)70年代后期,個人電腦開始正式進(jìn)入商業(yè)市場,只是僅有計算機(jī)而沒有網(wǎng)絡(luò)仍然對付不了大量的數(shù)據(jù)。

  1980年,美國思想家、未來學(xué)家托夫勒(A. Toffler)在他所撰寫的《第三次浪潮》中預(yù)言:大數(shù)據(jù)將成為“第三次浪潮的華彩樂章”。

  全球性的計算機(jī)網(wǎng)絡(luò)體系——因特網(wǎng)于80年代基本形成,而真正為全世界信息交流和傳播帶來革命性變化的萬維網(wǎng)(Web)則于1990年12月在歐洲核子研究中心(CERN)誕生。

  這里還有個關(guān)鍵的問題:1993年4月30日,CERN正式?jīng)Q定將Web軟件放到因特網(wǎng)的公共領(lǐng)域,并宣布Web軟件可對任何人開放,不收取任何費(fèi)用。CERN和Web的發(fā)明人伯納斯-李(Tim Berners-Lee)放棄了為Web技術(shù)申請專利,這對因特網(wǎng)在全世界的推廣起了極為重要的作用。此后,Web的應(yīng)用遠(yuǎn)遠(yuǎn)超出了最初的設(shè)想。

  設(shè)想一下,如果沒有二進(jìn)制等數(shù)學(xué)基礎(chǔ)、沒有計算機(jī)、沒有存儲設(shè)備、沒有因特網(wǎng)在全世界的廣泛應(yīng)用…,根本談不上如何應(yīng)對大數(shù)據(jù)的挑戰(zhàn),正因?yàn)橛辛诉@些關(guān)鍵技術(shù)的基礎(chǔ),人們處理大量數(shù)據(jù)的能力才得以大大提高。

  4. “大數(shù)據(jù)”之源

  2008年9月,《自然》雜志推出一個“大數(shù)據(jù)”封面專欄,“大數(shù)據(jù)”此時已受到了關(guān)注。

  而“大數(shù)據(jù)”真正成為互聯(lián)網(wǎng)技術(shù)的熱門詞匯大約是在2009年之后。據(jù)媒體資料的介紹,世界著名的管理咨詢公司麥肯錫公司2011年5月發(fā)布了一份題為“大數(shù)據(jù):競爭、創(chuàng)新和生產(chǎn)力的下一個前沿”的報告。該報告認(rèn)為,所謂大數(shù)據(jù)是指“規(guī)模已經(jīng)超出典型數(shù)據(jù)庫軟件所能獲取、存儲、管理和分析能力之外的數(shù)據(jù)集”,報告提出了對大數(shù)據(jù)進(jìn)行收集和分析的設(shè)想,并對大數(shù)據(jù)會產(chǎn)生的影響、所需關(guān)鍵技術(shù)以及應(yīng)用領(lǐng)域等進(jìn)行了較詳盡的分析。

  《自然》雜志2008年9月的“大數(shù)據(jù)”封面專欄(上)、麥肯錫公司2011年5月發(fā)布的“大數(shù)據(jù)”報告(下)(圖片來自網(wǎng)絡(luò))

  如果據(jù)此認(rèn)為大數(shù)據(jù)起源于上述時間段有些失于偏頗。實(shí)際上,大數(shù)據(jù)并不算個全新的概念,早在麥肯錫公司發(fā)布大數(shù)據(jù)報告的好幾十年前,從事粒子物理研究的科學(xué)家就已經(jīng)面臨了如何處理粒子物理研究所獲得的海量數(shù)據(jù)信息的問題,可那時大多數(shù)人還根本不知道大數(shù)據(jù)到底是什么。

  世界上任何東西的“大”與“小”都是相對的,大數(shù)據(jù)也是一個相對術(shù)語,設(shè)置某個具體的數(shù)據(jù)量標(biāo)準(zhǔn)作為大數(shù)據(jù)的“門檻”,即數(shù)據(jù)量超過多少字節(jié)就算大數(shù)據(jù)(參考知識鏈接)并不科學(xué)。大數(shù)據(jù)應(yīng)是一個動態(tài)的、能夠隨著數(shù)據(jù)規(guī)模和處理能力增長而不斷變化的概念。真正的大數(shù)據(jù)也并不僅是指所獲數(shù)據(jù)的量大,而是包含了數(shù)據(jù)的獲取、傳輸、存儲、分析等綜合性的最前沿技術(shù)。數(shù)據(jù)也并不總是量越大越有價值,沒有價值的大量數(shù)據(jù)只會造成數(shù)據(jù)傳輸、存儲方面的過重負(fù)擔(dān),對數(shù)據(jù)的準(zhǔn)確分析產(chǎn)生負(fù)面的影響。

  基于計算機(jī)、因特網(wǎng)、萬維網(wǎng)等高新技術(shù)的發(fā)展,人們在面臨大數(shù)據(jù)挑戰(zhàn)的同時,也在不斷增強(qiáng)收集、傳輸、存儲、分析處理及廣泛應(yīng)用大數(shù)據(jù)的能力。大數(shù)據(jù)的范疇及內(nèi)涵也在此過程中不斷豐富及延伸,不僅與數(shù)據(jù)量的規(guī)模、數(shù)據(jù)即時處理的速度、數(shù)據(jù)格式的多樣化相關(guān),還涉及到數(shù)據(jù)的準(zhǔn)確性、可視性、合法性等等特性。

  5. 粒子物理實(shí)驗(yàn)

  那么粒子物理實(shí)驗(yàn)與大數(shù)據(jù)有何關(guān)系呢?

  粒子物理實(shí)驗(yàn)主要研究構(gòu)成宇宙中所有物質(zhì)的基本粒子,以及使這些物質(zhì)聚集在一起的基本作用力。粒子物理實(shí)驗(yàn)研究除了可通過接收宇宙射線進(jìn)行,主要是通過粒子加速器將某種粒子加速至很高能量后與其他粒子相碰撞,然后由各種類型的粒子探測器記錄下粒子碰撞產(chǎn)生的各種事例(包括事例發(fā)生的位置、能量、時間等等數(shù)據(jù)信息)。這些數(shù)據(jù)記錄到磁帶、磁盤等存儲設(shè)備中并提供給科學(xué)家們分析研究。

  最早使用的粒子探測器有云室、氣泡室、流光室等,屬于記錄粒子徑跡類型。這些粒子實(shí)驗(yàn)所獲的事例圖像直接保留在照相底片上,通過掃描測量儀將信息數(shù)字化后成為原始數(shù)據(jù)。之后,陸續(xù)發(fā)展了多絲正比室、漂移室、閃爍計數(shù)器等多種電子學(xué)型的粒子探測器。

  20世紀(jì)70年代后,隨著超大型粒子物理實(shí)驗(yàn)裝置的建設(shè)以及電子學(xué)、計算機(jī)技術(shù)的快速發(fā)展,數(shù)據(jù)的傳輸、存儲、分析等方面的技術(shù)也有了質(zhì)的飛躍,粒子物理實(shí)驗(yàn)所獲的原始數(shù)據(jù)量的規(guī)模越來越大,不得不設(shè)定各種條件初步篩選后再存入存儲設(shè)備。這些數(shù)據(jù)要通過科學(xué)家分析后實(shí)現(xiàn)重構(gòu),再現(xiàn)各類粒子的物理性質(zhì)(如能量、電荷、磁矩等等)還原事例中的物理過程,經(jīng)模擬計算便可了解探測器里到底發(fā)生了什么。

  1989年3月,CERN建造的大型正負(fù)電子對撞機(jī)LEP開始運(yùn)行,正負(fù)電子分別被加速至每秒圍繞周長27公里的加速器真空管道運(yùn)轉(zhuǎn)11000周(接近光速)。LEP上有四個大型粒子探測裝置:ALEPH、DELPHI、L3和OPAL,探測器獲得原始數(shù)據(jù)的速率為1 MB/秒,每年的總數(shù)據(jù)量達(dá)0.2-0.3 TB(1 TB相當(dāng)于50000棵樹制成紙張上打印的信息量),這在當(dāng)時已屬空前,屬于真正的大數(shù)據(jù)了。

  到了2008年,CERN在原LEP的隧道中建成了能量更高的大型強(qiáng)子對撞機(jī)LHC(拆除了LEP的全部磁鐵和設(shè)備)。LHC上建有ATLAS、ALICE、CMS和LHCb等規(guī)模更大的粒子探測器。LHC每25納秒就可發(fā)生一次質(zhì)子對撞,各類探測器獲得的數(shù)據(jù)達(dá)1 PB/秒。如此大的數(shù)據(jù)量實(shí)際上無法完全記錄下來,只能通過特殊的方法進(jìn)行過濾后將那些科學(xué)家們可能感興趣的數(shù)據(jù)存儲在特殊的存儲設(shè)備上。近年來,過濾后每年的數(shù)據(jù)量竟達(dá)60 PB(每保存1 PB的數(shù)據(jù)就需要約22.3萬張DVD盤的容量),這數(shù)據(jù)量已大到令人瞠目結(jié)舌。

 

大型強(qiáng)子對撞機(jī)LHC鳥瞰及探測器位置示意圖(圖片來自網(wǎng)絡(luò))

緊湊型μ子螺旋型磁譜儀(CMS)結(jié)構(gòu)示意圖(21米×15米×15米)(圖片來自網(wǎng)絡(luò))

超環(huán)面探測譜儀(ATLAS)結(jié)構(gòu)示意圖(46米×25米×25米)(圖片來自網(wǎng)絡(luò))

  如何分解存貯和處理這些海量數(shù)據(jù)正是粒子物理實(shí)驗(yàn)研究所面臨的巨大挑戰(zhàn),各種類型的數(shù)據(jù)處理方法應(yīng)運(yùn)而生。例如,歐洲在2000年啟動的名為DataGrid的研究項(xiàng)目,不僅能滿足高能物理實(shí)驗(yàn)研究的數(shù)據(jù)處理需要,同時也擴(kuò)展到地球觀察、生物研究等廣泛的應(yīng)用領(lǐng)域。

  粒子物理實(shí)驗(yàn)所獲得的海量數(shù)據(jù)經(jīng)過各種手段的分解、處理,最終以約100 MB/秒的速率寫入存儲設(shè)備。CERN的計算機(jī)中心負(fù)責(zé)將這些數(shù)據(jù)通過高速網(wǎng)絡(luò)分配給歐洲、北美、日本等國的區(qū)域中心,后者再將任務(wù)作進(jìn)一步分解。提供給世界各相關(guān)研究機(jī)構(gòu)的數(shù)據(jù)量約為1 MB/秒,這樣,物理學(xué)家們就可以很方便地進(jìn)行分析研究了。

CERN計算機(jī)中心的自動磁帶存儲庫(2008年),磁帶用來存儲LHC的實(shí)驗(yàn)數(shù)據(jù),機(jī)械臂用于在存儲架和驅(qū)動器間運(yùn)送磁帶,磁帶的調(diào)用完全自動化(圖片來自網(wǎng)絡(luò))

  正因具備了超強(qiáng)的數(shù)據(jù)獲取及處理能力,CERN才能在極為復(fù)雜的數(shù)據(jù)背景之下,以海底撈針的精湛技術(shù)于2012年7月捕捉到了物理學(xué)家們期盼已久的希格斯(Higgs)粒子,其中,大數(shù)據(jù)技術(shù)功不可沒,發(fā)揮了極為重要的作用!

  由此可見,在一般人認(rèn)為的“大數(shù)據(jù)”成為互聯(lián)網(wǎng)技術(shù)熱門詞匯(約2009年)之前,粒子物理實(shí)驗(yàn)研究早已與“大數(shù)據(jù)”打了多年交道,真正的“大數(shù)據(jù)”之源在哪里應(yīng)該毫無懸念了。

  6. 結(jié)語

  粒子物理、宇宙天文學(xué)、人體基因等最前沿的基礎(chǔ)研究都離不開大數(shù)據(jù),隨著信息技術(shù)的飛速發(fā)展和應(yīng)用,大數(shù)據(jù)近些年來已深深滲入了社會的發(fā)展及人類的日常生活。網(wǎng)格計算、云計算、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、社交網(wǎng)、移動互聯(lián)網(wǎng)、GPS定位、電子商務(wù)、醫(yī)學(xué)影像、安全監(jiān)控、金融、電信、人工智能等技術(shù)的發(fā)展都基于大數(shù)據(jù)并且更瘋狂地產(chǎn)生著大數(shù)據(jù),大數(shù)據(jù)就如大海的浪潮一浪高過一浪,勢不可擋。

  而科學(xué)家們面臨的則是更嚴(yán)峻的挑戰(zhàn):需要處理的數(shù)據(jù)量更加龐大,數(shù)據(jù)類型更加多樣,需要更快的數(shù)據(jù)傳輸及處理速度,需要容量更大而體積更小的存儲介質(zhì),需要更智能的數(shù)據(jù)分析工具…,這些需求又進(jìn)一步推動了相關(guān)高新技術(shù)的發(fā)展。

  浪潮自有源頭,在幾乎人人都被大數(shù)據(jù)浪潮席卷的時代,不能忘記粒子物理實(shí)驗(yàn)研究在大數(shù)據(jù)的獲取、傳輸、存儲、分析等最前沿技術(shù)領(lǐng)域打下的基礎(chǔ)與巨大的貢獻(xiàn)。真正的“大數(shù)據(jù)”源頭來自基礎(chǔ)研究最前沿的粒子物理實(shí)驗(yàn)研究。

  參考資料:

  1、Michael S. Turner,Bigscience is hard but worth it,《Science》24 Apr. 2015

  2、A Brief History of Big Data

  http://www.dataversity.net/brief-history-big-data/

  3、BIG DATA wizards: LEARN from CERN, notthe F500

  http://www.theregister.co.uk/2015/03/23/cerns_atom_big_data_f500/

  4、歐洲數(shù)據(jù)網(wǎng)格DataGrid介紹

  http://www.net130.com/netbass/grid/wg20040410024.htm

  5、王學(xué)敏,歐洲原子核研究中心(CERN)LEP對撞機(jī)的建造和實(shí)驗(yàn)研究概況,《原子核物理評論》 1987年第2期

  http://www.cnki.com.cn/Article/CJFDTotal-HWDT198702014.htm

  6、陳剛,高能物理粒子實(shí)驗(yàn)中的大數(shù)據(jù)技術(shù),《科研信息化技術(shù)與應(yīng)用》2016,7(1)

  7、大數(shù)據(jù):美國技術(shù)創(chuàng)新新前沿

  http://tech.hexun.com/2013-07-15/156142018.html

  8、從穿孔卡片到電路板:計算機(jī)時代的到來

  http://history.sina.com.cn/bk/sjs/2014-12-22/1315112986.shtml

  9、趙振江,萊布尼茨——他的二進(jìn)制和計算器,《科學(xué)文化評論》第4 卷第3 期(2007)

  10、高能物理實(shí)驗(yàn)產(chǎn)生的海量數(shù)據(jù)如何處理?

  http://chuansong.me/n/555276949954

  11、陳和生,大科學(xué)的數(shù)據(jù)挑戰(zhàn)與應(yīng)對策略--粒子物理大數(shù)據(jù)

  http://wenku.it168.com/d_001529993.shtml

  12、大數(shù)據(jù):美國技術(shù)創(chuàng)新新前沿,環(huán)球財經(jīng)2013年第7期

  http://tech.hexun.com/2013-07-15/156142018.html

  13、高能物理——引領(lǐng)網(wǎng)格新時代

  https://www.douban.com/group/topic/3184669/

  14、世界最大高能物理實(shí)驗(yàn)基地——?dú)W洲核子研究中心(CERN)

  http://bbs.tianya.cn/post-no04-526908-1.shtml


中國科學(xué)院高能物理研究所    備案序號:京ICP備05002790號
地址:北京市918信箱    郵編:100049    電話:86-10-88235008    Email: ihep@ihep.ac.cn