精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    美國“存儲Twitter”,中國也要給博文“建檔”

    4月19日,“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項目”在北京啟動。

    這個項目的名字有些讓人費解,國家圖書館與互聯(lián)網(wǎng)信息怎么會聯(lián)系在一起,還要戰(zhàn)略保存呢?這要從圖書館的變遷說起。

    圖書館存儲公共數(shù)字資源

    查一下國家圖書館的百度百科就能知道所以然。

    國家圖書館是世界最大、最先進的國家圖書館之一,也是亞洲最大圖書館?;ヂ?lián)網(wǎng)時代,隨著信息創(chuàng)造、傳播和存儲的數(shù)字化,國家圖書館與時俱進,1995年就按照數(shù)字化、網(wǎng)絡(luò)化建設(shè)的思路,制定了《國家圖書館網(wǎng)絡(luò)建設(shè)發(fā)展規(guī)劃(1997-2000)》。2001年11月,國家圖書館二期工程暨國家數(shù)字圖書館工程正式立項。截至2017年12月,館藏數(shù)字資源總量達1323.35TB,包括電子圖書、期刊、報紙、特藏專藏和視聽文獻。

    換言之,圖書館早已不是人們印象中的一個存滿紙質(zhì)圖書的物理空間,而是一個以各種載體儲存人類創(chuàng)作信息的地方,圖書館的本質(zhì)就是信息存儲空間。在軟件工程里面,library也有“信息庫”的意思,它包含構(gòu)建應(yīng)用所需的一切,如源代碼、資源文件等等。我大學(xué)讀的是軟件工程,一個室友留校在圖書館工作,當(dāng)初以為他放棄了本業(yè),現(xiàn)在看來,我誤會他了,圖書館數(shù)字化的大趨勢下,計算機、信息化、數(shù)字化都變得越來越重要。

    互聯(lián)網(wǎng)公司有海量信息存儲在自己的數(shù)據(jù)庫,就像人人家里都有藏書一樣,但在社會中扮演書籍收藏和公共文化服務(wù)的則是圖書館,這樣再來看“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項目”就更容易理解。

    按照官方說法:

    “國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項目”是一個旨在“建設(shè)覆蓋全國的分級分布式中文互聯(lián)網(wǎng)信息資源采集與保存體系,通過與國內(nèi)重點數(shù)字文化生產(chǎn)和保存機構(gòu)的合作,推動互聯(lián)網(wǎng)信息的社會化保存與服務(wù),構(gòu)建國家互聯(lián)網(wǎng)信息資源戰(zhàn)略保障體系?!?/p>

    翻譯一下,就是國家圖書館啟動一個項目,希望可以采集和存儲有價值的中文互聯(lián)網(wǎng)信息,再將這些信息用于社會,比如政策決策和學(xué)術(shù)研究等非商業(yè)用途。

    用國家圖書館官方公布的話術(shù)來說就是:

    “互聯(lián)網(wǎng)信息成為人類文明和社會記憶的新載體,客觀反映著一定時期內(nèi)政治、經(jīng)濟、文化和社會等方面的變遷。易逝性和不可再生性,使互聯(lián)網(wǎng)信息的采集和保存尤為迫切,而隨著移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的普及,互聯(lián)網(wǎng)信息的規(guī)模爆炸式增長,調(diào)動社會力量參與也成為互聯(lián)網(wǎng)信息采集和保存的趨勢?!?/p>

    現(xiàn)已成為阿里副總裁的涂子沛在《大數(shù)據(jù)》一書也曾分享,美國政府運轉(zhuǎn)的底層基礎(chǔ)其實就是數(shù)據(jù),“社會計算是大數(shù)據(jù)時代最大的亮點?!边@本書拿到了國家圖書館文津圖書獎,想必對國家圖書館管理層也有所啟發(fā)。

    國家圖書館從2003年開始嘗試對互聯(lián)網(wǎng)資源進行采集和保存,2009年成立互聯(lián)網(wǎng)信息保存保護中心,對國內(nèi)外政治、經(jīng)濟、文化、科技等領(lǐng)域重要網(wǎng)站和重大專題資源進行采集保存,截至2018年,全國各級公共圖書館累計采集網(wǎng)站23000余個?!巴七M數(shù)字資源建設(shè)與保存工作”是國家圖書館“十三五”規(guī)劃的重要工作之一。在這樣的整體規(guī)劃下,國家圖書館啟動了互聯(lián)網(wǎng)信息戰(zhàn)略保存項目。

    首家互聯(lián)網(wǎng)信息戰(zhàn)略保存基地同日在新浪掛牌,由國家圖書館與新浪共建。國家圖書館相關(guān)負責(zé)人透露:

    “在中國境內(nèi)開展互聯(lián)網(wǎng)業(yè)務(wù)、并在相關(guān)領(lǐng)域處于領(lǐng)先地位的企業(yè)機構(gòu),均可申請成為互聯(lián)網(wǎng)信息戰(zhàn)略保存基地共建主體。共建主體需確保其提供的信息數(shù)據(jù)完整、有效、安全,并擁有合法所有權(quán)、知識產(chǎn)權(quán)或已獲得相應(yīng)授權(quán)?!?/p>

    換言之,大多數(shù)互聯(lián)網(wǎng)公司都可加入這一項目,這是國家圖書館牽頭的一次社會化數(shù)據(jù)共享、存儲和應(yīng)用實驗。

    美國國會圖書館存儲Twitter

    美國圖書館行業(yè)一直走在世界前列,一方面,圖書館歷史久、數(shù)量多、規(guī)格高,比如每個大城市都有歷史古老且富麗堂皇的公共圖書館,很多城市圖書館已成為旅游者打卡地。另一方面,受益于發(fā)達的IT產(chǎn)業(yè),圖書館擁抱數(shù)字化技術(shù)較為積極。

    美國國會圖書館是美國四個官方國家圖書館之一,是美國歷史最悠久的聯(lián)邦文化機構(gòu),已經(jīng)成為世界上最大的知識寶庫。2010年,它就與Twitter達成一項合作協(xié)議,后者向前者提供所有公開的推文,已被刪除和屏蔽的除外,其認(rèn)為,Twitter上簡短的信息可以將“國家故事”中微小、但卻非常重要的部分反映出來。

    美國國會圖書館與Twitter的“Twitter保存項目”通過總部位于科羅拉多州博爾德市的社交媒體聚合網(wǎng)站Gnip落地,Gnip發(fā)現(xiàn)要做好這件看似簡單的“信息存儲”的事并不容易。

    首先,數(shù)據(jù)高速膨脹。項目啟動三年后,2013年Gnip終于實現(xiàn)了對1700億條推文的存儲,當(dāng)時已需要每天存儲用戶創(chuàng)造的4億條內(nèi)容,這對存儲空間的消耗十分驚人。移動互聯(lián)網(wǎng)時代,隨著越來越多人使用Twitter,每天產(chǎn)生的內(nèi)容高速膨脹,而且短視頻等新的內(nèi)容形式被不斷引入——數(shù)據(jù)大爆炸是整個互聯(lián)網(wǎng)面臨的問題。

    其次,數(shù)據(jù)峰值問題。Gnip直言,這一項目真正的挑戰(zhàn)來自高峰時期對tweets 的收集,比如2011年3月日本海嘯期等事件的爆發(fā),當(dāng)時,每秒鐘產(chǎn)生的tweet信息數(shù)量有好幾千。

    再次,數(shù)據(jù)利用問題。碎片化的數(shù)據(jù)多且雜,要利用它們就需要大數(shù)據(jù)挖掘等技術(shù)。美國國會圖書館的想法是,先把數(shù)據(jù)存下來再說,怎么用來不及考慮,甚至連歸類都來不及做,到現(xiàn)在,這些數(shù)據(jù)也僅僅是存儲下來而已。

    最后,數(shù)據(jù)開放問題。既然是公共圖書館,最大價值就是對全社會開放,數(shù)字內(nèi)容也不例外。在美國國會圖書館啟動“Twitter保存項目”后,全世界研究人員都很感興趣,他們很快收到來自世界各地研究人員的約400個查詢請求,查詢的主題涉及文化、政治、醫(yī)療、經(jīng)濟等諸多方面,然而數(shù)據(jù)量太大,技術(shù)實現(xiàn)不了——即使對2006年和2010年間產(chǎn)生的tweet查閱一邊也需要24個小時。

    美國國會圖書館在2013年公布的白皮書中寫到:

    “讓研究人員獲得這些數(shù)據(jù)的技術(shù)水平要明顯落后于這些數(shù)據(jù)的產(chǎn)生和傳播的技術(shù)水平?,F(xiàn)在技術(shù)不足,而開發(fā)這些技術(shù)的成本非常高?!?/p>

    當(dāng)時,美國政府開始推行財政緊縮政策,國會圖書館經(jīng)費緊張,此前其在數(shù)據(jù)收集上已花費一大筆資金,沒有更多資金投入到數(shù)據(jù)的挖掘、利用和開放上。2018年,這一項目再次遇到困難,Twitter信息爆炸式增長,服務(wù)器不堪重負,美國國會圖書館表示將不再收集Twitter上所有公開推文,而是保存他們認(rèn)為重要的(比如特朗普的?),到現(xiàn)在為止,這一項目也僅限于數(shù)據(jù)存儲,依然未能實現(xiàn)對數(shù)據(jù)的挖掘、利用和開放,當(dāng)然我們不用懷疑這樣做的價值:數(shù)據(jù)就是資產(chǎn),未來終可挖掘。

    不只是美國,澳大利亞、法國、瑞典和荷蘭等國都在90年代啟動了國家級的互聯(lián)網(wǎng)數(shù)據(jù)收集策略,相對而言,中國“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項目”雖然來得較晚,卻有望基于當(dāng)下更加成熟的技術(shù)和更加獨特的模式,實現(xiàn)互聯(lián)網(wǎng)信息存儲、利用和開放的多贏。

    國家圖書館憑什么存儲整個互聯(lián)網(wǎng)?

    或許是看到了美國國會圖書館與Twitter合作遇到的困難,“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項目”采取了截然不同的模式。

    與美國國會圖書館將Twitter內(nèi)容存儲到合作方的服務(wù)器不同,“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項目”采取社會化、分布式和分級式的數(shù)據(jù)保存機制,國家圖書館根據(jù)保存規(guī)范、數(shù)據(jù)遴選機制和服務(wù)需要提供使用需求,互聯(lián)網(wǎng)公司負責(zé)內(nèi)容存儲,這樣可以避免數(shù)據(jù)的重復(fù)存儲。

    將所有互聯(lián)網(wǎng)數(shù)據(jù)進行二次存儲本身就不現(xiàn)實。互聯(lián)網(wǎng)內(nèi)容十分多元,比如首家參與到這一項目的微博,覆蓋的數(shù)據(jù)類型比Twitter更多樣,不只是有短文字,還有短視頻、圖片和文章等大雜燴內(nèi)容,財報顯示,2018年12月微博月活已達4.62億,12月日均活躍用戶數(shù)突破2億關(guān)口,微博上的存量內(nèi)容,截至2018年12月已有多達2000多億條博文、500多億張圖片、4億個視頻和近5000億互動,每天博文增量超過1億,數(shù)據(jù)量巨大。如此海量數(shù)據(jù),再轉(zhuǎn)存到單獨服務(wù)器即不可能,亦無必要。

    正是基于社會化存儲的模式,“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項目”不像美國國會圖書館只與Twitter一樣“點對點”合作,而是“點對多”合作。國家圖書館牽頭,任何符合條件的互聯(lián)網(wǎng)公司都可申請加入其中。隨著移動互聯(lián)網(wǎng)的普及,互聯(lián)網(wǎng)正時時刻刻對真實世界進行映射,不僅是微博的博文,快手記錄真實世界的短視頻、知乎的帖子,都是寶貴的社會信息資源,都可以成為“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項目”保存的目標(biāo)。

    尤為重要的是,“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項目”不只是單純地保存數(shù)據(jù),而是“保存、利用和開放”三管旗下,國家圖書館擅長的是學(xué)術(shù)和公信力,而不是技術(shù),因此具體的應(yīng)用依然是國圖提需求,互聯(lián)網(wǎng)公司負責(zé)信息處理。

    比如在與新浪的合作中,互聯(lián)網(wǎng)數(shù)據(jù)分析報告、政府公開信息分析報告、社會群體的公益性信息服務(wù),都有可能成為這些信息的用途。今天,AI技術(shù)特別是自然語言處理技術(shù)比前幾年已經(jīng)成熟很多,擁有信息流、搜索等業(yè)務(wù)的微博和新浪在自然語言處理技術(shù)上也有深厚積累,這意味著,它們有能力對平臺上的海量互聯(lián)網(wǎng)內(nèi)容進行挖掘,滿足公共社會的非商業(yè)公益查詢需求。

    從“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項目”的設(shè)計來看,應(yīng)該是看到美國國會圖書館與Twitter的合作模式的弊端后,進行的全新機制設(shè)計。雖然這一項目沒有形式上的“保存”,但事實上卻實現(xiàn)了互聯(lián)網(wǎng)公開信息的“歸檔”,同時可以實現(xiàn)利用和開放。

    跟美國國會圖書館看中Twitter“小卻重要”內(nèi)容能反映社會進程的邏輯一樣,國家圖書館首先與微博合作也是看中其UGC社會化屬性。微博上每個用戶以不同形式從個體視角記錄生活、探索世界和討論話題,形成了海量信息,這部分信息和其他互聯(lián)網(wǎng)平臺的信息是差異化的,而在國家圖書館此前對互聯(lián)網(wǎng)信息的采集和保護中,這類信息也不是重點,是從結(jié)構(gòu)上豐富了國家圖書館的館藏信息,所以具有更大的價值。

    不僅如此,最近幾年已經(jīng)發(fā)生過很多因為公眾在微博上的參與而引起關(guān)注、最后推動事件獲得解決的案例,比如2017年網(wǎng)友舉報有人駕駛越野車追趕藏羚羊的案件、2018年的“疫苗造假事件”等。可以說,微博不但是能全面反映社會發(fā)展進程的互聯(lián)網(wǎng)平臺,而且用戶在微博上發(fā)布的內(nèi)容,本身就是社會發(fā)展進程的一部分。這種獨特的價值是其他平臺無法取代的。

    如果“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項目”項目能夠成功,對于很多已經(jīng)和即將開展互聯(lián)網(wǎng)信息保存的國家來說,應(yīng)該會成為又一個“中國式樣本”。

    如果覺得文章不錯,可以+我luochaozhuli進群(備注:進群)交流。

    歡迎關(guān)注 BT商業(yè)科技(bttimes)

    極客網(wǎng)企業(yè)會員

    免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    2019-04-20
    美國“存儲Twitter”,中國也要給博文“建檔”
    4月19日,“國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項目”在北京啟動。圖書館存儲公共數(shù)字資源查一下國家圖書館的百度百科就能知道所以然。

    長按掃碼 閱讀全文