10月11日,由“北京大學(xué)—字節(jié)跳動數(shù)字人文開放實驗室”研發(fā)的古籍數(shù)字化平臺“識典古籍”測試版正式上線。目前,該平臺涵蓋390部經(jīng)典古籍,主要來自《四部叢刊》,共計3000多萬字,即日起向公眾免費開放。未來三年,“識典古籍”將陸續(xù)完成一萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學(xué)的核心典籍目錄,屆時將全部免費開放。
“識典古籍”項目負責人現(xiàn)場講解
據(jù)了解,上述實驗室系今年3月北京大學(xué)與字節(jié)跳動合作成立,將人工智能技術(shù)應(yīng)用于古籍資源的智能化整理。“識典古籍”平臺上線,即是雙方合作的最新進展。
當前,中國的古籍數(shù)字化還處于初級階段,面臨技術(shù)難度高、資金缺口大、人才緊張等難點。相關(guān)資料顯示,現(xiàn)存的20多萬種古籍中,只有8萬種完成影像數(shù)字化掃描,近4萬種完成文本數(shù)字化。據(jù)專家統(tǒng)計,從1949年到2019年,國內(nèi)共修復(fù)整理出版古籍近3.8萬種,要將現(xiàn)存古籍全部修復(fù)整理出來,可能需要300年時間;若利用人工智能技術(shù)輔助修復(fù)整理,大概二三十年就能完成。
活動相關(guān)海報
據(jù)“識典古籍”項目負責人介紹,該平臺當前主要使用了三種技術(shù),包括文字識別、自動標點和命名實體識別。文字識別技術(shù),是對古籍的影印版文字進行單個切分,再進行文字識別和順序識別。自動標點技術(shù),是通過序列標注的方式對古籍自動進行標點劃分。命名實體識別技術(shù),則是通過序列標注識別文本中的人名、地名、書籍、時間、官職等信息。據(jù)悉,目前行業(yè)內(nèi)OCR識別準確率平均為93%至94%,“識典古籍”的準確率為96%至97%。
與其他古籍數(shù)字化平臺相比,“識典古籍”具有自身的特點,頁面簡潔,瀏覽流暢,提供影印底本作為參照,還具備主題詞檢索和繁簡體轉(zhuǎn)換功能,便于專業(yè)研究人員、廣大古籍愛好者使用。同時,“識典古籍”書目持續(xù)更新,后續(xù)還將上線手機移動版。
“識典古籍”網(wǎng)頁截圖
未來,“識典古籍”將向全社會開放古籍閱讀檢索研究能力,還將實現(xiàn)全自動整理校對,更高效地實現(xiàn)存量古籍全部數(shù)字化。同時,平臺也鼓勵擁有文獻的學(xué)者自行上傳文獻,用戶甚至可參與再創(chuàng)作和再闡釋,助力古籍文化傳承和研究。
一年多來,字節(jié)跳動在古籍修復(fù)和活化上也有所進展。此前,字節(jié)跳動資助國家圖書館定向修復(fù)的珍貴古籍104冊件,現(xiàn)已完成50多冊件,包括一批稀有的樣式雷圖檔。在活化方面,抖音平臺推出“尋找古籍守護人”計劃,旨在激勵創(chuàng)作者通過音樂、說書、繪畫、復(fù)原美食等形式,普及古籍知識、演繹古籍內(nèi)容,讓古籍鮮活起來。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )