作為文檔圖像分析識別領域最重要的國際會議之一,國際文檔分析與識別會議ICDAR 2023(International Conference on Document Analysis and Recognition)近期傳來好消息:
科大訊飛研究院與中科大語音及語言信息處理國家工程研究中心(以下簡稱研究中心)在多行公式識別、文檔信息定位與提取、結構化文本信息抽取三項比賽中獲得四個冠軍。
MLHME之冠:聚焦“多行書寫”,復雜度上再突破
MLHME(多行公式識別比賽)考查輸入包含手寫數(shù)學公式的圖像后,算法輸出對應LaTex字符串正確率。值得一提的是,相比此前數(shù)學公式識別賽事,此次比賽業(yè)內首次將“多行書寫”設為主要挑戰(zhàn)對象,且不同于之前識別掃描、在線手寫的公式,本次以識別拍照的手寫多行公式為主。
最終,科大訊飛研究院圖文識別團隊以67.9%的成績拿下冠軍,并在主要評價指標——公式召回率(Expression Recall,即統(tǒng)計識別正確的樣本數(shù)占總測試樣本數(shù)的比例)上大幅超越其他參賽團隊。
公式召回率與榜單中Submit Results相對應
多行公式相比單行結構復雜度更高,同一個字符在公式里多次出現(xiàn)時尺寸大小也會有變化;同時,比賽使用的數(shù)據集來自真實場景,拍照的手寫公式圖片更是存在質量低下、背景干擾、文字干擾、涂抹和批注干擾等問題。這些因素讓比賽難度陡增。
多行公式結構復雜
圖片質量不高、批改干擾
針對多行公式結構復雜問題,團隊使用大卷積核的Conv2former作為編碼器結構,擴大了模型的視野,更好地捕捉多行公式的結構特征;創(chuàng)新性提出基于transformer的結構化序列解碼器SSD,顯式對多行公式內部的層次關系做了精細化建模,極大提升了復雜結構的泛化性,更好地建模了結構化語義。
針對圖片質量問題所引起的字符歧義問題,團隊創(chuàng)新性提出了語義增強的解碼器訓練算法,通過語義和視覺的聯(lián)合訓練,讓解碼器具備內在的領域知識。當字符難以辨認時,模型能夠自適應利用領域知識做出推理,給出最合理的識別結果。
針對字符尺寸變化大的問題,團隊提出了一種自適應字符尺度估計算法和多尺度融合解碼策略,極大提升了模型對字符大小變化的魯棒性。
DocILE之冠:“行里挑一”,文檔信息定位與提取比賽雙賽道登頂榜首
DocILE(文檔信息定位與提取比賽)評估機器學習方法在半結構化的商業(yè)文檔中,對關鍵信息定位、提取和行項識別的性能。
該賽事分為KILE和LIR兩個賽道任務,KILE任務需要定位文檔中預定義類別的關鍵信息位置,LIR任務需要在前者基礎上,進一步將每個關鍵信息分組為不同的行項條目(Line Item),比如表格中某一行單個對象(數(shù)量、價格)等。訊飛與研究中心最終收獲雙賽道冠軍。
KILE賽道榜單
LIR賽道榜單
左為KILE賽道說明,右為LIR賽道說明
從賽事官方給出的任務圖示可以看出,文檔中待抽取的信息種類非常繁雜。其中,KILE任務不僅需要提取預定義類別的關鍵信息,還要得到關鍵信息的具體位置;LIR任務中,一個行項在單個表格中可能有多行文本。加上此次賽事數(shù)據集中信息種類多、文檔版式復雜多樣,大大增加了挑戰(zhàn)性。
聯(lián)合團隊在算法層面提出了兩項技術創(chuàng)新方案:
預訓練階段設計了基于OCR質量的文檔過濾器,從主辦方提供的無標注文檔中提取出274萬頁的文檔圖像,隨后通過預訓練語言模型獲取文檔中各文本行的語義表征,并采用掩碼語句表征恢復任務進行不同Top-K(GraphDoc模型中關于文檔的注意力范圍的一個超參數(shù))配置下的預訓練。
在數(shù)據集微調階段,團隊使用了預訓練后的GraphDoc提取文本框的多模態(tài)表征,并進行分類操作。在分類結果的基礎上,將多模態(tài)表征送入低層注意力融合模塊進行實例的聚合,在實例聚集的基礎上,使用高層注意力融合模塊實現(xiàn)行項實例的聚集,所提出的注意力融合模塊結構相同、但彼此不共享參數(shù),可以同時用于KILE和LIR任務且具有很好的效果。
SVRD之冠:零樣本票證結構化信息抽取任務第一,預訓練模型大考驗
SVRD(結構化文本信息抽取)比賽分為4個賽道子任務,訊飛與研究中心在難度頗高的零樣本結構化信息抽取子賽道(Task3:E2E Zero-shot Structured Text Extraction)獲得第一。
榜單排名
在官方指定不同類型發(fā)票需要提取的關鍵要素背景下,該賽道要求參賽團隊利用模型輸出這些關鍵要素在圖片中的對應內容,“零樣本”則代表訓練集和測試集的發(fā)票類型并無交集;賽道考查模型端到端預測準確率,取score1、score2加權平均值作為最終評價指標。
零樣本對預訓練模型能力提出了更高要求。同時,比賽使用的發(fā)票版式多樣,乘車站點、發(fā)車時間等要素在不同版式中的名稱各不相同,發(fā)票照片還存在背景干擾、反光、文字重疊等問題,進一步提升了識別和抽取難度。
不同版式的發(fā)票
條紋背景干擾的發(fā)票
團隊首先對要素抽取模型采用復制-生成雙分支解碼策略,在前端OCR結果置信度較高的情況下直接復制OCR結果,在OCR結果置信度較低的情況下生成新的預測結果,以此緩解前端OCR模型引入的識別錯誤。
此外,團隊還基于OCR結果提取句子級的graphdoc特征作為要素抽取模型輸入,該特征融合了圖像、文本、位置、版面多模態(tài)特征,相比于單模態(tài)的純文本輸入具有更強的特征表示。
在此基礎上,團隊還結合了UniLM、LiLT、DocPrompt多個要素抽取模型在不同場景、不同語種上的性能優(yōu)勢進一步提升了最終的要素抽取效果。
教育、金融、醫(yī)療等已落地應用,助力大模型提升多模態(tài)能力
此次選擇ICDAR 2023的相關賽事進行挑戰(zhàn),來源于科大訊飛在實際業(yè)務中的真實場景需求;賽事相關的技術也已經深入教育、金融、醫(yī)療、司法、智能硬件等領域,賦能多項業(yè)務與產品。
在教育領域,手寫公式識別的技術能力被高頻使用,機器能給予精準的識別、判斷和批改。例如訊飛AI學習機中的個性化精準學、AI診斷;老師上課所使用的“訊飛智慧窗”教學大屏、學生的個性化學習手冊等,都已發(fā)揮了很大成效;
不久前科大訊飛全球1024開發(fā)者節(jié)主論壇上發(fā)布的星火科研助手,三大核心功能之一的論文研讀可實現(xiàn)智能解讀論文,快速回答相關問題。后續(xù)在高精度公式識別基礎上進階有機化學結構式、圖形、圖標、流程圖、表格等結構化場景識別的效果,這項功能也會更好助力科研工作者提升效率;
文檔信息定位與抽取技術則在金融領域得到了廣泛運用,例如合同要素抽取與審核、銀行票據要素抽取、營銷內容消保審查等場景,可以實現(xiàn)文檔或文件的數(shù)據解析、信息抽取和比對審核等功能,從而輔助業(yè)務數(shù)據的快速錄入、抽取、比對,實現(xiàn)審核過程的降本增效;
同樣在此次1024主論壇上發(fā)布的個人AI健康助手——訊飛曉醫(yī),不僅能掃描檢查單、化驗單識別后給出分析和建議,還可以掃描藥盒后進一步主動詢問、給出輔助用藥建議。對于體檢報告,拍照上傳后訊飛曉醫(yī)可以識別全維度關鍵信息,聯(lián)合異常指標綜合解讀,主動詢問發(fā)現(xiàn)更多問題給予幫助。當然,背后也是文檔信息定位與抽取技術的支持。
從單字識別、文本行識別,到難度更高的二維復雜結構識別、篇章級識別,科大訊飛的圖文識別相關技術在算法上持續(xù)迭代突破,更強的圖文識別技術還能使多模態(tài)大模型在圖像描述、圖像問答、識圖創(chuàng)作、文檔理解與處理上展現(xiàn)出更好的效果和潛力;
與此同時,圖文識別技術也結合語音識別、語音合成、機器翻譯等技術形成系統(tǒng)性創(chuàng)新,賦能產品應用后展現(xiàn)出更強大的功能與更明顯的價值優(yōu)勢,相關項目也獲得了2022年度吳文俊人工智能科技進步獎一等獎。新一程里,在ICDAR 2023數(shù)個比賽中“多點開花”,既是科大訊飛在圖文識別理解技術深度上持續(xù)進步的回饋,也是廣度上不斷鋪開的肯定。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )