2024年8月30日至9月4日,國際文檔分析與識別會議International Conference on Document Analysis and Recognition(以下簡稱ICDAR)在希臘雅典舉行。今年ICDAR設立了十余項競賽,吸引了全球諸多知名科技公司和研究機構的參與。理光中國研究院NLP團隊在ICDAR官方比賽“通過 Aria 眼鏡閱讀文檔(Reading Documents Through Aria Glasses)”賽道上,斬獲“低分辨率下的單詞識別”及“頁面級別的識別與閱讀”兩項任務的冠軍。
*“頁面級別的識別與閱讀”任務冠軍獎狀
ICDAR賽事介紹
ICDAR由國際模式識別協(xié)會IAPR(International Association of Pattern Recognition)舉辦,是模式識別、計算機視覺領域、圖像處理領域最為重要的國際學術會議之一,涵蓋了文檔分析與識別領域的最新學術成果和前沿應用發(fā)展趨勢。
“通過 Aria 眼鏡閱讀文檔(Reading Documents Through Aria Glasses)”賽道,涉及到理解和處理使用Aria 設備*采集到的文本內容。任務目標是開發(fā)一系列穩(wěn)健的圖像處理算法來識別整個頁面中的文字內容,同時保持正確的閱讀順序。具體來說,包括以下兩個子過程:1)低分辨率下的單詞識別:檢測并識別來自Aria眼鏡采集圖像中的單詞文本;2)閱讀順序預測:預測從頁面中提取的單詞級文本的閱讀順序(即頁面上單詞的序列)。
*ICDAR會場上,主辦方介紹任務數據示例
*ICDAR會場上,主辦方介紹任務目標與挑戰(zhàn)
理光的突破創(chuàng)新與應用實踐
理解文檔是可穿戴人工智能系統(tǒng)的基本任務,需要開發(fā)解決方案,賦予系統(tǒng)閱讀和理解文檔中知識的能力。除了傳統(tǒng)的文檔分析挑戰(zhàn)外,可穿戴設備圖像還受到人體姿勢的多樣性、不同的光照條件、潛在的障礙物以及其他場景中主體的影響,這些因素在獲取準確的光學字符識別(OCR)時增加了額外的障礙。
理光中國研究院將自身各種技術積累有機結合,在單詞識別部分,搭建了以PARSeq(Permuted AutoRegressive Sequence)為基礎的模型,采用了創(chuàng)新的模型迭代訓練方法和成熟的數據合成技術,進一步提高了識別性能。在閱讀順序預測部分,理光沒有將其定義為傳統(tǒng)的排序任務或翻譯任務,而是建模為具備語義分割能力的布局解析任務?;谠诒砀褡R別和圖紙識別項目上的豐富經驗,理光自研的語義分割框架,在任務數據上微調后,展現了優(yōu)秀的解析效果。
理光中國研究院在OCR技術研究和各種場景下的項目實踐經驗方面有著深刻的理解。在基礎技術研究方面,理光中國研究院一直致力于圖像處理、文本檢測、文本識別、布局分析、表格識別以及與文檔理解相關的其他技術的研究,并取得了領先成果。在應用方面,理光中國研究院已成功將OCR技術適配到設計圖紙、財務報告、合同、票據以及傳統(tǒng)文檔以外的其他領域。這些解決方案已經成功服務于多領域客戶,并在特定需要的定制化適配方面積累了豐富的經驗。
圖紙檔案數字化解決方案,可以實現掃描件表格文字識別,信息提取和比對,以及歸檔流程處理的自動化,有效解決海量圖紙數字化過程中大量的信息查找,手動錄入,人工審核,繁瑣歸檔的難題,實現了高效智能的圖紙數字化管理,90%以上流程實現自動化。
財務文檔數字化解決方案,可以實現各類財報文檔自動識別,關鍵數據提取錄入與結構化,同時配合金融領域風險評估模型,極大程度地提高了金融風險識別的效率和準確率。
合同比對解決方案,可以進行合同文檔比對,將電子文檔,掃描件等不同版本的合同文檔進行智能分析比對,檢測包含范本使用,文本修改,字符標點等各類差異,極大提高比對效率并控制風險。
合同審閱解決方案,可以對印章和關鍵內容進行識別和審閱:自動識別印章錯蓋漏蓋,智能提取合同關鍵信息(例如合同主體,金額,時間,特殊條款等內容),提高復核,審批,以及自動化歸檔管理效率。
理光將繼續(xù)秉承創(chuàng)新精神,不斷深化技術研究,拓展OCR技術的應用領域,以滿足不斷變化的市場需求。我們期待與更多的合作伙伴攜手,將我們的技術應用于更廣泛的行業(yè)和場景中,共同推動人工智能技術的進步。同時,我們也將持續(xù)關注客戶的需求,通過不斷的優(yōu)化和創(chuàng)新,提供更加精準、高效的解決方案,以幫助客戶解決實際問題,提升工作效率。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )