2024年8月30日至9月4日,國際文檔分析與識別會(huì)議International Conference on Document Analysis and Recognition(以下簡稱ICDAR)在希臘雅典舉行。今年ICDAR設(shè)立了十余項(xiàng)競賽,吸引了全球諸多知名科技公司和研究機(jī)構(gòu)的參與。理光中國研究院NLP團(tuán)隊(duì)在ICDAR官方比賽“通過 Aria 眼鏡閱讀文檔(Reading Documents Through Aria Glasses)”賽道上,斬獲“低分辨率下的單詞識別”及“頁面級別的識別與閱讀”兩項(xiàng)任務(wù)的較高排名。
*“頁面級別的識別與閱讀”任務(wù)較高排名獎(jiǎng)狀
ICDAR賽事介紹
ICDAR由國際模式識別協(xié)會(huì)IAPR(International Association of Pattern Recognition)舉辦,是模式識別、計(jì)算機(jī)視覺領(lǐng)域、圖像處理領(lǐng)域最為重要的國際學(xué)術(shù)會(huì)議之一,涵蓋了文檔分析與識別領(lǐng)域的最 新學(xué)術(shù)成果和前沿應(yīng)用發(fā)展趨勢。
“通過 Aria 眼鏡閱讀文檔(Reading Documents Through Aria Glasses)”賽道,涉及到理解和處理使用Aria 設(shè)備*采集到的文本內(nèi)容。任務(wù)目標(biāo)是開發(fā)一系列穩(wěn)健的圖像處理算法來識別整個(gè)頁面中的文字內(nèi)容,同時(shí)保持正確的閱讀順序。具體來說,包括以下兩個(gè)子過程:1)低分辨率下的單詞識別:檢測并識別來自Aria眼鏡采集圖像中的單詞文本;2)閱讀順序預(yù)測:預(yù)測從頁面中提取的單詞級文本的閱讀順序(即頁面上單詞的序列)。
*ICDAR會(huì)場上,主辦方介紹任務(wù)數(shù)據(jù)示例
*ICDAR會(huì)場上,主辦方介紹任務(wù)目標(biāo)與挑戰(zhàn)
理光的突破創(chuàng)新與應(yīng)用實(shí)踐
理解文檔是可穿戴人工智能系統(tǒng)的基本任務(wù),需要開發(fā)解決方案,賦予系統(tǒng)閱讀和理解文檔中知識的能力。除了傳統(tǒng)的文檔分析挑戰(zhàn)外,可穿戴設(shè)備圖像還受到人體姿勢的多樣性、不同的光照條件、潛在的障礙物以及其他場景中主體的影響,這些因素在獲取準(zhǔn)確的光學(xué)字符識別(OCR)時(shí)增加了額外的障礙。
理光中國研究院將自身各種技術(shù)積累有機(jī)結(jié)合,在單詞識別部分,搭建了以PARSeq(Permuted AutoRegressive Sequence)為基礎(chǔ)的模型,采用了創(chuàng)新的模型迭代訓(xùn)練方法和成熟的數(shù)據(jù)合成技術(shù),進(jìn)一步提高了識別性能。在閱讀順序預(yù)測部分,理光沒有將其定義為傳統(tǒng)的排序任務(wù)或翻譯任務(wù),而是建模為具備語義分割能力的布局解析任務(wù)?;谠诒砀褡R別和圖紙識別項(xiàng)目上的豐富經(jīng)驗(yàn),理光自研的語義分割框架,在任務(wù)數(shù)據(jù)上微調(diào)后,展現(xiàn)了優(yōu)秀的解析效果。
理光中國研究院在OCR技術(shù)研究和各種場景下的項(xiàng)目實(shí)踐經(jīng)驗(yàn)方面有著深刻的理解。在基礎(chǔ)技術(shù)研究方面,理光中國研究院一直致力于圖像處理、文本檢測、文本識別、布局分析、表格識別以及與文檔理解相關(guān)的其他技術(shù)的研究,并取得了領(lǐng)先成果。在應(yīng)用方面,理光中國研究院已成功將OCR技術(shù)適配到設(shè)計(jì)圖紙、財(cái)務(wù)報(bào)告、合同、票據(jù)以及傳統(tǒng)文檔以外的其他領(lǐng)域。這些解決方案已經(jīng)成功服務(wù)于多領(lǐng)域客戶,并在特定需要的定制化適配方面積累了豐富的經(jīng)驗(yàn)。
圖紙檔案數(shù)字化解決方案,可以實(shí)現(xiàn)掃描件表格文字識別,信息提取和比對,以及歸檔流程處理的自動(dòng)化,有效解決海量圖紙數(shù)字化過程中大量的信息查找,手動(dòng)錄入,人工審核,繁瑣歸檔的難題,實(shí)現(xiàn)了有效智能的圖紙數(shù)字化管理,90%以上峰程實(shí)現(xiàn)自動(dòng)化。
財(cái)務(wù)文檔數(shù)字化解決方案,可以實(shí)現(xiàn)各類財(cái)報(bào)文檔自動(dòng)識別,關(guān)鍵數(shù)據(jù)提取錄入與結(jié)構(gòu)化,同時(shí)配合金融領(lǐng)域風(fēng)險(xiǎn)評估模型,極大程度地提高了金融風(fēng)險(xiǎn)識別的效率和準(zhǔn)確率。
合同比對解決方案,可以進(jìn)行合同文檔比對,將電子文檔,掃描件等不同版本的合同文檔進(jìn)行智能分析比對,檢測包含范本使用,文本修改,字符標(biāo)點(diǎn)等各類差異,極大提高比對效率并控制風(fēng)險(xiǎn)。
合同審閱解決方案,可以對印章和關(guān)鍵內(nèi)容進(jìn)行識別和審閱:自動(dòng)識別印章錯(cuò)蓋漏蓋,智能提取合同關(guān)鍵信息(例如合同主體,金額,時(shí)間,特殊條款等內(nèi)容),提高復(fù)核,審批,以及自動(dòng)化歸檔管理效率。
理光將繼續(xù)秉承創(chuàng)新精神,不斷深化技術(shù)研究,拓展OCR技術(shù)的應(yīng)用領(lǐng)域,以滿足不斷變化的市場需求。我們期待與更多的合作伙伴攜手,將我們的技術(shù)應(yīng)用于更廣泛的行業(yè)和場景中,共同推動(dòng)人工智能技術(shù)的進(jìn)步。同時(shí),我們也將持續(xù)關(guān)注客戶的需求,通過不斷的優(yōu)化和創(chuàng)新,提供更加準(zhǔn)確、有效的解決方案,以幫助客戶解決實(shí)際問題,提升工作效率。
(推廣)