九九九中文无码A∨|亚洲国产成人最新精品|国产AV无码精品色午夜|国产精品久久久久三级无码|日韩欧美一区国产二区在线|欧美另类精品一区二区三区|精品一区二区三区毛片视频网|中文字幕日韩精品一区二区三区

中國企業(yè)報集團主管主辦

中國企業(yè)信息交流平臺

微博 微信

如何提升智能文檔處理識別精度?合合信息“版面分析”實現(xiàn)新突破

2023-04-13 16:35 來源:中國企業(yè)網(wǎng) 次閱讀
 
如何提升智能文檔處理識別精度?合合信息“版面分析”實現(xiàn)新突破

  春季是繁忙的播種季,學(xué)生黨迎來了開學(xué)季和緊張的研究生復(fù)試,職場人士也需要處理新簽業(yè)務(wù)帶來的大量不同類型的文件,比如合同、發(fā)票、檔案等。這些文件在被拍照、掃描成電子文檔的過程中,時常存在漏字、錯位現(xiàn)象。究其原因,有個看似“冷門”卻關(guān)鍵的技術(shù)點極大地影響了文字識別效果,這個技術(shù)便是“版面分析”。

  近期,人工智能及大數(shù)據(jù)科技企業(yè)合合信息持續(xù)突破版面分析技術(shù)在版面分割、區(qū)域間的邏輯關(guān)系處理等方面的難題,通過智能文字識別、智能圖像處理等核心技術(shù),助力使用者從各類復(fù)雜的圖片文檔中精準獲取信息。

  深度學(xué)習(xí)助力版面分析“泛化”難題突破

  版面分析的目的是讓機器“看懂”文檔結(jié)構(gòu),即將文檔圖像分割成不同類型內(nèi)容的區(qū)域,并分析區(qū)域之間的關(guān)系,這是內(nèi)容識別之前的關(guān)鍵步驟。

  據(jù)中國科學(xué)院自動化研究所多模態(tài)人工智能系統(tǒng)全國重點實驗室聯(lián)合多所高校發(fā)布的論文顯示,版面分析主要包括物理版面分析(區(qū)域分割、分類,文本檢測與定位,文本行分割等),手寫及印刷區(qū)分,表格分析(單元格提取與關(guān)系分析),邏輯版面分析(區(qū)域語義分類、閱讀順序),以及簽名、圖標、印章等版面元素的提取等。

  總體而言,版面分析任務(wù)被分為物理版面分析(或稱為幾何版面分析)和邏輯版面分析兩類,前者主要解決區(qū)域分割問題,后者則關(guān)注區(qū)域之間的邏輯關(guān)系或閱讀順序。

  從上世紀80年代開始,較多專門研究版面分析的工作成果開始涌現(xiàn),此后經(jīng)歷了多番理念方法迭代。傳統(tǒng)的版面分析方法在進行版面布局分析和表格處理時會明顯受制于版式差異,在應(yīng)對不同場景下的文檔圖片時泛化效果存在缺陷,而深度神經(jīng)網(wǎng)絡(luò)的引入有效解決了這些問題。

  合合信息技術(shù)人員在采訪中提到,得益于全卷積神經(jīng)網(wǎng)絡(luò)(FCN)和圖神經(jīng)網(wǎng)絡(luò)(GNN)的突破,文檔版面分析的方法和性能得到了很大發(fā)展。公司基于深度學(xué)習(xí)的方法,結(jié)合文本區(qū)域的幾何坐標、視覺特征、文本語義等多種模態(tài)信息對文本閱讀順序進行預(yù)測,顯著提升分類結(jié)果。

合合信息智能文字識別服務(wù)平臺對存在圖片、表格的復(fù)雜文檔進行識別


  同時,合合信息表格結(jié)構(gòu)解析方法在邏輯版面分析中也發(fā)揮了重要作用,主要包括自上而下的方法、自下而上的方法以及端到端圖像到標記的方法等。在財報相關(guān)表格識別測試中,有線表識別單元格結(jié)構(gòu)準確率高于98%;無線表識別中,在保證表格區(qū)域內(nèi)容的完整性的同時,檢測準確率較傳統(tǒng)方法顯著提升。

  教育、商務(wù)、文保,“小”技術(shù)有大應(yīng)用

  近期,中共中央、國務(wù)院印發(fā)《數(shù)字中國建設(shè)整體布局規(guī)劃》,“數(shù)字中國”的建設(shè)邁上了新的征程。版面分析是實現(xiàn)文檔信息數(shù)字化的重要能力,解決了版面分析的痛點,有助于各界用戶將圖像文檔以數(shù)字化的手段更精準地轉(zhuǎn)化為文檔數(shù)據(jù),提升工作效率。

  對于研究人員或?qū)W生群體而言,版面分析與OCR技術(shù)的結(jié)合可以廣泛應(yīng)用于課件、試卷、作業(yè)、學(xué)術(shù)論文等材料的數(shù)字化處理,自動識別和提取多種教育類文檔文本、圖像、公式、表格等元素進行不同場景的應(yīng)用,簡化教學(xué)和學(xué)習(xí)過程。

  商務(wù)場景中,版面分析與OCR技術(shù)能自動識別和提取財務(wù)數(shù)據(jù)、圖表、文本等信息,并將印刷財報轉(zhuǎn)換為可分析的電子數(shù)據(jù),在處理不同類型的財務(wù)報表時,能夠提升報告分析效率和準確性,幫助相關(guān)人員實現(xiàn)公司財務(wù)報告、審計報告、年度報告等文件的自動處理和分析。

合合信息智能文字識別服務(wù)平臺對財務(wù)文件進行處理


  此外,版面分析相關(guān)技術(shù)還可作用于文化保護,通過自動識別和提取各種類型書籍的表格、圖像信息,將不同時代、多種印刷版式、多種概念的紙質(zhì)圖樣按照符合人類理解的格式進行電子化存儲,幫助實現(xiàn)文獻、古籍、報紙、雜志等資料的數(shù)字化和知識管理。

  相關(guān)研究表明,現(xiàn)階段,針對復(fù)雜版面文檔和拍照變形文檔的分析識別仍存在性能不足的情況。這個細小卻重要的技術(shù)還需要更多的研究機構(gòu)及科技企業(yè)加入進來,共同推動理論的研究與應(yīng)用的突破。

點贊()
上一條:上海海洋大學(xué)“偉大工程”示范黨課開講2023-04-13
下一條:國家管網(wǎng):首次盾構(gòu)隧道內(nèi)管道油品泄漏應(yīng)急演練在蘭成功舉辦2023-04-13

相關(guān)稿件

清華“博士團”齊聚合合信息,共話人工智能技術(shù)應(yīng)用未來 2023-04-04
10分鐘完成模型開發(fā)!合合信息智能文字識別服務(wù)平臺亮相1024程序員節(jié) 2022-10-25
挑戰(zhàn)“大師級”閱讀理解,合合信息智能文字識別技術(shù)亮相2022世界人工智能大會 2022-09-01
中國圖象圖形學(xué)學(xué)會牽手合合信息舉辦“CSIG企業(yè)行”活動,共探圖文智能處理技術(shù)與多場景應(yīng)用發(fā)展 2023-03-22
表格識別總是不夠精準?合合信息旗下掃描全能王這樣“解題” 2022-09-21
國務(wù)院國有資產(chǎn)管理委員會 中國企業(yè)聯(lián)合會 中國企業(yè)報 中國社會經(jīng)濟網(wǎng) 中國國際電子商務(wù)網(wǎng) 新浪財經(jīng) 鳳凰財經(jīng) 中國報告基地 企業(yè)社會責任中國網(wǎng) 杭州網(wǎng) 中國產(chǎn)經(jīng)新聞網(wǎng) 環(huán)球企業(yè)家 華北新聞網(wǎng) 和諧中國網(wǎng) 天機網(wǎng) 中貿(mào)網(wǎng) 湖南經(jīng)濟新聞網(wǎng) 翼牛網(wǎng) 東莞二手房 中國經(jīng)濟網(wǎng) 中國企業(yè)網(wǎng)黃金展位頻道 硅谷網(wǎng) 東方經(jīng)濟網(wǎng) 華訊財經(jīng) 網(wǎng)站目錄 全景網(wǎng) 中南網(wǎng) 美通社 大佳網(wǎng) 火爆網(wǎng) 跨考研招網(wǎng) 當代金融家雜志 借貸撮合網(wǎng) 大公財經(jīng) 誠搜網(wǎng) 中國鋼鐵現(xiàn)貨網(wǎng) 證券之星 融易在線 2014世界杯 中華魂網(wǎng) 納稅人俱樂部 慧業(yè)網(wǎng) 商界網(wǎng) 品牌家 中國國資報道 金融界 中國農(nóng)業(yè)新聞網(wǎng) 中國招商聯(lián)盟 和訊股票 經(jīng)濟網(wǎng) 中國數(shù)據(jù)分析行業(yè)網(wǎng) 中國報道網(wǎng) 九州新聞網(wǎng) 投資界 北京科技創(chuàng)新企業(yè)誠信聯(lián)盟網(wǎng) 中國白銀網(wǎng) 炣燃科技 中企媒資網(wǎng) 中國石油化工集團 中國保利集團公司 東風汽車公司 中國化工集團公司 中國電信集團公司 華為技術(shù)有限公司 廈門銀鷺食品有限公司 中國恒天集團有限公司 濱州東方地毯集團有限公司 大唐電信科技股份有限公司 中國誠通控股集團有限公司 喜來健醫(yī)療器械有限公司 中國能源建設(shè)股份有限公司 內(nèi)蒙古伊利實業(yè)集團股份有限公司 中國移動通信集團公司 中國化工集團公司 貴州茅臺酒股份有限公司