淺析漢字識(shí)別技術(shù)在檔案管理工作中的應(yīng)用
191
一、漢字識(shí)別技術(shù)的應(yīng)用價(jià)值 漢字識(shí)別技術(shù)的應(yīng)用價(jià)值主要體現(xiàn)在兩個(gè)方面:
一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供 豐富的數(shù)據(jù)源。
首先,從庫(kù)存檔案的情況來(lái)看,近幾十年來(lái)形成的大量印刷漢字檔案記載了我們黨和國(guó)家的 重要?dú)v史,對(duì)我國(guó)現(xiàn)代化事業(yè)的發(fā)展,對(duì)精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用 價(jià)值。但這部分檔案的內(nèi)容都沒(méi)有文本數(shù)據(jù),或者說(shuō)都只是固定在紙質(zhì)載體上的死信息。既 使通過(guò)掃描以圖像方式存儲(chǔ)于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿(mǎn)足現(xiàn)代社會(huì)對(duì)檔案 信息的多種利用需求。其次,從辦公自動(dòng)化的發(fā)展情況來(lái)看,每年接收的檔案中仍然會(huì)有相 當(dāng)數(shù)量的檔案沒(méi)有文本文件,或?yàn)橥鈫挝粊?lái)文,或?yàn)閬G失損壞等。漢字識(shí)別技術(shù)的應(yīng)用價(jià)值 就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù) 據(jù),使深層次的開(kāi)發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。
另一方面,提供了一種新的檔 案目錄數(shù)據(jù)的錄入方式。
應(yīng)用計(jì)算機(jī)以來(lái),漢字錄入只有一種方式,即健盤(pán)錄入。雖然目前漢字鍵盤(pán)錄入的方法有許 多種,而且日趨簡(jiǎn)便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需 要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對(duì)于在檔案部門(mén)占有相當(dāng) 比例的中老年同志來(lái)說(shuō),掌握起來(lái)確有難度。因此,鍵盤(pán)錄入方式仍然是影響一些檔案部門(mén) 建立檔案目錄信息數(shù)據(jù)庫(kù)的因素之一。OCR軟件為我們提供了一條新的途徑。它通過(guò)“拖拉 ”的方式,將屏幕上文件的目錄項(xiàng)如標(biāo)題、文號(hào)、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫(kù)的相 應(yīng)字段中去,簡(jiǎn)單易學(xué),一看就會(huì)。遺憾的是手工“拖拉”速度較慢,而且需要即時(shí)掃描或 調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫(kù)提供了一條前所未有的途徑。而且 ,如果利用OCR軟件同時(shí)建立新型的綜合檔案信息數(shù)據(jù)庫(kù),例如包括檔案的文件目錄、圖像 和文本等,效果就此較理想了。
二、漢字識(shí)別后生成的文本數(shù)據(jù)的屬性問(wèn)題。
原始性是檔案的基本屬性。漢字識(shí)別后生成的文本數(shù)據(jù)是根據(jù)檔案的本源信息,即固定在紙 質(zhì)載體上的漢字信息進(jìn)行加工處理:掃描、識(shí)別、校對(duì)、修改等工序后形成的復(fù)制加工品, 因此不具有檔案的原始性。
知識(shí)性是檔案的又一個(gè)屬性。漢字識(shí)別后生成的文本數(shù)據(jù)如果不計(jì)算人工校對(duì)后仍然可能存 在的微小誤差,應(yīng)該說(shuō)具有與檔案原件同等的內(nèi)容,因此具有檔案的知識(shí)性。
漢字識(shí)別后生成的文本數(shù)據(jù)是將檔案的內(nèi)容以特殊的物理方式重新記錄在特殊的載體之上, 比以文字的方式記錄在紙質(zhì)載體之上更具有便于傳遞、接收、存儲(chǔ)、利用以及不磨損、不丟 失等屬性。因此具有更強(qiáng)的信息性。
漢字識(shí)別后生成的文本數(shù)據(jù)應(yīng)該說(shuō),它是一種新型的檔案一次信息的復(fù)制品或編研開(kāi)發(fā)成果 。但作為一種新型的復(fù)制品或編研開(kāi)發(fā)成果,因其生成的目的不同,又具有兩種不同的屬性 :當(dāng)以提供利用為目的通過(guò)漢字識(shí)別建立文本數(shù)據(jù)庫(kù)時(shí),其文本數(shù)據(jù)具有類(lèi)似于匯編類(lèi)檔案 編研成果的屬性;當(dāng)以編輯出版紙質(zhì)的檔案編研材料如大事記、組織機(jī)構(gòu)沿革、文件匯編等 為目的進(jìn)行漢字識(shí)別時(shí),其文本數(shù)據(jù)不僅具有類(lèi)似于檔案編研成果的屬性,而且具有檔案原 始性的基本屬性,因?yàn)樗鼈兪怯∷⑵坊虺霭嫖锏谋驹葱畔ⅰ?
由此可見(jiàn),漢字識(shí)別后生成的文本數(shù)據(jù)是一種不同于傳統(tǒng)檔案屬性的新型檔案信息。
三、漢字識(shí)別技術(shù)的應(yīng)用方式
漢字識(shí)別技術(shù)在檔案管理工作中的應(yīng)用,根據(jù)其目前的技術(shù)水平主要適用于近幾十年來(lái)印刷 漢字檔案內(nèi)容的識(shí)別,圖像、文本數(shù)據(jù)的形成、存儲(chǔ)和目錄數(shù)據(jù)的錄入等項(xiàng)工作。主要的應(yīng) 用方式有:
(一)利用者閱讀紙質(zhì)檔案的內(nèi)容之后,對(duì)其所需要的內(nèi)容進(jìn)行掃描和漢字識(shí)別,或打印出統(tǒng) 一格式的利用摘錄,或直接提供文本拷貝。
這種利用方式的優(yōu)點(diǎn)主要有:
1方便用戶(hù),可減少信息利用過(guò)程中的重復(fù)勞動(dòng);
2不給檔 案人員增加建庫(kù)的工作負(fù)擔(dān);
3節(jié)省建庫(kù)所需的經(jīng)費(fèi)開(kāi)支。其缺點(diǎn)主要有:
1不能為全文 檢索提供數(shù)據(jù),實(shí)現(xiàn)深層次開(kāi)發(fā)檔案信息資源的目的;
2存在對(duì)同一檔案內(nèi)容重復(fù)進(jìn)行掃 描和漢字識(shí)別的可能性。
(二)輸入檔案目錄。這是加快檔案目錄信息數(shù)據(jù)庫(kù)建設(shè)的一條新路,能夠使更多的人員從事輸入工作,但輸入速度不甚理想,而且成本費(fèi)用相對(duì)較高。
(三)掃描、保存圖像并提供利用,只針對(duì)利用者需要的圖像內(nèi)容進(jìn)行漢字識(shí)別等利用服務(wù)。
這種方式必須在已有文件目錄的前提下使用。其優(yōu)點(diǎn)主要有:1具有提供原件和提高信息 利用效率的雙重優(yōu)勢(shì);2檔案人員不承擔(dān)漢字識(shí)別后生成的文本數(shù)據(jù)的維護(hù)工作。其缺點(diǎn) 主要有:1同第一種利用方式的缺點(diǎn)。2漢字識(shí)別技術(shù)要求圖像的光學(xué)分辨率較高,一般為3000dpi,而一般圖像的分辨率僅為150dpi,因此所需的存儲(chǔ)空間較大,約是一般圖像的2 、3倍,那么,所需的存儲(chǔ)成本也要高得多。這種高代價(jià)的圖像存儲(chǔ)僅用來(lái)滿(mǎn)足用戶(hù)利用識(shí) 別的需要似乎有點(diǎn)得不償失。因此低分辨率的圖像也能進(jìn)行漢字識(shí)別,只是識(shí)別率相對(duì)較低 而已。我們也曾做過(guò)對(duì)比實(shí)驗(yàn),同一頁(yè)印刷質(zhì)量良好的B5紙型文件約500字,以300dpi進(jìn)行掃描,識(shí)別率為100%;以150dpi進(jìn)行掃描,識(shí)別率為99.4%(誤識(shí)3字)。這對(duì)于一般用戶(hù)而言無(wú)所謂的。
(四)建立文本數(shù)據(jù)庫(kù)。這種方式也應(yīng)在已有文件目錄的條件下使用。其優(yōu)點(diǎn)主要有:
1節(jié)省存儲(chǔ)空間和存儲(chǔ)成本。仍以一頁(yè)B5型紙約500漢字的文件為例,以文本方式存儲(chǔ)約需1000字節(jié);以圖像方式存儲(chǔ)約需25000字節(jié)。因此,同量漢字的文本方式存儲(chǔ)比圖像方式存儲(chǔ)成本低得多。
2為全文檢索提供數(shù)據(jù),能夠?qū)崿F(xiàn)深層次開(kāi)發(fā)利用檔案信息資源的目的。
其缺點(diǎn)主要有:
1建立文本數(shù)據(jù)庫(kù)的工作量較大。
2不能滿(mǎn)足用戶(hù)閱讀檔案原件的需求。
3 由于沒(méi)有圖像隨時(shí)提供依據(jù),不便于對(duì)文本數(shù)據(jù)的準(zhǔn)確性進(jìn)行核實(shí)。
(五)輸入目錄并保存圖像。
(六)輸入目錄、建立文本數(shù)據(jù)庫(kù)。
(七)保存圖像、建立文本件數(shù)據(jù)。
(八)輸入目錄、保存圖像并建立文本數(shù)據(jù)庫(kù)。
這是充分發(fā)揮OCR軟件功能,深層次開(kāi)發(fā)利用檔案信息資源的應(yīng)用方式。但工程量較大,人力、資金需求較多,建庫(kù)周期較長(zhǎng)。
隨著漢字識(shí)別技術(shù)水平的提高和應(yīng)用的普及,可能還會(huì)產(chǎn)生新的應(yīng)
用方式,但無(wú)論使用哪一 種方式,都必須符合本單位檔案管理工作的實(shí)際,統(tǒng)籌考慮檔案狀況、人員配備、經(jīng)費(fèi)能力、辦公自動(dòng)化水平、檔案現(xiàn)代化建設(shè)發(fā)展規(guī)劃等方面的因素,以切實(shí)提高檔案信息資源開(kāi)發(fā)利用能力為目的,這樣才能收到事半功倍的效果。
擴(kuò)展閱讀
倒逼成本管理—降本增效中國(guó)行第247 2024.09.29
2024年9月19日—9月21日,姜上泉導(dǎo)師在蘇州主講第247期《利潤(rùn)空間—降本增效系統(tǒng)》3天2夜方案訓(xùn)戰(zhàn)營(yíng)。中集集團(tuán)、中鹽集團(tuán)、中國(guó)建材、花園集團(tuán)、深南電路、中原證券、空軍裝備5720等多家大型企業(yè)
作者:姜上泉詳情
技術(shù)降本促進(jìn)商務(wù)降價(jià)—降本增效中國(guó)行 2024.08.28
2024年8月22日—8月24日,姜上泉導(dǎo)師在北京主講第244期《利潤(rùn)空間—降本增效系統(tǒng)》3天2夜方案訓(xùn)戰(zhàn)營(yíng)。中國(guó)建材、宇通客車(chē)、建龍集團(tuán)、中國(guó)鐵路物資股份、中國(guó)遠(yuǎn)大集團(tuán)、中航物資裝備等多家500強(qiáng)企
作者:姜上泉詳情
早期的經(jīng)銷(xiāo)商幾乎都是產(chǎn)品驅(qū)動(dòng),運(yùn)營(yíng)方式就是賣(mài)貨,盈利方式就是靠賣(mài)貨賺差價(jià),然后就是多賣(mài)貨,賣(mài)名牌貨,賣(mài)新產(chǎn)品,賣(mài)高端品。理論上來(lái)說(shuō),終端覆蓋率越高,陳列做得越好,促銷(xiāo)活動(dòng)持續(xù)不斷,貨就賣(mài)得越多,錢(qián)就賺
作者:潘文富詳情
管理寓言故事:擠牛奶的姑娘 2024.06.07
寓言故事:一個(gè)農(nóng)家擠奶姑娘頭頂著一桶牛奶,從田野里走回農(nóng)莊。她忽然想入非非:amp;這桶牛奶賣(mài)得的錢(qián),至少可以買(mǎi)回三百個(gè)雞蛋。除去意外損失,這些雞蛋可以孵得二百五十只小雞。到雞價(jià)漲得最高時(shí),便可以拿這
作者:李文武詳情
中小企業(yè)員工職業(yè)生涯規(guī)劃與管理(企業(yè) 2024.05.25
隨著“知本時(shí)代”的發(fā)展,員工越來(lái)越關(guān)注個(gè)人成就感,越來(lái)越注重個(gè)人職業(yè)發(fā)展,,而企業(yè)也為贏得人才、留住人才,實(shí)現(xiàn)平衡發(fā)展與人力資本的最大化,員工職業(yè)生涯發(fā)展規(guī)劃也受到重視,并成為企業(yè)人才戰(zhàn)略的重要一環(huán)。
作者:李慶軍詳情
2024年畢業(yè)生好找工作嗎?2024 2024.05.17
金三銀四是擇業(yè)黃金期,但是今年的金三銀四不管是校招,社招還是考公考編,競(jìng)爭(zhēng)都很激烈。特別是校招,有非常多的銷(xiāo)售崗位,好的單位和崗位確實(shí)不多。 在前幾年,不好找工作還能考慮特定事件的因素,去年大學(xué)
作者:王曉楠詳情
版權(quán)聲明:
本網(wǎng)刊登/轉(zhuǎn)載的文章,僅代表作者個(gè)人或來(lái)源機(jī)構(gòu)觀點(diǎn),不代表本站立場(chǎng),本網(wǎng)不對(duì)其真?zhèn)涡载?fù)責(zé)。
本網(wǎng)部分文章來(lái)源于其他媒體,本網(wǎng)轉(zhuǎn)載此文只是為 網(wǎng)友免費(fèi)提供更多的知識(shí)或資訊,傳播管理/培訓(xùn)經(jīng)驗(yàn),不是直接以贏利為目的,版權(quán)歸作者或來(lái)源機(jī)構(gòu)所有。
如果您有任何版權(quán)方面問(wèn)題或是本網(wǎng)相關(guān)內(nèi)容侵犯了您的權(quán)益,請(qǐng)與我們聯(lián)系,我們核實(shí)后將進(jìn)行整理。
- 1經(jīng)銷(xiāo)商終端建設(shè)的基本 59
- 2姜上泉老師人效提升咨 71
- 3姜上泉老師降本增效咨 56
- 4中小企業(yè)招聘廣告的內(nèi) 27392
- 5姜上泉老師:泉州市精 192
- 6姜上泉老師降本增效咨 14727
- 7倒逼成本管理—降本增 18589
- 8中國(guó)郵政重慶公司降本 264
- 9中航工業(yè)Z研究所降本 272