
紙質(zhì)檔案數(shù)字化的理論與實(shí)踐*
余英杰
【摘要】隨著社會信息化的進(jìn)一步發(fā)展,人們對信息資源的渴求日漸增大。作為政府資訊重要來源之一的檔案部門,在信息時代里如何利用豐富的檔案資源,以方便、快捷、多樣的形式為社會建設(shè)提供服務(wù)一直都是我們不斷探討的問題。本文結(jié)合紙質(zhì)檔案數(shù)字化的理論和實(shí)踐,對我局的紙質(zhì)檔案數(shù)字化工作作出初步的總結(jié)與思考。
【關(guān)鍵詞】數(shù)字化 檔案資源信息共享
隨著社會信息化進(jìn)程的加快,信息資源已經(jīng)成為人類社會活動和經(jīng)濟(jì)活動的戰(zhàn)略資源。信息技術(shù)的高速發(fā)展和推廣應(yīng)用使信息產(chǎn)業(yè)成為國民經(jīng)濟(jì)中最具有增長活力的部門和重要的支柱產(chǎn)業(yè)之一,與此同時信息技術(shù)的發(fā)展與廣泛應(yīng)用使檔案數(shù)字化建設(shè)提上了日程,給檔案工作帶來了新的契機(jī),信息技術(shù)的日新月異也給檔案工作帶來了新的研究課題——這就是檔案數(shù)字化建設(shè)。檔案工作的數(shù)字化建設(shè)也是順應(yīng)潮流,適應(yīng)時代發(fā)展的新舉措、新要求。檔案作為一種原生的信息資源,其重要性正日益凸顯出來。面對這種挑戰(zhàn)我們檔案工作者應(yīng)積極應(yīng)對,我們要不斷學(xué)習(xí)科學(xué)知識,逐步掌握信息技術(shù)為檔案工作服務(wù),為社會主義經(jīng)濟(jì)建設(shè)服務(wù),為社會主義精神文明建設(shè)服務(wù)。
目前大部分檔案館館藏檔案載體仍然是以紙質(zhì)為主,傳統(tǒng)的檔案管理模式占用存放空間大,保管成本高,易磨損,并且檢索利用效率低,難以滿足人們?nèi)諠u增大的對信息資源的渴求。通過對紙質(zhì)檔案的數(shù)字化處理,利用電子檔案替代原件使用,實(shí)現(xiàn)了對檔案原件的有效保護(hù)。數(shù)字化檔案可以副本異地保存,這樣可使這些檔案資料在出現(xiàn)天災(zāi)人禍的情況下不致于遭到毀滅性的破壞。檔案數(shù)字化有助于恢復(fù)檔案材料模糊褪變的字跡及對污損殘缺照片檔案的修復(fù)。檔案數(shù)字化能改善檔案的利用方式,使檔案的利用不再受“孤本”的限制,一份文件可以同時提供給所有需要它的人共享。檔案數(shù)字化以后,將已開放的檔案上網(wǎng),這樣所有利用者就可以在任何時間上網(wǎng)利用檔案信息資源,擴(kuò)大了檔案的利用空間,讓更多的人來了解檔案,利用檔案。
紙質(zhì)檔案數(shù)字化制作方式一般有兩種:第一種是通過計算機(jī)人工錄入或通過掃描儀掃描由字符識別軟件(OCR)識別,制成文本文件;第二種是將檔案原文的每一頁看成是一張圖片,不管上面具體是什么內(nèi)容,由掃描儀按頁掃入計算機(jī)制成圖形文件。第一種方式占據(jù)空間小,是一種真正意義上的全文數(shù)字化,但紙質(zhì)檔案信息的記錄方式是多種多樣的,有的是手寫體、繁體字,有的字跡褪化及非文字形式等,此時采用第一種方式就會暴露出如下致命弱點(diǎn):用OCR字符識別的準(zhǔn)確率低;若采用人工錄入,不但需要大量的錄入人員,而且一時還不能馬上勝任此項(xiàng)工作,差錯率大且核對困難,投入大,收效低。而第二種方式實(shí)現(xiàn)容易,一般檔案工作人員只要稍加培訓(xùn),即可操作機(jī)器,且工作可以定量化,差錯率相對較低,即便有一些錯掃、漏掃等,也能很快被發(fā)現(xiàn)。至于圖形文件占空間大的問題,在計算機(jī)技術(shù)日新月異的今天,存儲設(shè)備容量的不斷提高,相關(guān)處理軟件的推陳出新,圖形文件的儲存問題將會得到很好的解決,如果能采用先進(jìn)的高速掃描儀,那么對檔案信息數(shù)字化無疑是如虎添翼。另外,還因?yàn)閳D像掃描保持了檔案原件本來面目,可以使利用者在看到文字內(nèi)容的同時,也能看到紙質(zhì)檔案的其它一些特征,如原件的紙色、墨跡、印章、圈點(diǎn)、批注等各種原貌,使利用者可以獲得更多的線索,開展一些更深入的研究。
在開始檔案數(shù)字化之前,先要作好統(tǒng)籌規(guī)劃。將大量的檔案數(shù)字化,是一個龐大的系統(tǒng)工程。首先要做好館藏情況的調(diào)查,包括檔案的類型、載體形態(tài)與狀態(tài)、館藏數(shù)量、檔案信息利用等基本情況。根據(jù)館藏情況制訂檔案數(shù)字化的科學(xué)規(guī)劃,包括掃描儀等硬件的購置計劃和數(shù)字化處理規(guī)劃。檔案數(shù)字化要經(jīng)過一個較長的過程,硬件的購置不可能一步到位,也不需要一步到位,應(yīng)從實(shí)際和長遠(yuǎn)打算,保證掃描儀等硬件設(shè)施的成龍配套,使其具有較強(qiáng)的支撐能力和擴(kuò)展能力。對館藏重點(diǎn)和利用率高的檔案先進(jìn)行數(shù)字化,早日滿足大多數(shù)利用者的需求。
做好檔案數(shù)字化的全程控制。在檔案數(shù)字化過程中,為了提高檔案的掃描效率和保證形成圖像的完整性,有時候需要把一卷卷的檔案拆開對每一張檔案進(jìn)行掃描,掃描完畢后再重新裝訂起來,在此過程中要做好檔案原件保管工作,不能丟失或損壞檔案。要做好數(shù)字化時掃描參數(shù)的優(yōu)化設(shè)置,在確保圖像能夠清晰完整地反映檔案原件內(nèi)容的前提下,圖像文件所占用存儲空間的大小要適中。數(shù)字化要注重全面的質(zhì)量檢查,加強(qiáng)數(shù)據(jù)的質(zhì)量控制。質(zhì)量檢查應(yīng)包括以下幾方面內(nèi)容:首先,數(shù)字化前的檔案整理檢查。要進(jìn)行數(shù)字化的檔案原件必須完整、排序正確,對折損嚴(yán)重影響掃描質(zhì)量的原件應(yīng)預(yù)先修整。其次,數(shù)字化后的數(shù)據(jù)質(zhì)量、圖像質(zhì)量檢查。掃描后的圖像文件應(yīng)保持檔案的原貌,字跡清楚不失真,幅面擺放正確,亮度適當(dāng),既沒丟失信息,又無增加信息,無錯掃、漏掃,對圖像文件質(zhì)量有問題的應(yīng)重新掃描;采集錄入數(shù)據(jù)要豐富、準(zhǔn)確。檔案數(shù)字化過程中,總會遇到不能對外公開或泄密的文件,所以要注重由紙質(zhì)檔案掃描而形成的電子文件的保密與保管工作。在一般情況下,數(shù)字化工作人員不得帶任何電子存儲設(shè)備進(jìn)入數(shù)字化工作室,保證檔案資料不外泄。對數(shù)字化生成的電子文件,要及時地進(jìn)行備份保存,防止因?yàn)橥话l(fā)的計算機(jī)故障而導(dǎo)致數(shù)據(jù)的大量丟失。
紙質(zhì)檔案數(shù)字化是一項(xiàng)長期而又復(fù)雜的任務(wù),在實(shí)踐過程中會不斷地涌現(xiàn)新的情況、新的問題、新的技術(shù),數(shù)字化工作不可能一步到位。這就要求我們必須具備發(fā)展的眼光,將學(xué)習(xí)到的新知識、新技術(shù)應(yīng)用到實(shí)際工作中去,推動檔案事業(yè)不斷地向前發(fā)展。
(作者單位:佛山市檔案局)
*本文獲佛山市檔案學(xué)會2006年檔案研討會論文三等獎
愛華網(wǎng)


