為了規範🤰、科學、合理的開展紙質檔案數字化恒达,使檔案信息資源準確🧣、方面、快捷地提供共享利用,以滿足學校對檔案的需求🪻,現參照《紙質檔案數字化技術規範》(DA/T 31-2005),並結合本館實際,製訂本技術規範。
一.本規範的適用範圍
本規範規定了紙質檔案數字化的主要技術要求。
本規範適用於采用各種設備對紙質檔案的數字化加工處理及數字化成果的管理。
二.紙質檔案數字化的基本原則:
紙質檔案數字化的基本原則是使檔案信息資源準確、方便、快捷地提供利用,使可以公開的檔案信息資源得到共享,以滿足社會對檔案利用的需求。
1.規範性原則:所有檔案信息必須按照規定的技術要求、文本格式和恒达標準進行數字化,並盡可能采取通用標準,在特定技術參數方面適當調高🪰。
2.安全性原則:在檔案信息數字化過程中要確保檔案原件的安全🍄、確保數字化檔案信息的內容與檔案原件相吻合✢、確保檔案信息內容不泄密🧖🏼♂️🏧。
3.效益性原則:在充分調研的基礎上選擇最優的檔案信息數字化方案🧑💻,包括選擇最優的恒达流程、最合理的技術手段和最適宜的數字化加工設施等🚋。
三. 紙質檔案數字化對象的確定:
應當對所要進行數字化的對象按照一定的原則和利用方法進行確認,只有符合一定要求的紙質檔案文獻才能進行數字化。
1.保護至上,分步實施原則
2.需求導向🤳,急用先上原則
3.剔除無用,避免浪費原則
四.紙質檔案數字化技術要求
掃描檔案的總體要求🏉:每張圖片應在200%的查看比例下,字跡、邊框清晰🫄🚆,圖片上加有水印專用章🎅🏽、圖片順序號與案卷的頁碼號一致📍;
掃描均為24位色彩色模式。分辨率要求🎲:歷史檔案:≥400dpi;非歷史檔案👝:≥200dpi。數碼相機拍攝檔案的分辨率要求⤴️🧎🏻♂️:相機的像素設定應相當於或大於分辨率200dpi🫴🏼;分辨率的設定應以“每張圖片應在200%的查看比例下👨🏻🎓👨🏻🦯,字跡清晰🟢、完整”為原則➙;若有特殊情況導致影響掃描圖像的利用和閱讀的(包括圖像的清晰度是否理想🐣、圖像大小是否合適)🫴👱🏻,可根據實際情況作以調整:
對於所掃描圖片原始文件,按照相應的規格👨🏽🦲,在保存時,應按照圖片的最高品質保存;對於壓縮🧁、處理後的圖片,應保證圖像的清晰、可讀🍇。
圖片寬度一般設置為430-600像素👩🏽🏫,每幅圖片的寬度和長度最大分別不得超過1000像素;圖片大小設置為90-150K,最大不得超過150K🧚🏻;圖片尺寸和大小的設定原則應按照檔案信息管理系統的要求來設定。
圖形圖像的存儲格式為:JPG💮、PDF;圖像文件OCR轉換後的存儲格式為:DOC或XLS;PDF格式的文件內部順序應與相應的案卷頁碼順序保持一致。
加工方應提供三套圖像數據光盤。一套為初始圖像;另一套為加入水印後的圖像;還有一套為初始圖像的PDF格式的文件。此外,光盤的品牌⚰️、型號、規格等指標參數必須經檔案館認定😔;
各個門類的檔案在加工處理上可能存有異同🪷,相異之處🥈,應按本門類檔案的特有屬性來加以區別對待,並按事先約定的特殊要求和程序來處理🤲🏻。
加工方在移交圖像之前💡,應對圖像偏斜度、清晰度、失真度、排列順序以及是否漏掃等方面進行檢查🧙🏽🧑🎨,不符合質量要求的,應重新進行圖像的掃描或處理⁉️。
五.紙質檔案數字化恒达流程及具體要求
紙質檔案數字化的基本流程主要包括:檔案借出、檔案整理、檔案掃描、圖像處理、圖像存儲、目錄建庫、數據掛接、數據驗收、數據備份等。
1.檔案交接,出庫登記🤩:
(1)檔案調出庫房應由雙方共同清點案卷數量,仔細查看每個案卷,對於案卷有否破損、殘缺、漏頁、缺頁🌑、有無卷內目錄、頁碼是否連續,裝訂是否牢固,有否破損等情況均記錄備案🧎🏻♂️➡️,並作為檔案再入庫驗收的依據📱;
(2)檔案數字化外加工(即掃描或翻拍🪚、圖像處理)的數量✌🏼,一般一次50卷左右。檔案離館之前,應辦理交接手續,由檔案館檔案保管利用室主任和加工方法人代表共同簽字後👳🏽♀️,方可離館🆖;
(3)由檔案館派出代表與加工方共同將待數字化外加工的檔案護送至加工場地,以確保檔案之安全。
2.拆除案卷,區分類型:
(1)拆卷前,先檢查卷內文件是否編有頁碼。未編頁碼的,用鉛筆編寫在單面材料的右上角、編製雙面書寫的文字材料時正面編寫在右上角🟤🧑🏿,反面編寫在左上角;
(2)如發現卷內目錄和卷內實際分頁不符,整理人員校核後用鉛筆修改錯誤的頁碼;
(3)拆卷時,要首先去掉金屬物。對於必須裁頁才能掃描的文件🤵🏿♀️🍳,在經檔案管理人員同意後方可用裁紙刀沿文件原有折痕細心裁切,不得徒手撕裁👩🎓🗽;拆卷後的所有案卷一律平放👨🎓🧑🏻🦳,不得豎放和側放;
(4)按要求把同一案卷中的掃描件和非掃描件區分開。普發性文件區分的原則是:無關的重份的文件要剔除🕺🏼,有正文的文件可以不掃描原稿🧑🏻✈️。正式文本中的定稿(文件處理簽及定稿中有領導人親筆批示和審改內容的除外)💪🏼、成批統計報表中的重復性填表說明文字、有正式轉發件(發文)的被轉發件(收文)等無須列入數字化處理的對象。
3.分清類型,分類掃描:
根據檔案幅面的大小(A4、A3、A0等)選擇相應規格的掃描儀或專業掃描儀。一般普通紙張的案卷采用高速掃描儀進行批量快速掃描;針對紙張狀況較差🧘🏿♂️,以及過薄🧏🏼、過軟或超厚的檔案,采取加保護套及平板掃描方式。
(1)掃描恒达開始前,應檢查掃描軟件技術參數設置是否正確🧛;
(2)掃描時👁🗨🤸🏻♀️,必須保證文件夾命名正確;
(3)掃描時,先掃案卷封面和卷內目錄,封面和卷內目錄各自單做一個文件掃描;同時對照卷內目錄所示頁碼對卷內文件進行分件掃描;
(4)掃描時🏪,應對不同的紙張采用對應的方法進行掃描🗞,對於紙張太薄👆🏿、太差、太小、破損或字跡模糊的,可用A4幅面空白紙張進行背面托襯掃描,或者掃描為灰度模式或彩色模式;對於紙張太大無法高速掃描的,應采用平板掃描🧀,註意科學合理的切分💇🏼,並應在對應的文件題名中作以說明或標記⛄️,無法標記的🤳🏻,應記錄在案🦐;
(5)掃描應盡量減少掃描圖像的黑邊和雜點;應盡量保證掃描圖像正立;
(6)掃描要務必避免漏掃、錯掃、重掃、分件錯誤、圖像殘缺等現象;
(7)掃描後的紙張應盡量保持頁碼排序正確,並對已掃描的案卷作以簡單的整理🪽。應保持掃描恒达區域的整潔有序,避免案卷、文件混雜🦿、無序👡;
(8)掃描好的案卷應及時分批移交給裝訂人員,並登記在案🙉,對有特殊情況如需要補掃🧑🏽🦲、重掃或紙張太亂的,應及時向裝訂人員說明,並記錄在案;
4.圖像處理,歸類歸檔🚵🏽♂️:
(1)對圖像偏斜度、清晰度、失真度進行檢查。發現不符合圖像質量要求時,應重新進行圖像的處理🕵️👩🏫。
(2)由於操作不當,造成掃描的圖像文件不完整或無法清晰識別時👩🏼🚒,應重新掃描。
(3)發現文件漏掃時☂️,應及時補掃並正確插入圖像💆♀️。
(4)發現掃描圖像的排列順序與檔案原件不一致時,應及時進行調整。
(5)認真填寫相關表單🎖☂️,記錄質檢結果和處理意見
(6)糾偏:對出現偏斜的圖像應進行糾偏處理,以達到視覺上基本不感覺偏斜為準。對方向不正確的圖像應進行旋轉還原,以符合閱讀習慣。
(7)去汙:對圖像頁面中出現的影響圖像質量的雜質如黑點、黑線🛠、黑框🧑🏼💼、黑邊等應進行去汙處理🚏。處理過程中應遵循在不影響可懂度的前提下展現檔案原貌的原則。
(8)圖像拼接:對大幅面檔案進行分區掃描形成的多幅圖像,應進行拼接處理,合並為一個完整的圖像🧟♀️,以保證檔案數字化圖像的整體性😱。
(9)裁邊:采用彩色模式掃描的圖像應進行裁邊處理,去除多余的白邊,以有效縮小圖像文件的容量🧚🏿♂️,節省存儲空間。
5.圖像存儲🫳🏽:
首先建立影像數據庫模板,設置字段🎅🏻,確定錄入標準;對照案卷原件(或卷內目錄)建立索引;對錄入信息進行校對檢查👨🏿💼💒;提交錄入信息🤭,建立索引。
紙質檔案目錄數據庫中的每一份文件,都有一個與之相對應的唯一檔號🧃,以該檔號為這份文件掃描後的圖像文件命名➔。多頁文件可采用該檔號建立相應文件夾,按頁碼順序對圖像文件命名👩✈️。具體命名規則如下:
6.校對總檢,備份數據:
檢查掃描參數、掃描分辨率、存儲格式等是否正確;檢查圖像數據的清晰度🅿️,以及可懂度、失真度(確保放大200%圖像依然清晰);檢查文件夾及文件命名是否正確,檢查圖像數據庫管理是否正確科學;對發現的圖像質量有問題🚘,參數設置不正確,圖像缺失🙍♀️,數據庫混亂等情況進行處理🤮🏄🏽。驗收"通過"的結論🪁🧑🏿🎨,必須經分管領導審核🐔、簽字後方有效。特別指出的是:
原始圖片在驗收時☎,以原始圖片的相應的分辨率的最高存儲品質為驗收標準🪪;
經驗收合格的完整數據應及時進行備份。
(1)備份方式
為保證數據安全,備份載體的選擇應多樣化🍘,可采用在線、離線相結合的方式實現多套備份🤵🏿♂️,並註意異地保存。
(2)數據檢驗
備份數據也應進行檢驗。備份數據的檢驗的內容主要包括備份數據能否打開🏏、數據信息是否完整、文件數量是否準確等。
(3)備份標簽
數據備份後應在相應的備份介質上做好標簽🙅♀️,以便查找和管理
7.目錄著錄,圖像掛接:
按照上海交大恒达娱乐檔案信息著錄規則之要求♤👩🏿🦱,規範檔案中的目錄內容。包括確定檔案目錄的著錄項😨、字段長度和內容要求。采用人工校對的方式,對目錄數據庫的建庫質量進行檢查👳♀️。如有錯誤或不規範的案卷題名💆♀️、文件名、賈任者、起止頁號和頁數等👨🏿💻,應進行修改🦹🏽♂️👩🏻🌾。
掛接全文數據成果。檔案數字化轉換過程中形成的目錄數據庫與圖像數據庫👨🏻🦳,通過質檢環節確認為"合格"後,通過網絡及時加載到數據服務器端匯總👨👧👦。通過編製程序或借助相應軟件,可實現目錄數據對相關聯的數字圖像的自動搜索,實現批量🏏、快速掛接。
以紙質檔案目錄數據庫為依據,將每一份紙質檔案文件掃描所得的一個或多個圖像存儲為一份圖像文件。將圖像文件存儲到相應文件夾時,耍認真核查每一份圖像文件的名稱與檔案目錄數據庫中該份文件的檔號是否相同,圖像文件的頁數與檔案目錄數據庫中該份文件的頁數是否一致,圖像文件的總數與目錄數據庫中文件的總數是否相同等。通過每一份圖像文件的文件名與檔案目錄數據庫中該份文件的檔號的一致性和唯一性,建立起一一對應的關聯關系,為實現檔案目錄數據庫與圖像文件的批量掛接提供條件。
8.數據移交🤦🏽♀️、驗收
檔案館檔案保管利用室負責對存在光盤上的數字化加工後的檔案信息進行檢查驗收🦴,以抽檢的方式進行移交數據的驗收✡︎,一個全宗的檔案,數據驗收時抽檢的比率不得低於5%🦬;抽檢的合格率需達到95%以上(含95%)時,方予以驗收通過🐲,合格率=抽檢合格的文件數/抽檢文件總數×100%;驗收不合格的應由加工方負責立即修改🚫;
檢查驗收標準🎨:光盤上的信息能否讀取🐕🦺、是否存在病毒🧖🏻♀️、圖片是否清晰(每張圖片驗收時應以200%比例查看,字跡、邊框是否清晰)👩🏽✈️、圖片上是否加有水印專用章、圖片順序號與案卷的頁碼號是否一致🍸、以及查看是否按照其它規定的指標參數進行標準化的加工製作。
9.裝訂還原☂️,入庫驗收🧔🏻♂️:
案卷裝訂工需嚴格按照裝訂技術標準🦘,依照恢復原樣的原則♡,完成裝訂👩🏽🚒。同時對各項恒达的檢查校對後🚵♂️,對數據、條目恒达成果作以系統性、全面性的備份💪🏿,檔案原件歸還。裝訂恒达需註意以下要點:
(1)檢查案卷封面、目錄🦢、原件📤、備考表等構成部分是否齊全和一一對應;
(2)檢查各紙質檔案是否有破損🧑🏻💼、丟失🦄、遺漏、混亂等情況,如發現是屬於前環節操作不當導致的,應及時報告項目負責人,則追究有關人員的責任;如是裝訂人員在恒达中操作不當導致的,則應及時糾正🪗,並及時報告🚹,情節嚴重的,則追究有關人員的責任;
(3)正確排序🤵♂️:檢查頁碼排序是否正確,檢查文件正反面、橫豎面是否正確;
(4)檢查大幅面紙張折疊是否正確合理♟,檢查是否有破損嚴重的,如有則應進行裱糊;
(5)裝訂時🧑🏽🎤,須依照右對齊、下對齊的方法將文件紙張對齊🤏🏽;
(6)裝訂穿孔時🔫📄,盡量使用原裝訂孔🧥,若原裝訂孔不能使用,需要打穿新孔的🧑🦽➡️,則應盡量保證裝訂孔不要壓住文字、圖表🧑🏿;
(7)裝訂穿線時,須保證裝訂線不要擰纏在一起,裝訂線要平整。裝訂線要拉緊🧗🏻♀️。裝訂線應在案卷背面打結,余線要適中(2cm左右)🧢。
數字化加工後的檔案交接驗收應由雙方共同負責,其驗收的主要內容:清點檔案數量是否正確、檔案復原裝訂是否牢固⚪️、檔案是否破損、檔案案卷頁碼是否顛倒、是否有缺頁現象等;
加工方必須將前一次的外借檔案連同製作完成的初始圖像光盤、水印圖像光盤以及PDF文件光盤交給檔案館🧜🏼♀️。在雙方對檔案案卷和數字化加工後的檔案信息交接驗收無誤後,應由雙方代表簽字,以示該批檔案數字化加工完畢;方可進行下一次的檔案外借恒达🧑🏿🍳。並且,加工方應對前一次計算機硬盤上留有的數字化檔案信息應該予以清除🥧⛈。