内容摘要:可详细表述为:首先通过扫描将“上谕档”原文转化成数字图像,然后进行文本划分选择用于文字识别的主要文本,进而以此作为内容比对基础,确定“上谕档”不同文本中的所有不重复内容,作为文字识别范围,并利用当前最高水平的古籍数字化技术进行汉字识别。完成“上谕档”全文数字化项目,共收录馆藏雍正元年正月④至宣统三年十二月的各种文本的汉文上谕档档册,计2504册, 712542页, 6035万字,是有史以来一史馆馆藏“上谕档”最为完整的公布。④在一史馆馆藏中发现有雍正元年的上谕档,此时军机处尚未成立,故不能准确判定其文本形成确切时间和缘由,为使读者对“上谕档”产生沿革的研究有所参考起见,特将其收入本数字化项目。
关键词:上谕;数字化;档案;文本;馆藏;检索;识别;全文;读者;汉字
作者简介:
作者简介:王光越,中国第一历史档案馆研究馆员;栗维健,中国第一历史档案馆副研究馆员。
中国历代皇帝发布文告和指令的文书中有一种是谕旨。清代,谕与旨所指各有不同,“凡特降者为谕,因所奏请而降者为旨,其或因所奏请而即以宣示中外者亦为谕”①。有清一代,许多重要衙署为存档备查,各制有专门抄录谕旨的档册,但名称不同,汇抄内容与规则有异,如内阁有丝纶簿、外纪簿、上谕簿;军机处有寄信档、明发档、纶音档,还有剿捕档,等等。有的记旨,有的记谕,有的记明发上谕,有的记寄信上谕,有的记专项事务相关谕旨。除此种分类记载谕旨的档册外,军机处还另有一种综合记载谕旨的档册。这类档册一般封面书有“上谕档”字样,或“寻常档”字样,或有按月成册书有现月档字样,或按季成册书有春、夏、秋、冬四季档字样。本文所述中国第一历史档案馆(以下简称一史馆)馆藏清代军机处上谕档(以下简称“上谕档”),即指清代汇抄的诸种谕旨档册中的此类档册②。
“上谕档”汇集了清帝日常所发布和密寄的重要政令,并附抄有与之直接相关的敕谕和折、片、咨、单等公文书。就其内容而言,“上谕档”涉及的内容不仅十分广泛,而且特别重要。凡清王朝对国家政治、军事、外交、民族、经济、文化等各项重要事务的最高决策,绝大部分在“上谕档”中都有记载。它与军机处各项分类记载谕旨的档册和其他机构所形成的谕旨类档册,以及朱谕、朱批奏折、题本等互补,构成了清代最高政务活动的核心档案。长期以来,一直深为中外清史学者和社会史学者所重视。
随着文献数字化技术的进步,为给读者提供更多方便,一史馆利用国家专项经费,在北京书同文数字化技术有限公司的配合下,自2007年2月始,历时2年零5个月,完成了“上谕档”全文数字化项目。
本文拟对“上谕档”全文数字化项目的背景、实施情况以及成果功能加以概述,以期读者能够对该项目和项目成果的利用价值有一个较为全面的了解,以便更好地利用这一大型的清代档案数字化成果。
一 项目背景
1.全文数字化的实践基础和难点。
“上谕档”以及“大清历朝实录”和“大清五部会典”三个全文数字化项目,作为一史馆“清代档案文献全文数据库”的首期工程一并立项。其于档案文献数字化方面的意义在于,面对存世明清档案文献形制的复杂性,实践一种适用于诸如“实录”、“会典”、“上谕档”、“起居注”等一类篇幅巨大、记事繁复、内容重要却又缺少题名,并且按其内容逐条著录工作量极大的簿册式档案文献的数字化模式,以期与适用于折件式档案的目录数据库链接原文数字图像的数字化模式互为补充,从而丰富明清档案文献数字化的技术模式,满足社会对明清档案文献数字化成果多样性的需求。
“大清历朝实录”和“大清五部会典”全文数字化项目先期完成,因其对档案文献形式与内容信息全面而深入的揭示,以及强大的全文检索功能和辅助阅读功能,受到了专家和读者一致好评。同时,专家和读者也对其数字化中的版式处理、检索记录功能和软件结构等提出了一些建设性改进意见,为一史馆全文数字化工作的推进奠定了基础。但是,“大清历朝实录”和“大清五部会典”属于官修典籍,其版本、版式状况,比之“上谕档”这类直接产生于政务活动的原始档案要规范、齐整得多。原始档案所具有的复杂的文本状况,多眉批、夹条、夹批、夹注、删改的特点,都是“上谕档”全文数字化项目必须面对并须妥善解决的难题。
2.以往“上谕档”的出版情况及纸质出版物的局限。
1986年至1999年,一史馆曾分别与中国档案出版社、广西师范大学出版社合作,陆续影印出版了馆藏乾隆朝至宣统朝等七朝上谕档,受到读者的广泛欢迎。但是,由于卷帙颇巨,该书仅有时序查阅一条检索途径,使得阅读十分不便。此外,更关紧要的是,受当时出版经费、人力等条件所限,在出版前未能对馆藏上谕档进行必要的文本分析。特别是未对馆藏相同年月的不同文本的上谕档档册进行相互比对和划分,仅按保证时间排序尽可能完整的编辑思路,采取了在相同年月的不同文本中选取品像相对完好的文本的编辑选材方案。因此,不仅遗漏了不同文本中一定数量的不相同的内容,而且,占“上谕档”近34%的文本被视作无用的重复部分而未能入选,在应用时缺失了从文本方面判定其史料价值的参考依据,难以了解和把握“上谕档”的全貌。并且,因为没有标注原档的档号,使得读者核对原文出处较为困难。
3.当前社会需求。
随着古籍数字化技术的日臻成熟,弥补因以往客观出版条件所限而造成的缺憾成为可能。社会利用者对档案史料出版物,特别是大型档案史料出版物的内容查询功能和辅助阅读功能有了更高要求,希望能以不断完善的最新技术手段和方法,实现更加方便、快捷的查阅功能;从学术研究的严谨性出发,学者对档案文献的文本的了解有了更觉必须的要求;同时,从档案科学管理的理念出发,档案馆对档案数字化必须兼顾促进档案实体管理水平,也有了更深刻的认识和切实的要求。







