澎湃Logo
下载客户端

登录

  • +1

史家之眼︱“e-考据”时代来临了吗

澎湃新闻实习生 董牧杭
2015-06-10 18:23
来源:澎湃新闻
私家历史 >
字号

        近年来计算机技术飞速发展,并对史学研究产生了深刻影响。利用数据库可以快捷地检索信息,甚至轻易地将有关材料一网打尽,不少学者都认为一个“e-考据”的时代已经到来。但电子检索方法也有其局限性,更加不能“以检索代替读书”。

        围绕着计算机技术与史学研究的关系这一主题,私家历史选取了四篇相关论文,概述摘要,以飨读者。

        计算机技术在历史研究中的运用,首先体现在对原始史料的电子化上,研究者由之可以更加方便与快捷地获取与整合相关史料。马创新等的《中文古籍数字化的开发层次和发展趋势》和张治江的《日本古籍综合目录数据库及其特点》两篇文章,从古籍数字化的角度出发,谈了中日两国在这方面的技术与经验,有助于加深我们的理解。

        其次,随着计算机技术不断介入历史研究,有些学者认为产生了新的历史研究方法与路径,甚至史学本身也发生了革命性的改变,但有的学者对之则相当不以为然。周祥森的《空间转向:电子传媒技术与当代史学形态》和王子今的《“史识”与计算机“利器”》是两篇思路相近,观点却截然相反的文章,可以看作是与之相关的争鸣。

古籍数字化有很多层次,“元数据信息库”比书目索引更重要

《图书馆》2014年第2期
        马创新等:《中文古籍数字化的开发层次和发展趋势》,《图书馆》2014年第2期

        中文古籍数字化利用现代信息技术,对中文古籍进行加工处理,使其转化为电子数据形式保存和传播,是中文古籍再生性保护的重要手段。

        其开发层次又可以分为表层与深层,主要内容如下表所示:

       
开发层次表

        古籍善本的图像扫描录入虽然快捷,但不便检索。OCR识别则可以对扫描过的图片进行分割,识别每个字体的图像轮廓后与字符集对应,进而把图片中的古籍内容转化成字符序列。但现有所有的OCR识别技术都无法达到百分之百的辨识准确度,最后不可避免地需要一道人工校对工序,浪费大量时间与人力。

        而这是OCR识别技术的内在缺陷导致的。用于匹配扫描图像的常用字符集有GB2312、Big5、GBK等。但汉字中出现过巨量生僻字,尤其是其中的异体字,是无论如何扩大字符集规模都不可能把它们全部包括在内的,遑论准确对应、识别,所以研究字符集之外的文字识别方法是现在的前沿课题。

        所谓深层,则是指深入到古籍的“内容和意义”层面,研究古籍著录和描述的元数据标准和联系方法。

        元语言是一套描述文档结构与含义的语法标记,元数据即是描述元语言的信息。它对应的,不再是古籍中的某个字词,而是其基本内容特征。制定通用于古籍著录的元数据标准,就能够使用更抽象的检索词,更快速、准确地找到目标古籍。所以“元数据信息库”要比单纯的“书目索引库”应用价值大得多。

日本学者制作的古籍数据库先进在哪?

《图书馆学研究》,1992年第6期
        张治江:《日本古籍综合目录数据库及其特点》,《图书馆学研究》,1992年第6期

        中日两国的古典文献,不论在内容,还是在印刷技术、纸张、装帧形式上,都有很大的相似之处。但在文献的电子化上,日本比我们先行一步。

        日本从60年代初就开始对全国现存古籍进行整理编目,1963至1967年间,岩波书店刊行了九卷本《图书总目录》,1980年又对其进行了补编,并初步建立了古籍综合目录数据库。1990年2月,岩波书店刊行了其续编——《古籍综合目录》,标志着日本对本国现存古籍实行了全面的书目控制。它不仅仅是一部书本式目录,而且还是一个具有较高自动化程度的数据库,可以输出书本式、磁带式、磁盘式等各种形式的目录。

        《古籍综合目录》所收录的古籍涉及63个图书馆和文库,83个其它收藏古籍的机构(如博物院等), 共收古籍43000件,采集古籍书目约91000件,数据文件共分为四部分,研究者在检索某一部分的信息时,可以随时查看与之对应的其余部分的内容:

        一、书志文件,是关于被收入的古籍书志的著录数据;

        二、著作文件,记录与著作有关的一系列情报;

        三、著者文件,记录关于著者的一系列情报;

        四、收藏和数据源文件,记录被收录古籍的收藏者、收藏机构及有关的数据源等情报。

        该数据库结构非常合理,对日本国内现存古籍的版本流变、收藏历史等方面都记录详备,远超以往书志目录的水平。而且与普通图书相比,古籍最大特点就是书名、著者名等在流传中常常会出现各种变化,如《今昔物语集》别称《宇治大纳言物语》,即使在同一部书中,一书也常常出现多名。另一方面,同名异书者也很多,书同、著者不同者更多,这给古籍检索带来很大的困难。日本古籍整理专家们对这些大规模存在的异名现象进行了完备的整理归纳,为检索者提供了良好的检索途径。

        
20世纪最伟大的传播学学者——麦克卢汉(Marshall McLuhan)

技术变革引发了三次史学革命,计算机技术让历史研究产生空间转向

《史学月刊》2015年第1期
        周祥森:《空间转向:电子传媒技术与当代史学形态》,《史学月刊》2015年第1期

        人类对于历史的记忆,与对历史的书写,都和传播媒介技术及其工具的变革密切相关。迄今为止,人类传播媒介技术的发展经历过三次重大的革命,即文字的发明、造纸术特别是活字印刷术的发明以及电子技术的发明。

        文字的发明标志着人类文明史的真正开始,人类的感知体验模式由听觉触觉习惯的思维过渡到了视觉习惯的思维。这种思维最大的特征是线序性,历史编纂上的编年史记录法因之产生,适应吟诵需要的史诗被淘汰。唐代宋雕版、活字印刷术的发明,使过去难得一阅的古代文献,如今可以被重复性且均质性地大量生产。因此就像后来的西欧随着谷登堡印刷术的发明而出现了一个文艺复兴运动时代一样,中国唐宋时期也出现了一种复古主义思潮和复古主义运动。在史学上,具体表现为编年体史学复兴;史学开始社会化和民众化;历史认识更加个性化。

        但二十世纪下半页电子技术的发明与普及,使世界变成了即时性和同步性共鸣的多维世界。在麦克卢汉、布厄迪(Pierre Bourdieu)等20世纪最重要的思想家看来,空间并不是事物外在的容器,而是事物的关系与性质的总和,时间在很大程度上也随之“空间化”了。电子文明塑造的这种时空观念与印刷文明时代的时空观念非常不同。以往的人们普遍认为过去发生的事即是在时间中发生的事,历史书写者往往更加关注时间巨链上发生的先后变化,而不是空间性的并存差异或即时同步性的事物之间的关系。

        历史研究方面的空间转向表现得非常明显。以黄仁宇《万历十五年》(1587,A Year Of No Significance)一书为例,正如英文版书名暗示的,1587年是一个没有意义的时间点,它实质上起到了提供空间化的平面场所的作用。万历皇帝、首辅申时行、政治改革家张居正、清官海瑞、抗倭名将戚继光、异端思想家李贽在这一年前后的活动碎片被拼贴出了一幅历史镶嵌画,孔飞力的《叫魂》、日常生活史代表作《马丁•盖尔归来》等20世纪最重要的史学巨著对于时空关系的处理手法,皆与黄氏并无二致,这种特征被麦克卢汉称为“镶嵌画式的历史研究”。读者必须进入历史拼贴游戏之中形成与作者的共鸣,而在时间中的历史碎片本身则没有意义。

        如今的史学研究单元也基本由历史时段或历史过程转向历史地域,因此地方性历史或区域史的研究大有取代断代史研究的主流地位之势,这是史学研究空间化转向发生后的必然结果。

 “史识”和计算机,哪个更重要?

《史记》和《资治通鉴》的诞生都恰逢技术变革,但是否受到影响?

        王子今:《“史识”与计算机“利器”》,《史学月刊》2015年第1期

        当今计算机技术的进步和普及显著冲击着社会文化的各个层次,史学领域多数学人也普遍应用计算机技术检索史料、收集信息、整理思路、撰写论著。清醒的历史学研究者面对这一情形,自然会思考史学方式的革新与史学传统的继承这两者之间的合理关系。

        司马迁和司马光是中国古代史学史上两个最重要的、具有跨时代意义的大家,前者的著作是纪传体正史的滥觞,后者则开创了编年体通史的写史手法。巧合的是,司马迁撰写《史记》时,正值纸这种书写材料出现,司马光编纂《资治通鉴》时,活字印刷术也问世不久。但司马迁对于史学的重要推进,似乎与纸的发明毫无关联,至今也未曾听闻过印刷术的进步对于司马光的创造性工作提供了怎样的便利。

        作者由是在电子技术的重要性与其对史学的影响上,得出了与周祥森《空间转向》一文截然相反的结论。回顾史学进步的各个关键点,技术层面的进步似乎都并没有形成显著的推进力,主要因素还是在于先进思路的开拓和新出资料的公布。计算机技术被普遍认为是自文字、纸与印刷术之后,足以再次推动信息传播方式革命性变化的主要媒介。不可否认,计算机技术的应用也为我们的史学研究提供了便利,提高了效率,无疑是应当鼓励的。

        但学者取得史学的突出成就,往往需要灵性、思辨能力、创新追求,在一定意义上,也需要艺术素养与美学理念,也即刘知几一再强调的“史识”。“夫史才之难,其难甚矣”,“史识”,而不是计算机技术,或许才应该是“史才”修炼必然的追求和必备的条件。

    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈