澎湃Logo
下载客户端

登录

  • +1

台大资讯工程学教授:新技术能为历史研究提供什么帮助

澎湃新闻记者 于淑娟
2015-06-16 18:53
来源:澎湃新闻
私家历史 >
字号

        数字时代,资讯科技能够为传统历史学研究带来怎样的变化?就目前历史学界的研究体验来说,一是研究者可以利用新技术带来的数字资源,突破原有时间、空间的界限,能够实现短时间内占有更多的研究资料,二则是新技术带给传统历史学研究的新方法、新思路。但另一方面,也有不少史学研究者对新技术提供的服务表示不满和遗憾。

        作为历史研究的主体,以往谈及数字时代的史学研究,多是由历史研究者发声。那么,作为数字资源服务的提供方,简单地说,就是历史文献数据库、检索系统的建设者来说,他们如何理解这个问题?又如何思考数字时代的历史学研究?

        5月29日,上海交通大学人文学院邀请台湾大学数位人文研究中心主任项洁教授做客历史系,介绍台湾大学自1996年以来在史料数字化上的工作,并以台湾历史数位图书馆(Taiwan History Digital Library--THDL)为例,从史料收集与数位化、数位典藏库建置方法、人文研究如何应用数位数据库等议题交流看法和心得。会后,澎湃新闻(www.thepaper.cn)采访了项教授。

        
台湾大学数位人文研究中心主任项洁

        项洁是台湾大学资讯工程学系的特聘教授,同时也是台湾大学数位人文研究中心的主任,曾任台湾大学图书馆馆长。近几年来,他一直致力于数字人文的研究,尤其是历史文献数据库的开发。他主持开发的台湾历史数位图书馆、云南民间古文书的数据库等,在学界都有一定的影响力。据他介绍,台大从1996年开始进行历史文献的数字化工作,2002年台湾开始普遍展开数位典藏的工作,2007年,已积累了十年工作经验的台大成立了数位典藏研究中心,后来改名数位人文研究中心。从“数位典藏”到“数位人文”,名称改换背后,其实是一个理念的变化。

        “我个人觉得数字典藏是被动的,数据放在那里等待被使用。数字人文是主动的,试图与研究者的需求产生关系。”所谓“被动”,就是说数据库中存储的千千万万条文献数据,对使用者来说,它们只是等待被检索的对象。除了检索之外,使用者似乎对于整个系统也没有更多面向的使用。而“数位人文”,用项教授自己所下定义来说,就是透过资讯科技用数字资源进行人文研究。浅白一点说,他开发、建设的系统并不是仅仅实现资料的检索,而是要为研究者提供一个“能观察”的环境,在这个系统中,能够呈现资料之间的脉络关系,以此弥补史料本身存在的不足,以及数字化之后,信息所呈现出的庞杂纷乱。

        多年从事历史文献数据库的开发和建设,项教授对于接触过的资料也产生过一些研究想法,不过他对自己的定位很明确,“我现在做的不是学术,是学术服务业”。

        
        澎湃新闻:您的专业是资讯工程,当初是如何接触到数字人文研究的?

        项洁:历史学和人类学是我从小的喜好,在台湾我也花了十余年做了大量的数字史料方面的工作。对我来说,思考如何透过信息科技来使用这些数字资源从事历史研究,这似乎是很自然的一件事。

        澎湃新闻:曾与一位历史研究者谈及电子资源的使用,他说,我们使用电子资源时,所感受的不足或者“麻烦”,其原因不在于技术本身,而在于技术开发者和资源使用者之间的沟通,使用的人不懂技术,管技术开发的人又不知道使用者需要什么,而一旦他们认识到这个问题,技术完全能做得更好。您怎么看这个问题?

        项洁:我的学生大多是学资讯的,每年我要花很多时间跟他们讲,我们的工作不是要帮历史学家做研究,给他们找答案。历史研究是一门诠释的学问,这不像计算机科学,你提出一个问题,它给你一个答案。我认为,我的工作是要给历史学家一个能观察的环境。

        起初,我们做数字化的工作,一些历史学家除了检索之外,似乎对系统没有更多面向的使用,我想这不是他们的错,是我们的错,我们没有提供一个研究者愿意使用,有兴趣使用的系统。

        
台湾大学数位人文研究中心已建立的重要数位典藏资源(例),其中包括诠释数据(metadata)、扫描影像(image)以及全文。

        澎湃新闻:您认为,历史学家需要怎样的数字系统?

        项洁:一个好用的系统。以THDL为例,我们的目的一方面是要提供既深且广的第一手台湾史料,比如,我们“明清台湾行政档案”部分包括了80%的20世纪以前的中文官方档案;“古契书”的史料囊括了从1666年到日治初期,涵盖清代全台湾的资料,具有相当的代表性。另一个方面,我们也在思考这个系统能不能把台湾史研究借由数位资料和资讯科技带到一个不一样的层次。

        传统检索系统是这样的,它以precision(求准率)和recall(求全率)作为系统使用指标,其背后的预设是文件之间没有关联。我们在网页上使用的搜索引擎、图书馆的自动化系统和大部分digital libraries(数字图书馆)都是这样的。所谓“求准率”,就是说,检索结果是不是你要的内容;所谓“求全率”,就是说,是不是能显示所有相关内容。这两个指标是很难在一个系统兼而有之,一般求准率高的系统,求全率就低,百度、谷歌就是这样,其文件和文件之间没有关联,反而是在“打仗”,谁赢了,谁就显示在前面。

        文件与文件之间是什么关系?对不同的史料来说,是不一样的。档案中的文件多数是彼此相关的,存在脉络;而对于一些散乱的民间文献,其脉络并不清晰,需要研究者去发现,把它联系起来。

        那么,我希望检索系统能够尽量提供文件的各种脉络以及观察脉络的环境。也就是说,你输入一个搜索词,检索成果可以是一个有意义的文件集,给使用者提供各种方法让他观察其中的脉络。

        澎湃新闻:您说,最初与人类学家一起做数字人文的工作,彼此曾产生过很多争论,能谈谈吗?历史学者和技术开发者处理历史信息的差异在哪儿?

        项洁:人文学者讲求精读,从少量的数据里看出丰富的内涵。数字人文则希望有能力在精读之前,先粗略地鸟瞰整个数据群,其前提是要有足够多的数据。

        一开始,我们的争论——当然还是学理上的争论,主要在于数据的数字化,尤其是诠释数据(metadata)的建立,要到什么地步才算合理。人文学者希望越详细越好,但太详细,数字化的量就势必不会足够大,那么,就达不到鸟瞰的效果。这里还有一个问题,就是资料数据的“标准化”,这关系到诠释数据(metadata)字段的设计,数字化的主要目的是使用,标准化会更方便使用。

        
以明清档案为例,THDL可以查看史料的时间发布图,由此即可知台湾历史上的重要事件。

        澎湃新闻:为了更好地实现“鸟瞰”资料的效果,THDL有哪些分析工具,可供其他数据库开发借鉴?

        项洁:我是希望在我建设的系统界面中,呈现多种与检索结果相关的资料,所以,你可以在我们的检索界面看到与检索结果相关的地理分布图、时间分布图,还有检索后分类,这是将检索结果依据年代、出处、作者、分类、地域五种面向分类,力图呈现出整体分布情况,这些信息就可以形成一个信息的集合,希望这个集合有利于使用者发现文献之间的脉络。

        
THDL的检索界面
        
THDL的“检索后分类”

        在“台湾总督府档案”数据库中有很多文书、契约资料,我们设有gis工具,提供“台湾堡图”、“地形图”、“卫星地图”、“古今对照”、“行政区域”五种底图,利用我们的检索工具,可以查看不同类型的契书在地理上的分布情况。

        
由系统检索不同类型的契书在地理上的分布情况

        另外,我们也可以通过数据库的设计发现隐藏于语意中的资料之间的脉络。THDL中有近40,000件地契文书,这些文书来自一百余种不同的出处,这些契约文书彼此有什么关系:哪些契约是关于同一块(或相邻)土地的文书?哪些契约是关于同一个大家族的?如果不借助资讯科技,要重建文件之间原有的脉络,得耗费极大的人力和时间。那么,我们的数据库如何实现这个脉络的联结呢?

        我们可以自动选取契书的标题、人名、四至、土地面积、售价、地号以及时间等信息特征,通过上述信息的比对,就可以找出彼此有关联的契书,而这个工作单靠人力去完成是很难的。我们把这些有关联的契约文书串联起来,可以形成一块土地在不同地主手中的转移图。目前我们在三万多件契约中,已经形成了2376个土地转移图,其中有一块地的流转由103件契约构成,可见这块土地背后是一个多么有趣的故事!

        
由检索系统确认的两张彼此关联的土地契约

        上图两个文件中涉及的人名、地名均不同,文件出处也不同,我们很容易忽略二者之间的关联。但是仔细看,就会发现两个文件涉及的土地“四至”相同,系统便认定这两份文件是来自同一块土地的两张契约,由此即可建立两个文件之间的联系。

        
根据系统对地契文书的分析,所形成的一张土地流转图

        这是一块苗栗永和山地区的土地交易情形,图中的主角是率先开垦土地的廖姓家族。这个图直接呈现出的资料之间的脉络是我们通过技术可以实现的,但是这个图在社会史、经济史和家族史上呈现的意义,是需要历史学家去研究的。

        这样的方法我们也应用于明清朝廷奏折的分析,你可以发现奏折、上谕之间的引用、包含的关系,借此研究者可以观察朝廷政务讨论中的脉络。

        澎湃新闻:从您的角度看,数字化对历史学研究的积极作用是什么?

        项洁:首先,陆续发现的历史文献越来越多,也出版了不少资料集,但是一个问题是,资料集出版后,如果再出现相关的资料怎么办?与出版业相比,数字平台的好处就是可以持续追加。这是一个动态的资料集合。对历史学研究来说,这当然是个便利条件。

        其次,就研究来说,我以为,文献之间的脉络是可以通过数据库来实现的,而“文本”与“人文”之间的脉络则是历史学家需要去研究的。大量的数位史料应该是可以拓展历史研究的想象空间。当然,在用数位资料的同时,也需要认识到资讯科技运用在人文研究上所存在的限制——数据库对相关资料的取样是否均衡,其数据统计的意义,历史研究者在利用数据库资料进行研究时,这些问题是需要研究者思考的。

        澎湃新闻:从技术层面来说,西方学界的史料数位化是怎样的?

        项洁:他们更强调资料的互操作性。因此在数据著录工具、检索协议、视觉呈现上有很多很好的工作和成果。相比之下,对于史料脉络的思考上反而没有那么清楚。

        

    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈