澎湃Logo
下载客户端

登录

  • +1

产业与治理|大科学装置科学数据管理存在的问题及模式探索

蔚海燕  许鑫
2023-06-14 13:42
来源:澎湃新闻
全球智库 >
字号

在上一期的专栏中,我们讨论了《国际科创中心需要重视科学数据管理》,本文,想再深入一步,谈谈大科学装置科学数据管理问题。

随着科学技术快速发展,国际科学研究进入大科学时代,中国也布局和建设了越来越多的大科学装置,发起和参与了越来越多的大科学计划。大科学装置涉及研究数据是科研大数据的重要组成部分,为有力保障大数据战略的有效实施,进行良好的科学数据管理必不可少。但目前国内多数大科学装置尚未形成完整的数据管理政策,缺乏明确的数据管理计划,大科学装置科学数据管理的实施和推进仍需进一步探索。

上海光源工程(一、二期)鸟瞰 胡蔚成 摄

聚焦到上海,2023年1月上海市科委发布了《2022上海科技进步报告》。报告显示,2022年上海推进张江大科学装置建设:上海光源二期基本建成,软X射线自由电子激光装置预计今年投入运行,国家蛋白质科学研究设施、上海超级计算中心等一批已建成大科学设施服务效能不断提升。科学数据作为科学研究中最重要的要素之一,理应受到更多关注,为此,我们科学数据管理课题组进行了系统研究整理,在比较分析国内外大科学装置科学数据管理的流程、政策、内容等基础上,构建了大科学装置科学数据管理的模式,结合实际给出实现思路和具体措施。

一、 国内大科学装置科学数据管理的主要问题

1、数据的保存与获取存在困难,运维成本偏高影响共享开放

一方面,目前部分科研人员获取需要的数据存在困难。许多有用的原始数据在首次实验后便被遗弃,未得到合理有效的保存。加之新型设备带来的数据量的指数级增长,导致本地存储设备成本大幅增加,大大增加了数据保存管理的开销。若采用云端设备对数据进行存储和处理较为昂贵,而连接到 HPC(国家研究计算基础设施)又无法满足海量存储、高速读写、快速网络访问的需求,因此需要构建特定的数据管理系统。另一方面,由于中国的大科学装置大多由科技部投资建设管理,科研项目人员的成本意识较为薄弱,而在大科学装置针对具体项目的管理中也未对成本问题进行详细规划,科学数据管理带来的费用更加难以考量。此外,大科学装置科学数据共享程度不够高。缺乏对科学数据共享从业人员的激励机制,中国在科学数据领域存在“数据割据”现象,数据有效开放、大力开放还存在不小困难。

2、大科学装置科学数据管理中知识产权问题尚未很好解决

一方面,中国科学数据共享、交换所面临的巨大障碍是数据缺乏有效的知识产权保护。数据共享可能会对数据所有者产生不利影响,一定程度上导致了数据共享机制建设困难。另一方面,大科学装置数据的知识产权非常复杂。国际上的大科学装置一般有多个资助者,不同资助者对数据管理的要求不同。单个资助者往往无法规定管理的政策、方法,因此其管理往往基于各资助者的共识。这导致大多数大科学装置的数据管理政策对于数据的储存、处理、引用等更细致,而对于开放共享政策则比较宏观,因而缺乏细节的描述与普适、具体的要求。

3、大科学装置科学数据管理相关研究滞后,专业人才也不足

国内现有针对大科学装置科学数据管理方面的研究处于起步阶段,尚未引入数据管理相关的理论,在数据保存与重用、数据开放共享、数据管理的成本和规范数据管理等层面仍存在诸多问题。这些问题影响着大科学数据资源的利用与共享,也进而限制了科研水平的进一步提升。同时,大科学研究的数据体量大、处理难度大,因此过去“小科学”研究中由研究者个人保管、处理、分析数据的模式不适用于大科学装置的数据管理。大科学装置的数据管理应当由具有数据管理经验与技术的专业人员进行,研究者不应当把精力耗费在处理、存储此类数据上。国内对大科学装置科学数据管理领域的研究较少,相关人才也较为匮乏。为此,需要培养一批具有海量数据管理能力的高水平数据人才。

二、国外大科学装置科学数据管理的相关启示

1、明确大科学装置科学数据管理建设的核心流程

大科学装置科学数据管理的核心流程应至少包括三个基本环节:数据管理计划、数据保存、数据开放与共享。一是制定数据管理计划。美国的国家科学基金会(NSF)、国家航空航天局(NASA)、英国生物技术与生物科学研究理事会(BBSRC)、英国研究理事会(RCUK)都要求科研人员提交数据管理计划。数据管理计划是科学数据管理的起始,研究前规划数据管理无论是对提高数据的可用性、确保数据保存和可访问性,还是对大科学装置项目研究都具有重要影响。美国的大科学装置工程管理学科特别强调数据产生(实践)的过程,要求制定数据管理计划当中还要有访问开发软件和代码及托管的具体细节,以及再现数据的方法。通过有效的计划,对短期数据存储与安全、数据长期保存与共享、伦理道德和版权事项、数据管理成本规划等进行合理的安排,并在项目生命周期中不断被审视和更新,以期达到预想的结果。二是制定大科学装置科学数据保存规范。美国国家科学基金会(NSF)的大科学装置在对科学数据管理时有严格规范。例如,部分规定项目必须提交DMP(数据管理计划),部分装置按照不同的数据类型DMP做出了不同的要求,还有的装置对软件及副本存储的硬件介质都有明确的版本和型号说明。部分数据或样品通过唯一标识符,如IGSN(地理科学提供的样本唯一编号)、DOI、URL等进行引用追踪和识别。对元数据或其他利于数据重用的相关信息进行保存,对相关信息数据字段、属性、参数、访问方法等进行规范化,产生统一的数据字典,便于后续使用。三是大科学装置科学数据开放共享。按照分等级(不同级别类别数据的开放共享条件不同)、可发现(符合国家标准、具有唯一且长期不变的标识符,有规范的元数据描述)、可访问(公开提供稳定且易获取的访问地址和方式)、可重用(明确使用条件和要求,具有对数据生成及处理过程、数据质量等的详细描述信息)的四个原则,适时向不同科研用户开放共享,面向整个社会共享数据。

2、确保大科学装置科学数据管理有相关政策支撑

国家层面上,需要推进立法或出台相关政策等措施的实施。可借鉴美国劳伦斯伯克利国家实验室创建的“创新基金资助计划”和“桥基金计划”,设立专项基金支持奖励从事成果转化的相关人才。保障科研机构和高校有对大科学装置产出科学数据的优先使用权,加强对科学数据管理人才培育的扶持力度,加大对大科学装置的投资总额,建立健全科学数据的管理体系,推进国家科学数据中心建设和发展。此外,可从地区、学科两个维度推进构建大科学装置数据联盟。通过学科专家知识与领域建模,促进大科学装置数据在学科、地区领域的交叉,以解决跨学科或区域发展的重大问题。机构层面上,需要对大科学装置产出科学数据的管理流程进行规定和说明。装置层面上,可以法律条文的形式,清晰界定通过大科学装置得到的数据和相关成果的主权。对保障科研团队人员的正当数据主权要求和数据需求、提升科研人员积极性、促进科技发生有积极作用。

3、给予各方面利益相关者最大权益并保障其合理诉求

政府资助机构作为资金的主要提供方,其利益切入点在于对投入产出的转换效率与产出成果质量,通过绩效考核等方式形成对科学活动各个生命周期内的约束。通过谅解备忘录,妥善处理大科学装置多个资助者之间的分歧和争议。Nature出版集团下数据期刊Scientific Data在2016年便扩充了文章类型, 除了传统数据论文以外,增加Analysis与Article两个类型。Analysis 是对已有数据的数据、元数据的重新分析,得到新的结论;Article 是可重复研究的系统和技术所进行的初始研究,包括如何共享、管理、处理科学数据,同时欢迎数据存储库、标准、本体等研究内容。由此可看出,出版商兴趣不仅在出版数据论文方面,其也关注科学数据重用得出的结论以及科学数据的管理、共享方式。故需要给予出版商以及相关作者版权的认可,保证实现论文与引用的科学数据的关联关系。大科学装置产生的数据具有高度复杂性,一般主要研究者不能直接操作设备进行原始数据处理。而主要研究者是理解数据端价值的一方,故需加强配套设施的支持,协助主要研究者更快捷地对实验数据进行加工增值。

三、大科学装置科学数据管理的对策建议

1、设立大科学装置数据管理经费专项

国家需要保证长期、稳定、足额的经费投入到大科学装置的数据管理中。为数据长期保存、重用提供保障,让大科学装置的数据管理能力与大科学装置的建设速度相匹配。尝试探索多元化经费支持方式,调动社会力量建立数据库建设基金,鼓励更多科研单位、科研工作者开展数据库建设并向权威数据库集成。依靠多方面筹集的经费支持,建立大科学装置的数据存储平台。运用前沿的数据存储方法,提升存储、处理、发现大科学装置数据的能力。为科研人员提供适用于大科学装置数据处理、分析的软件平台,最大程度上发挥大科学装置数据价值。

2、加大大科学装置数据开放共享力度

加大大科学装置数据开放共享力度,使研究人员能通过统一的门户网站轻松访问、分析数据。按照分等级、可发现、可访问、可重用的原则适时向院内外用户提供数据的开放共享,建立合理适用的科学数据管理及共享体系。用户使用科学数据时可在确保用户权益的基础上,通过协议的方式开展科学数据的收集和保存等工作,使数据共享程度进一步加大。

3、重视培养适应大科学的数据管理人才

建立完整的数据管理人才培养体系,在制定数据管理政策时同步做好数据人才队伍的规划建设,快速提升新建大科学装置人才队伍的数据管理水平。引进国内外有经验的大科学装置数据管理人才,建立大科学装置数据管理人才的管理制度、评价制度和激励制度,完善人才培养机制。建立大科学装置的数据中心,将数据管理实践与人才培养深度结合。激励科研人员,尤其是大数据人才进行技术成果转化,从而使大科学装置科研工作者从数据管理解放出来,进一步专注于科研工作。

4、切实保障各方的知识产权等有关利益

一是建立大科学装置数据保护期。毫无原则的数据开放将损害项目研究者的利益,损害大科学装置数据开放积极性。建立2-3年的数据保护期,能让科学家拥有数据使用的优先权,能在第一时间利用数据开展科学研究。对急需使用实验数据的外部用户,可以与数据拥有者签订合作共享协议,让用户在保护期内也能及时利用数据进行科学研究。二是对数据出版作严格规定,保证数据的重用、 引用规范。实行数据标识与引用标注制度以增强知识产权保护、建立论文与大科学装置数据的引用关联。通过上述方法,以期解决数据多重链接和知识产权问题。 

(作者蔚海燕系华东师范大学经济与管理学部副教授;许鑫系华东师范大学经济与管理学部教授、博士生导师,上海高校智库主任。许鑫教授持续关注新技术、新产业、新业态、新模式等新型经济形态,关心新兴技术治理,本专栏以“产业与治理”为主题,探讨科技创新在经济社会发展中的前瞻性问题。)

    责任编辑:田春玲
    图片编辑:蒋立冬
    校对:刘威
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈