下载客户端

上海社联年度推介论文｜机器人“办案”难以实现实质正义

马长山

2020-12-23 13:42

来源：澎湃新闻

【编者按】

12月18日，上海市社联在上海市社会科学界学术年会上颁布了2020年度十大推介论文奖。“年度推介论文”活动由上海市社联2013年组织发起并连续多年推出。该活动是对近一年（2020年度从2019年9月1日至2020年8月31日）以来，上海学者发表于国内学术期刊、引起学界高度关注的原创性研究成果作出推荐，旨在探索建立科学权威、公开透明的哲学社会科学成果评价体系，建立优秀成果推介制度，把优秀研究成果真正评出来、推广开。与目前大多数评奖活动不同，年度推介论文活动无需作者自行申报，主要依托各学科权威专家学者、学术期刊主编、资深学术编辑等开展多轮评审推荐，最终产生不超过10篇的推介论文。

澎湃新闻智库报告栏目摘编了上海市社联2020年度十大推介论文之一：司法人工智能的重塑效应及其限度，以飨读者。

人工智能技术融入司法是数字时代的必然趋势，其发展前景无需质疑，但“要想让算法更好地服务于人类，我们必须承认算法不是全能的”。智慧司法建设并不是一项司法革新的完美规划，它对司法机制及其运行的重塑效应也是有限的。

一、客观性上的悖论

从全球范围的实践来看，算法决策和司法大数据的客观性并不像人们想象的那样易得，其也存在被主观因素侵入的风险。

1、算法决策的复杂性

人工智能在商业交易、公共政策的制定、司法过程、交通出行等日常生活中深度应用的场景越来越多，它们不仅仅进行预测和推荐，很多时候也在作定性判断，如人脸识别、资格审查、屏蔽封号、自动执法等。“这些自动化系统已经由简单的行政管理工具变成了主要的 ‘决策者’”，形成了一种替代人脑决策的裁断权力，并在资源配置和行为控制上对相对人产生重要影响。就智能辅助办案系统而言，它所进行的证据标准和规则指引、逮捕条件审查、证据链和全案证据审查判断、社会危险性评估、言词证据审查、减刑假释案件办理、裁判偏离度提示、办案程序监督等等，也都是在行使算法裁断权力。这种算法决策，并非简单的计算公式和无意识的程序运行，而是从一开始就被“教导”了法律知识与逻辑，输入了主观的定性判断基准。尽管它需经司法裁判者最终确认，才能产生实际的司法效力，但仍不可否认其权力属性。

其次，算法权力也会受价值偏好影响。设计者“可以建造、构筑、编制网络空间，使之保护我们最基本的价值理念”，同样地，设计者“也可以建造、构筑、编制网络空间，使这些价值理念丧失殆尽”。代码是被制造而非发掘出来的。基于相同的数据信息、技术条件、求解方案，分别由两组各自封闭的程序员来设计算法，最后的输出结果很可能不一样。

例如，上海“206系统”工程庞大复杂，只能采取全国法院的“众筹”模式来完成证据知识图谱的绘制。这些法律适用规则的整理，其实就是对刑法知识的一次精加工，“编辑者的逻辑编排、要旨提炼、观点选择，体现了个人的价值取向、学术判断、政策立场”。这些知识图谱经由程序员的代码编写和算法建模，自然又会或多或少地渗入一些人为因素。尽管代码的执行是无偏差的，但“偏差”会被编码到系统中。

再次，算法背后隐藏着算法黑箱与“算法霸权”。“用户们无法看清其中的规则，无法提出不同意见，也不能参与决策过程，只能接受最终的结果。”这就形成了一个算法决策的闭合回路，除非自我更新和改善，否则它将持续运行，不受外界因素的干扰和影响。一旦算法决策出现偏见、不公乃至有意的“暗算”，就会诱发严重的社会危机。它不予公开、不接受质询、不提供解释、不进行救济，难免会有演化为“算法霸权” 的风险。于是，中国的智慧司法建设也应着力消除算法黑箱和算法霸权的隐患。

未来在程序设计环节实现立法者、专家学者、律师和社会人士的开放性参与，打造可公开、可解释、可救济的智能系统，对于防范算法黑箱和算法霸权之风险，大有必要。

2、司法大数据中的主观性因素

首先，数据采集的“全样本”是一种主观界定。算法和算力仰赖于“数据喂养”，数据量越大、越全、越真，算法决策就越客观精准，人工智能也才越“聪明”。司法是一项非常复杂的定分止争机制，涉及人财物、时间地点、主客观状态、行为方式、涉案工具等等，仅一个案件就会产生大量的司法数据。如果想就某一类型或某一类案由的案件进行算法建模，就需要采集海量的数据。若要做到“全样本”则难上加难，仅在什么时间、空间、范围上来界定这个“全样本”，就是一个很大的问题。

从上海 “206系统”（编注：由科大讯飞与上海市公检法机关共同研发的刑事案件智能辅助办案系统，2018年3月，206系统在上海全面推广应用。）的研发过程来看，命案被划分为现场目击型、现场留痕型、认罪供述得到印证型和拒不认罪型四大类，这四类命案“证据标准指引”的建模算法，主要是基于上海市2012年至2016年间审结的591起命案数据。71个常涉刑事案件罪名的 “证据标准指引”，则是基于近三年全国102个常涉罪名刑事案件的数据制定的。可以发现，这些数据样本都是三五年内的。同样，上海民事、行政案件智能辅助办案系统从467个民商事案由、61个行政案由中首选了六大类8个案由，虽然标注电子卷宗达5800余份，标注点数量达12 万个，但上海市2016年道路交通事故纠纷一个案由收案量就达51312件。

可见，研发智能辅助办案系统所凭借的，暂时还只能是有限时间段内、有限范围内的 “样本”。

其次，数据标注是一种主观选择。数据标注是司法知识图谱构建的重要基础，上海“206系统”的研发采取了人工标注和自动标注两种形式，人工的数据清洗和标注自不待言，机器的自动标注也需要经过程序设计人员的确认。同样，图像识别、手写体识别、插图签章、涂抹块检测、插入检测等准确率虽然可达92% —98%，但它仍需人工审查校正，这些无疑也都是主观选择的过程。

再次，司法数据的阐释理解是一种主观判断。标定数据对机器学习和建模算法的效果具有很大影响。由于中文语词具有多义性、模糊性和地方性，对于相同或者相似的文本知识和数据，不同的标注人员会形成不同的阐释理解，导致数据标注结果可能因人而异。虽然可以通过构建多层级数据标注体系来消除语义分歧和增进标注的可解释性，但仍有一定的主观作用空间。这也正是“投入多少人工，就有多少智能”的原因所在。

由上可见，在科学技术发展到一定程度或治理能力足以防范相关风险之前，算法决策的客观性与中立性都只能是有限的。更严重的是，算法决策往往以 “科学” 面目呈现，一旦算法决策变为一种被灌输的、给定的 “客观”，造成 “假为真时真亦假” 的反向替代，司法也就异化成为它的反面了。这是二者最深层的区别，也是我们必须警醒的地方。

二、正义判断上的困境

司法人工智能让人们看到了 “可视正义” 和 “数字正义” 的希望，但进一步分析就会发现，“可视正义” 也好，“数字正义” 也罢，虽然近在咫尺，但也不会来得那么容易。

其一，难以对正义进行建模计算。

首先，正义价值是普遍的，却没有统一标准。对待正义问题，只能通过谋求最大公约数和重叠共识方式来获得认同。我们很难针对正义进行共识性的要素抽取和建立通用的知识图谱，“其价值难以用数字体现”，也就很难进行建模计算。

其次，正义没有价值位阶，裁判需要权宜平衡。因此，比例原则、法益衡量等一直在司法裁判中占据重要位置。力图解决一切、无所不能的“终极算法”还不存在。司法裁判中法官的权宜平衡一时还难以用算法来替代。

再次，实现正义依靠的是实质判断，而不是体现相关性的概率计算。美国曾研究测试，人工智能在584个案件中有79%的案件审理结果与欧洲人权法院的审判专家组判决结果相同。英国 “机器律师”与伦敦100名律师在保险合同案件的法律判断比赛中，“机器律师” 以86.6%的准确率领先于律师的66.3%。

这些事例似乎表明，算法决策比人脑决策更优越。但实际情况是，“计算机并不是 ‘思考’，而是依据逻辑算法处理数据”。它主要是基于数据进行相关性分析，对于复杂的疑难案件来说，仅有数量、概率和相关性逻辑还远远不够，正义的司法裁判需要通过综合考量各种因素的实质性判断来实现。

其二，难以穷尽 “正义” 的样本。拥有了司法正义的 “全样本”，才可能实现精准的算法正义。理论上讲，这个司法知识图谱应该是法律法规、司法文件、法院判例、证据规则和案件事实的动态集合，其数据采集是可以做到的。但实际上，大量的司法活动难以被完全数据化，且各机关或机构的数据处理标准常常不一致，数据交换也有障碍。

其三，正义难以零和博弈。从根本上说，“算法就是把输入转换成输出的计算步骤的一个序列”。算法的开发设计者需要把知识系统转化为数字系统，把法律逻辑转化为数理逻辑，进而把复杂的司法活动简化为一种“无须满足任何更多条件即可生成‘是’与‘否’的二元选项” 的代码执行和机器运算。这固然提高了司法效率和裁判一致性，但不容否认的是，“法律世界包罗万象、复杂混沌，常常没有明确的对错之分”，尤其是司法正义，更不可能简化为一个是与否的零和博弈。

其四，正义难以忽略人性。从古到今，司法活动都不是一个冰冷的、机械的规则适用过程，而是带有鲜明的人文关怀。司法人工智能不会计算情感，不能与人进行心灵互动，自然也不可能有人文关怀，难以根据具体场景灵活地、创造性地维护正义价值。而越来越多的机器执法和裁断，越来越少的人际互动和交流，有把公民变成 “驯服的身体”的危险。

可见，司法人工智能只能带来有条件的 “可视正义” 和 “数字正义”，即使法律人工智能已广泛投入运用，在追求司法正义的过程中，法律人的“情怀” 和“匠心” 仍然无法被复制和替代。

三、政治因素的遮蔽

现代法治的核心特征之一是司法中立，然而，司法毕竟是一种制度体系中的构架，它不可能做到隔绝政治。例如，美国联邦最高法院可以通过重新定义某些规则条款和标准，“来满足大法官不断变化的政策偏好，从而在集权与分权、保守与自由之间做出最有利于大法官的选择”，但 “布什诉戈尔案” 之类的司法裁决仍不是一种单纯的司法行为，而是带有明显的政治考量。基于中国的制度属性和历史传统，政治性因素对司法的影响也比较明显。比如，“民愤极大” 就曾是一种从政治上、道义上来考虑的从重处罚情节, “领导批示” 也会对案件的定性和裁判具有重要 “指导”作用。这些影响因素很难进入算法决策的考量范围。

四、精准性上的障碍

人工智能之所以被广泛应用于生活领域，原因之一就是它具备远超人脑的精准计算和超强预测能力。但在实际运行中，算法决策未必能完全做到精准，甚至还有一些风险需要加以防范。一是算法错误。人工智能虽然都有 “先发制人” 和 “完美预防” 的预设，但无缺点的自动化系统并不存在，需要容忍不可避免的系统错误和故障。

二是算法自主。随着人工神经网络技术的发展，人工智能在分析、预测和判断上的某些能力已经超过了人类。有时还会出现算法超出设计预期的运算方式和输出结果，令设计者难以理解的情况，即算法自主或者算法异化现象。

三是算法不能。其实从图灵开始，人们就已经意识到，虽然在很多情况下算法执行的任务是人类无法完成的，但算法并不能解决所有问题，如不少刑事案件中犯罪者的动机和目的。

四是算法差异。在人工智能的实际应用中，相同的任务或应用可以采用不同的算法来完成，但这些不同算法的正确性、容错性和效率性存在优劣之别。从审级上说，从基层人民法院到最高人民法院，究竟是使用一套算法还是四套算法？如果使用一套算法，就会导致四个审级的智能裁判结果完全一致，不同审级之间的监督功能就会丧失; 如果使用四套算法，那又如何保证它们的计算品质相同? 从地域上说，全国如果使用一套算法，要如何解决经济、社会和文化上的地域差异问题? 如果使用多套算法，如何保证全国的司法统一性? 可见，尽管算法决策是基于客观的数据分析和理性计算作出的，但面对重大疑难案件和大国的司法运行，有很多复杂因素难以用建模算法来回应。

算法只能延续和提炼人类知识，但很难开拓和创造人类知识。算法决策能够通过程序性、公式化计算来优化诉讼程序和处理简单案件，却难以处理重大的复杂疑难案件; 它能够促进形式正义，却很难实现实质正义。算法有可能胜任法庭上的多项工作，但无法胜任判决工作，包括证据标准指引、条件审查、校验纠错、裁判偏离度提示等，都只能是人脑决策的辅助工具。关键之时还需要人来做决定，由人来担任最终决策者。

也许，随着人工智能技术的突破升级，算法决策替代人脑决策的空间会更大、质量也更高，但它依然是司法助手、工作伙伴，而不是独立裁判的 “法官”。即便是 “强人工智能”时代的 “奇点”到来，人类也会重新规划自身主体地位的发展蓝图。

（作者马长山系华东政法大学教授、博士生导师，本文首发于《法学研究》2020年第4期）

责任编辑：田春玲

校对：丁晓

澎湃新闻报料：021-962866

澎湃新闻，未经授权不得转载

我要举报

#上海社联年度论文 #机器人