- +1
AI|“智变”法院与“未来科技骑士团”联手掀起一场智能风暴
2019年,法院庭审已迈入AI时代,语音识别将逐渐取代人工速录,成为庭审过程中的一道智能“景观”。
在三年时间里,北京市第三中级人民法院的庭审语音识别系统经过不停打磨,在正确率和实用度方面成为法院系统引领庭审语音变革的领军者。
这场智能风暴,由北京市第三中级人民法院与国内两家优秀研发公司——北京博雅智学软件股份有限公司和北京中瑞智科技有限公司联手掀起。
为了给法庭庭审插上隐形的语音翅膀,研发人员深入审判一线,以“小步快跑,迅速迭代”之势,攻克了技术上一道又一道无解难题。其中,北京市第三中级人民法院创建的“1+1+N”工作模式打破了技术与法律的沟通壁垒,使具有20余项核心功能的庭审语音识别系统完美落地。
在旁人看来,这场语音识别风暴足以让人惊诧于庭审的智能。殊不知,它背后积累的数据正在推动法院规范化管理。
AI时代总是给我们带来惊喜,而庭审语音识别系统只是北京市第三中级人民法院众多研发项目中的很小一部分。
流年笑掷,未来可期。



2019年6月12日,一起涉及共享汽车的道路交通案在北京市第三中级人民法院(以下简称三中院)公开审理。与以往传统法院庭审不同的是,在这个法庭,当事人的语音会瞬时转换成文字出现在原、被告位置上方的液晶屏幕上。令人惊奇的是,随着文字不断涌出,前边的文字还会自我修正。

其实,这并不是三中院第一场语音庭审。两年多来,三中院庭审语音识别系统共服务庭审12352场,累积使用13807小时,系统识别率达到97%。不仅如此,每份庭审笔录的平均修改时长从36.6分钟缩减至7.8分钟,书记员在庭后10分钟内即可形成完整笔录。
2016年,在司法改革背景下,三中院按照最高人民法院庭审活动录音录像《若干规定》和北京法院语音转文字应用技术《实施方案》的部署,开始探索应用庭审语音识别系统。经过考察调研和摸索适用,在两年多的时间里,三中院经过500多场次系统测试和语音识别训练、100多次优化升级磨合,形成了具有20余项核心功能的庭审语音识别系统。
玉汝于成。如今,三中院庭审语音识别系统已助力12352场庭审。而这些助力,并非一朝一夕之功,背后是数不清的代码迭代更新,也是法院与研发团队在不停歇打磨中形成的良苦用心之作。
“1+1+N”模式
三中院技术室负责人徐剑是庭审语音识别系统院方负责人。用博雅项目经理张瑞的话说,徐剑既懂技术又懂业务,是整个项目的核心人物。
徐剑毕业于国防科技大学,本科与研究生学的是计算机科学与技术。此外,她还自学通过了司法考试。作为复合型人才,“我什么都懂点儿,可能写代码不如研发技术人员,但我知道什么是好代码,什么是差的(代码),他们(研发人员)蒙不着我”。徐剑幽默感十足,有巾帼不让须眉之范儿。

作为技术室的负责人,为了让庭审语音识别系统在三中院顺利落地,徐剑曾随院领导到南方考察调研,“南方用的是科大讯飞,杭州用的是阿里巴巴,三中院底层用的也是阿里巴巴的引擎。将语音转换成文字,这是一种底层的分析技术,由阿里巴巴提供。上层关于算法的各种优化,则是各院的各自探索——怎样转换最好、怎样正确率更高、语音模型怎么与法院业务契合、语义如何贴近庭审的现实等。而这个工作,三中院交给了研发团队” 。
对于研发项目的工作模式,徐剑把它概括成“1+1+N”——业务庭+技术科+N家公司。
“在‘1+1+N’的工作模式下,N必须尽一切可能满足1提出的要求。”徐剑谈到在研发过程中遇到的瓶颈问题,“在研发实践中,经常会出现‘法官说的话研发人员听不懂,研发人员说的话法官以及书记员听不懂’的情况。因为我是学技术的,又懂法律,他们说的话我都能听得懂,我负责将两方的话转化成他们各自听得懂的语言去解决问题。”
三中院在这种工作模式运转下研发的软件水平获得北京市高级人民法院的认可。如今,不仅三中院的语音识别系统在北京市用得最好,而且其开发的送达系统在全国各地开花。“这种模式开发出来的软件贴近法院的日常工作。其实说白了,就是我们院长经常说的‘干警们觉得好用、爱用、喜欢用’。”徐剑说。
庭审语音识别系统的研发过程并非一帆风顺。研发之初,三中院将速裁庭民三庭作为试点庭室,这个庭室的十几位入额法官审理了全院近一半的民事案件。
为了让庭审语音识别系统助力审判庭室、减轻人员压力,徐剑让研发人员跟着审判庭室学习,旁听庭审体验开庭流程,认真观察法官在法庭上的问话。
经过前期的体验和学习,研发团队提交了第一版庭审语音识别系统,但这一版并不尽如人意。徐剑用“手忙脚乱”形容最初上线的系统,以致书记员只把它作为摆设,“系统记系统的,书记员照常记录”。
经过查找问题,徐剑发现研发方向需要做进一步调整,这就需要结合庭审工作实际做定制开发。为此,她让审判一线的书记员与研发公司定期一起探讨设计方案。就这样,三中院开发出升级迭代的庭审语音识别系统,并将系统投放到民三庭的四个法庭试用。
从系统应用到实际,问题不断迸发,熟悉研发公司工作流程的徐剑要求研发公司“小步快跑,迅速迭代”—— 一周内出现的问题,周末修改,下周一上线上新。
不仅如此,为了使研发公司的研发工程师熟悉业务,徐剑还让研发工程师深入到审判一线,亲身体验书记员的工作,与书记员互通有无,并与书记员建立良好的私人关系,亲身了解庭审业务需求。
与此同时,书记员也开始组织智能语音系统培训。书记员刘畅作为培训老师,将书记员交流中出现的问题及时沟通协调,在一定程度上加速了系统的完善。
“我们是搞技术的,出现实际问题我们解决不了,就会找书记员给我们每周开会,我们每周也会到庭审现场去查找问题根源。徐剑老师让研发人员坐在书记员身边去切实了解业务需求,这让研发人员更容易发现问题以及解决问题。”张瑞说。他佩服徐剑的雷厉风行。
攻克串音难题
起初,由于三中院实际庭审现场的环境比较复杂,每个法庭大小设计不同,功放和墙壁反射会产生很多噪音和声音反射问题,语音识别系统在实际使用过程中会出现大量的串音现象,导致语音识别率低。
为了提升语音的识别率、正确率,中瑞智高级工程师董立说他们从硬件到软件可没少下功夫。他介绍说,在实验室环境下,研发人员不会遇到串音的问题。但在实际使用过程中,尤其是当事人双方在法庭辩论相互争执的过程,收音会非常乱。
徐剑清晰地记得一场庭审的场景——当两个当事人同时说话的时候,语音识别系统的屏幕会交替出现两人的话,这种交替的记录方式不符合笔录特点。正确笔录的表述方式是将当事人后续的话往前移,但在技术层面实现不了这种构想。技术人员的思维困在原地,找不到出口。
为此,徐剑找来了法官和法官助理询问他们这种交错交替的话是否有必要接上来。而这些交替的话在实质上体现为争执,一般书记员不记录在内。得到这样的答案,技术人员如获至宝。
看似简单的串音问题却困扰研发团队长达一年的时间。“他们(研发人员)都快哭了,算法上他们没法解决,争吵是非常主观的,没有客观标准去界定它。所以,从技术层面上实现记录是很难的。但是,判断当事人是不是在争吵就比较容易了,在争吵的情况下法官是有反应的,他不会让两个当事人同时吵。而且在平常,书记员记笔录的时候这一段他不会记录,因为书记员没办法两只耳朵一边听一方的,还同时记下来。”张瑞解释道。
接下来,如何界定当事人争吵的间隔成为新的问题。“工程师的逻辑思维是1+1=2,实际应用到庭审只需要1+1≈2就可以了,我们要求的是最满意的效果。” 徐剑说。
为此,研发人员通过不计其数、反反复复的测试,在庭审经验归纳总结中发现,双方麦克风识别到同一时间均有声音发出且间隔不超过一秒,语音识别系统会判断出这段话是无效笔录进行过滤。小于这个间隔,无效笔录较多;大于这个间隔,会漏掉需要记录的信息。
测试是通向成功的一条路径,麦克风的选择也印证了这一点。麦克风话筒是根据语音能量的大小采集离话筒近的收音。在三中院很多小型法庭,因为麦克风摆放位置距离较近会影响语音识别,从而引发串音。中瑞智对引擎做优化之后,变换出更多的标准,麦克风可以自动学习,适应声音的变化。当然,为了给三中院“量体裁衣”,他们实验了近20种麦克风。
揭开数据秘密
庭审语音识别系统促进了也推进了三中院深化人员分类管理进程,集中体现为书记员分类,即驻庭书记员专职负责庭审记录,归档书记员专职负责庭内归档,会议书记员专职记会。
对于语音系统为人员分类管理带来最直观的一个感受,书记员刘畅谈到:“大家表示自己的工作越来越专业,现在法官开庭不用找书记员,我们到点就去法庭记庭,语音庭审可以让我们在不了解案件的情况下,依然可以把笔录准确呈现。此外,使用语音庭审系统记录庭审,文字和录音是一一对应的。当事人核对笔录时,我们经常会听到‘这段话我没说过’等类似的话语。以前,如果要证实当事人的话,只能通过庭审录像查找,耗时费力。如今,只需在系统中调出这句话对应的录音便可以让当事人心悦诚服,快速便捷。”
抽离于庭审语音识别系统本身,系统背后的数据不容小觑,它不仅让庭审更加高效便捷,而且智能语音庭审还透射出法院的方方面面,可谓刷新了法院格局。
对此,徐剑揭秘道:“最初,我们做庭审语音识别系统的目的是为了提高庭审效率以及提升我们法庭的流转速度,因为三中院的法庭真的是太少了。后来,我们发现系统背后的数据对庭审资源的分配和管理可以起到调配的作用。
在这点上,技术与管理是相辅相成的。”这是因为,智能语音庭审系统不仅是记庭,它还记录书记员对某一类案件记录的时长,通过这些时长算出这类案件的平均时长,可以分析哪些案件适用快审快执,印证现有适用速裁案件的案由是否划分合理。更重要的是,这些数据最大的优势是帮助领导做决策,帮助法官做预测性探索。
“语音识别对于我们来说只是一个开始,是一个小切口,背后是三中院对于审判大数据的宏伟设想。放眼全国,我发现没有人去深入挖掘这些数据。这些数据背后反映的是规律性的行为模式,它将为司法改革提供极有价值的数据参考。”
数据不仅能为人服务,还能反过来了解人的行为。时至今日,三中院庭审语音系统的数据分析每周都在进行。三中院法庭有限,排庭紧张,通过大数据的分析,可以看到法官到达法庭的时间点,防止拖延影响后续开庭,也避免重复预定法庭的现象产生。
“我们的法庭需要提前预定,而庭审识别系统的计算方式是根据开庭预定的起始时间起算,记录正常开庭的时间点,这样就可以计算出实际开庭时间与预定时间的相差值。有时候,会出现第一个庭审还没有审理完毕、第二个庭的当事人已经到位的情况。自从有了庭审语音识别系统,从书记员分配到集中管理再到向下的预定法庭,都能通过系统反映法庭使用的整体过程。”书记员刘畅介绍说。
在采访过程中,法院和研发团队在探讨中又碰撞出了新的火花,他们即将根据书记员的操作习惯为他们定制个性化按键可选模块。
对于徐剑来说,三中院一年开发七八个软件项目,语音识别只是很小的一部分。而在记者眼中,语音识别系统已然给法院掀起了一场智能变革,从手写到速录再到语音转换,庭审记录日新月异,更迭速度之快,让只看到结果没看到过程的记者叹为观止。



法庭庭审记录方式的迭代变革,是由无数代码构建而成的。研发人员用手中的代码创造了一个又一个惊喜。
而带动三中院研发庭审语音识别系统的推手,则是北京博雅智学软件股份有限公司(以下简称博雅)和北京中瑞智科技有限公司(以下简称中瑞智)两家国内优秀研发公司。
专业与专注
20世纪90年代,热爱IT技术的20余位年轻人走到了一起,创建了博雅原始创业团队。因为志向相投,他们默契十足。
创业之初,这些年轻人研发出公安系统使用的语音呼叫中心并成功落地。这一系统可以自动识别来电并依据来电分配电话所属地,也可以调出来电者之前的通话内容。此后,这一技术从公安系统扩展到了信息台,也为博雅的前身公司积累了创业的第一桶金。
作为一家国内优秀的信息服务企业,博雅致力于信息系统在政务信息化与教育信息化方面的开发与服务,基于信息资源的整合与共享、数据分析与服务,综合运用移动互联网、大数据和数据可视化等信息科技,为法院等政府客户提供整合的信息化系统服务。如今,博雅的用户遍及全国,从最高人民法院执行局的数据可视化到中央电视台直播南京青奥会开幕式中的虚拟植入,再到上海、内蒙古、山东、广州等地法院诉讼服务系统,很多都出自博雅研发团队之手。

对于记者提出博雅是如何研发庭审语音系统的问题,博雅市场部负责人刘兴华解释道:“博雅并不是一家语音系统的服务商,我们实际是一家解决方案商,专注于法院业务流程系统。在全国各地,由于每个地区的博雅用户对产品的需求或者着重点不太一样,博雅用户的系统建设也有不同。语音技术在法院有落地点,此技术使用的是阿里语音引擎,在前端的应用系统包括针对法院的业务具体流程是博雅研发团队研发的。”
通过对话,记者了解到博雅是一家做行业的公司,而行业公司的应用之本则是公司对行业用户的理解。这与纯粹做技术公司不太一样,技术能用到10个行业或100个行业,而一个行业公司的行业宽度有限,行业用户的细微变化都可能带来整个行业的震动。除了把握商机、掌握时机,还要看准地区建设的高峰以及建设着重经费投放点。
行业公司更强调对行业本身的理解和知识储备以及对行业进行前瞻性的预判。为此,博雅每年都要花时间理解两会中的法院院长报告。
这是因为,院长报告会涉及法院未来的发展趋势,这也是行业公司的立足之本。例如,近两年,互联网法院、金融法院等专业法院陆续出现,必将带来配套系统的跟进,对于行业公司来说这就是商机。
博雅副总经理李钧谈及博雅未来发展要切实解决的问题时说道,博雅在技术层面不会面临难题,因为博雅的资源会助其解决这些难题。
博雅在研发过程中遇到的难题是如何将其掌握的技术和法院的应用相结合,即公司如何理解法院的业务。这是博雅一直在做,也是服务法院最难的一个门槛,“专业与专注,是博雅深耕政法系统的两个关键点”。
让专业的人做专业的事
在技术和法院业务之间,博雅已经为法院搭建了一座又一座无形助力桥梁,最高人民法院执行局指挥中心即是博雅研发团队的心血体现之一。
记者了解到,在大数据可视化应用之前,法院业务系统会产生大量的数据,而这些数据往往分散在五六个业务系统当中,决策层或法官查询数据需要每天数次登录不同的系统,并且这些数据互不关联没有比对值。
博雅研发的数据可视化系统将这些分散的数据库进行了对接,系统会根据管理者的意图生成自动化的报表实时呈现。
“可视化系统是决策辅助系统,如最高人民法院执行局指挥中心的大屏幕是数据库的实时展现,这其中的所有数据与它背后的数据库相连,最高人民法院可以看到3500家法院中任意一家法院的数据。此外,大屏幕是交互式的,可点可选。”李钧向记者展示了最高人民法院执行局指挥中心的微缩动态宣传片,跃动的数据、爽目的界面扑面而来。
刘兴华补充道,无论是法院诉讼服务系统还是庭审语音系统,这些系统都是为了法院的集约化服务。法院推行员额制后,法官的数量与日益增长的案件数量并不匹配,这就需要让法官从事务性的工作中解脱出来,用智能系统提高自身的工作效率,让法官专心在专业领域分析案件。
在以前的庭审中,法官会时不时地放慢速度等书记员记录,甚至让当事人复述刚说的话,以便让书记员记录重要信息,这其中不乏法官与书记员之间的默契。如今,语音庭审系统会自动帮助书记员记录,书记员只需提供修改工作,这大大提升了书记员在团队中的专业服务能力。
同样,诉讼服务中的智能化系统是为了让法官团队更专业化,让他们从纷繁的事务性工作中抽离出来。比如,博雅在一家基层法院做的诉讼调解对接中心项目,这个项目通过繁简分流将很多民事简单案由交由速裁处理,而专业法官团队则去处理更为复杂的案件。
“集约化是指将事务性工作挑选出来进行集约化处理。而处理事务性和流程化的东西都是计算机的优势,人在这方面没有优势,人有创造性的优势。专业系统跟专业的人配合在一起,让每个团队就变得更专业化了。法官的专业化在于复杂案件的处理,集约化促使团队在处理专项事务时越来越专一,能力越来越强”。
机器学习是人工智能的核心技术。相对于人的专业,智能语音识别系统能通过研发人员对引擎算法的二次优化达到自我学习的目的,而这是中瑞智的强项。
在智能语音识别系统,机器学习可以理解为对语音识别库的学习。在庭审过程中,基于法院特点,会用到法言法语、法条法规,而且同一个词汇可能有不同的表述方式。对于高频词汇,研发人员会把它放入语音识别库,让机器结合语境和语义自动识别。
这就不难理解,为何庭审屏幕上显示当事人说的同一段话,机器会不断自我更正。此外,有些案件同音同名的字会非常多,这也是书记员记录的一个难点。要想解决这一难题,只要在庭审前将案件材料输入语音库让机器学习,即可保证笔录的准确性。
如今,三中院将语音识别的正确率做到了其他院难以超越的高度,这与研发人员契合庭审的深度打磨息息相关。
未来愿景
经过20多年的锤炼,博雅从20人的团队发展成为一家拥有近400名员工的上市公司。对博雅而言,它不仅有专门满足现有项目需求的研发团队,而且还有以实验性质为目的的研发团队。
“我们每个项目都会有一个项目经理,项目经理在博雅代表用户的利益与博雅研发人员进行PK。对我们而言,用户需求占主导。大数据应用、电子政务、音视频应用是博雅的强项,还有物联网智能管理,我们准备集中力量在法院行业为用户形成一套完整的闭环。”李钧的话指引了博雅的未来。
相对于博雅未来的期盼,中瑞智的愿景则是提供最好的人工智能产品和服务。该公司创始人黄大伟毕业于北京大学,是中瑞智现任总经理,曾任汤森路透软件工程师、创新工场乐啊团队技术负责人以及北京海天瑞声股份有限公司技术总监。

成立三年的中瑞智是国内新一代云计算和人工智能领域的顶尖服务商,专注于智能语音领域,为各企事业单位提供工作场景、办公会议、大型发布会、直播等各种对语音转文字时效性和准确率要求较高的场景下的智能语音解决方案。
面对智能语音会议中发言角色多、不易进行区分等各类问题,中瑞智利用自身技术优势研发了自有智能会议系统。这个系统将基本信息、音视频文件、会议过程信息和最终结果等元素,在一体机中直接组织串联处理。中瑞智的实时字幕系统能实现语音转写的文字实时字幕展示,同时可以自定义字幕展示方式。
针对一些重口音地区、特殊行业、特殊业务等面临的问题,中瑞智提供定制模型优化,提高该业务场景下的语音识别率。此外,中瑞智研发的智能语音输入法,能智能断句、添加标点,并与原有输入法无缝切换。
时至今日,中瑞智为北京市高级人民法院提供语音识别服务并服务于全北京所有基层法院和中级法院。




在博雅办公地门口的休息处,摆放着一个一人高的乐高玩具——小丑和他的魔法书。这个人物来自动漫《乐高未来骑士团》。

如今想来,小丑的形象象征了那些不停变换的现实难题,而看到小丑的研发人员则是骁勇善战的骑士,每一次头脑风暴碰撞出的灵感火花会助力他们在通关路上找到密钥,战胜面前的重重难关。

原标题:《AI|“智变”法院与“未来科技骑士团”联手掀起一场智能风暴》
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。





- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2026 上海东方报业有限公司




