澎湃Logo
下载客户端

登录

  • +1

算法祛魅①|困住外卖骑手的神经网络,到底是什么?

澎湃新闻记者 刘畅 龙慧 伍银芳 张泽红 邹熳云 江勇
2021-02-24 19:30
来源:澎湃新闻
美数课 >
字号

【编前语】

三个月前,一篇来自《人物》杂志的文章《外卖骑手,困在系统里》在网络上引起了巨大的热议,把外卖骑手这个如今与大家生活息息相关的职业放在了聚光灯下。同时,题中“系统”的代表因素——算法也成为了舆论的焦点。阿里团队在一篇论文中介绍过他们计算送餐时间的技术,概括来说就是使用了当下在业界比较热门的深度神经网络算法。

澎湃新闻邀请到了研究人工智能哲学的复旦大学哲学学院的徐英瑾教授来聊聊这种算法。他认为深度神经网络本身的运行机制导致其本身具有很强的黑箱性,也使得外部的监管变得困难。另外,从哲学的角度上来说,这种算法并不支持创新,甚至没有办法创新,因为它是完全基于过往的数据训练出来的,但是未来会发生的事情很多时候并不是过往事件的简单重复。

澎湃新闻:之前大家讨论的时候会很多在讨论算法问题。阿里团队在一篇论文中介绍过他们计算送餐时间的技术,概括来说就是使用了深度神经网络算法。能不能请您先简单介绍一下这种算法的工作流程和原理?

徐英瑾:简单来说,所谓的“深度神经网络”算法是传统神经网络的一种升级版,目标是做出一个简化版的一个人工神经网络。它的运作并不是以一种命题式的方式来处理信息的,而是全部给揉碎,变成英文里说的piecemeal information(碎片化信息)。比如拿神经网络的系统去进行人脸识别,那它会把人像的照片“揉碎”了,变成一个像素矩阵,再喂到系统里面,这个系统然后就得出了结论。这个结论可能对,可能不对,但是不要紧,我们可以把这个结果和正确答案相互比对。之后利用反馈算法,对神经网络的各个节点的权重进行调节。通过调节一次次去蒙,总有一次能蒙对。

澎湃新闻:这种技术从社会的角度说存在什么问题吗?

徐英瑾:因为神经网络具体设置,它具有非常强的黑箱性和隐蔽性。这也是神经网络的运作可能出现的问题——造成很强的技术屏障和知识屏障,不利于大众对这样的一套系统进行监督,但这个系统却会对很多人的生活造成影响,并且构成某种意义上权力的不对等。这种技术屏障甚至给执法部门和政府的监督也制造了一定的障碍。

要解释神经网络算法很难,不仅仅对外人是这样,甚至连算法的创造者都可能很难讲清楚。(03:37)
澎湃新闻:政府作为一个监管者,他们是否有这个能力去监管?如果他们暂时没有这个能力,那应该怎么去发展自己的能力来监督这种新兴的技术?

徐英瑾:这是一个全世界都遇到的新问题,现实技术的发展超过了各国立法机构的行动速度。这是一个客观上的问题,因为立法是需要时间的。

我个人的建议是,可以设置一个官方的、常设的伦理检查委员会,来对企业的这方面进行审查。这个机构要将伦理研究和政府政策结合,可以通过智库式的落地方式,和一些高校进行结合。相对来说,高校和各种各样的科研院所,如果是国有的,它本身和企业的利益关系不是特别的明显,同时也具有了这方面的人力资源。所以政府花一些资金去扶持这样的智库类机构是有好处的。

同时,无论是自然科学还是社会科学基金,对于如何监管大数据适应我国发展的课题,应该成为国家相关科研立项部门的一个重点的推荐方向,这样可以调动大家的研究这些问题的积极性。

在这个问题上也要展开积极的国际合作。因为互联网有一个很麻烦的特点,就是非国境性、超越国界性,就是各国的执法步骤如果差别太大,也会有问题。怎么样在这方面要和人工智能管理的国际行动进行协调,我觉得这也是一个题中应有之意。

澎湃新闻:很多人觉得神经网络算法就和所有技术一样,是中立的,您同意吗?您觉得在外卖骑手面对越来越短的送餐时限这个现象中,算法扮演了什么样的角色?

徐英瑾:算法起到了一个“酶”的作用。生物学上和化学上有一个词——“酶”——它的作用是让化合作用的速度成倍地提高。现在算法起到的就是这样的作用。

我不是很欣赏这种中立的观点,因为任何所谓“中立”的东西,实际上都是有一些预定的功能指向性的,尤其是人工制品。举个例子,如果刺刀用来切菜肯定不合适,你肯定要用菜刀来切菜,因为刺刀的功能指向并不是用来切菜的,反过来用切菜来做刺刀也肯定不合适。

这个算法本身的特点是什么?就是根据一般人的行为来做出对于未来的预测。这种哲学理念已经被嵌在里面了,是改不了的,因此它必然会导致对于个性化的行为的淹没,并且很容易促进现在我们所说的“内卷化”,即大家陷在一个特定的方向上,在没有创新的情况下,来进行互相比拼。

为什么没有创新?因为现在的算法不支持创新,而且从哲学的角度讲,它是没办法创新的。神经网络算法根据既有数据的情况,按照这个数据体现出来的平均水平来行动。如果说数据是水流的话,它就是飘在数据之流上的一片花瓣,它没有自己的意志;它不是船,因为船有船长的想法,可以逆流而上。

澎湃新闻:这种算法需要做出创新吗?深度神经网络内嵌的哲学理念存在什么问题?

徐英瑾:问题在于全都是根据过去的事情来判断未来的事情。对于未来的事情的唯一评价标准是过去的经验数据。这样做是有问题的,因为没有任何哲学上的理由告诉我们,未来发生的事情就一定和过去的事情是相似的,包括2020年的疫情,也是我们以前没有发生过的奇怪的事件。

那么我们怎么用过去的经验来应对?我们只能够通过理性的计算。理性的计算是指每一个环节科学家都根据不断得到的新的知识进行手动的演算来修正关于疫情的理解和预测。这是一个基于理论所进行的符号运作模式,而不是基于经验数据的演算和训练。

数据演算训练比较适合那种简单的重复性行为。这就类似于大家听说过的“一万小时定律”,即什么事干一万小时都熟了。但比如一万小时显然是不足以学习哲学的,因为哲学是牵涉到很多学科的知识领域,需要某种高屋建瓴的思维方式。而很显然现在深度学习只能从底层的数据开始做,而且它非常容易受到在高层看来是非常可笑的因素的干扰。假如一个饭粒粘在X光片上面,如果人来识别,当然可以认出这是饭粒,但机器就以为这里好像真的长了个什么东西,它就会犯这样的错误,对吧?而且这种事情你是没办法预测的——现在出现这个问题,下次可能出现另外一个问题,比如20年前的片子被老鼠咬了个洞。人一看就知道这是什么,但机器一看又不知道读成什么东西了,为什么?因为它没有常识。

常识是件很麻烦的事情,我们所说的 human understanding(人类知性)和human common sense(人类常识)没法编程化。这是现在人工智能研究中的一个重大问题。而基于大数据的深度学习是搞不定这件事的。

澎湃新闻:在外卖骑手面对送餐时间这个语境里,您觉得其中缺失的常识是哪一部分?

徐英瑾:就是作为一个市民,只要在这个城市生活,就要遵守当地的交通法规。以及,所有的驾驶速度会受到一些不可抗的外力的影响,比如说突然下雪了,或者是突然来台风了。

这些常识是非常的复杂的。不能抽象地说写一个算法看到今天几级大风,然后就怎么样了。因为现实生活是变动的,天气预报也不是神,所以不能够抽象地根据气象台可以接收到的信息来确定这个速度。

澎湃新闻:但作为企业来讲,虽然他们现在能收集很多数据,但他们只能拿到自己业务相关的一部分数据,拿不到一个更广范围内的数据,因此也只能基于他们拥有的数据计算出一个结果。

徐英瑾:这里面有两个方面。第一就是所有的程序设计,如果是以利润为唯一考量的话,那么做什么样的程序都不行,因为必然会导致对于其他方面利益的压榨,比如对于城市的交通安全和骑手本身生命安全的这种压榨。用儒家的话讲,首先不是格物致知,而是要真心诚意,当真心诚意这一步没有做到,没有考虑社会责任,直接去细抠算法是没意义的。

接下来还是要格物致知的。在格物致知的层面上,用深度学习的方法,在原则上就会导致现在的问题。所以我一向是主张有限度地,并且有条件地恢复传统的symbolic AI(符号人工智能)的这种做法,因为传统的AI是基于小数据,根据人类的理性常识逻辑和统计学原则来做出这种推理的。这时候AI的推理和科学家所做的推理之间,唯一的区别就是将科学家所做的推理给自动化了,因此它的规范性成色是比较高的。

和我合作的美国Temple University(天普大学)的计算机科学系的王培老师做的 “非公理推演系统”,是一种基于小数据、模拟人类灵活性思维的一种通用人工智能系统。它能根据用户的需求,自动调整自己的知识库,不需要用户重新进行结构性的编程。只要给它新知识,它会思考这些新知识和旧知识怎么融合。

澎湃新闻:这种系统跟现在的深度神经网络系统的差别在哪里?

徐英瑾:通用人工智能能够像精确制导炸弹一样。如果不想炸死平民,只要精确制导炸弹使用的坐标是正确的,那么这个目标就能达成,我可以保证平民都不被杀死,因为这是精确制导。现在的算法更像自由落体炸弹,集中目标看概率,即使有善心也会炸死平民。

但是即使使用了通用人工智能,如果不和好的想法结合在一起,也是没用的。比如有一个疯子,他有了精确制导炸弹,可是他就是没事炸闹市区玩,那使不使用精确制导炸弹,都没有意义。因此通用人工智能也一定要有好的意图,来发挥它的作用,才能够将正面社会价值体现出来。

澎湃新闻:您觉得现在人工智能开发方面有什么需要特别特别注意的吗?

徐英瑾:“智能”这个词是一个掩盖了很多问题的词,他们掩盖的是一个很重要的问题,为谁而“智”?是为员工的利益、社会的利益、城市的利益,还是具体某家公司的利益?即使是具体公司的利益,是短期利益还是长期利益?如果不把这个为谁而“智”这个问题解释清楚,智能就变成一个空谈了。

而实际上,对人工智能进行研发的主力都是公司,这就会导致公司利益被放得很高,却很少有能真正平衡上述各方的利益的。

我之前和一个朋友聊天,问他语音翻译系统为什么有粤语和普通话的互译,但没有上海话和普通话的互译?理论上现在也能做得出。他说就是因为粤语歌和粤语电影在网上好找。

澎湃新闻:所以您觉得现在的操作方式是有什么数据我们就去做什么,而不是针对一个问题去想解决办法?

徐英瑾:对。比如广大老年人是没有足够的线上数据的,那要怎么研究养老问题呢?通过人力的、直接的调研和采访啊,我们前网络时代不都这么干的?还是应该先有问题意识,然后有数据当然好,没数据就去找——这是科学的态度。

 

    责任编辑:吕妍
    校对:徐亦嘉
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈