下载客户端

阿里云城市大脑三项技术入选国际顶级会议：能实现不看脸认人

澎湃新闻记者杨鑫倢实习生王梦琦

2017-07-20 18:08

来源：澎湃新闻

7月20日，阿里云又对外宣布了几项技术突破：城市大脑三项技术论文同时入选国际顶级学术会议——国际计算机学会主办的第25届国际多媒体会议ACM Multimedia（简称ACM MM），论文涉及交通事故识别、人流轨迹判断、交通数据样本等研究领域，与城市大脑的应用场景密不可分。

三篇论文通俗来说，城市大脑能看懂交通事故；实现不看脸认人，看体态就能实现跨摄像头的搜索；它可以自己生成数据，自己训练自己。

其中两篇论文收到了在大会上作口述报告的邀请。ACM MM评委会的入选通知邮件中提到，今年会议共收到675篇论文，仅有7.5%的论文可在大会上做口述报告。

阿里巴巴负责人工智能技术研发的核心团队iDST副院长华先胜接受澎湃新闻越洋电话采访时称，借助计算机视觉分析能力，未来城市可以预测交通事故，感知交通拥堵，并且对此作出及时调整甚至是提前干预。华先胜称，这在几年内就能实现，“不会是三五年之后的事。”

华先胜是阿里云城市大脑视觉智能负责人，此外他还是IEEE（国际电气与电子工程师协会）院士，是视觉识别和搜索领域的国际级权威学者。

阿里巴巴的研究人员一直在做相关基础性研究，给“城市大脑”装上越来越先进的武器。

阿里云的三项研究成果均由城市大脑项目组核心团队——阿里巴巴iDST（Institute of Data Science and Technologies，数据科学和技术研究院）成员研究得出。

阿里的城市大脑项目已经在杭州市、苏州市落地。

2016年4月，阿里巴巴联合富士康、数梦工场等13家企业启动了首个城市大脑项目，为杭州市打造一个人工智能中枢，计划将交通、能源、供水等基础设施全部数据化，连接散落在城市各个单元的数据资源，打通“神经网络”。苏州市也于今年2月引进城市大脑项目，成为第二个落地的城市。

阿里巴巴集团技术委员会主席王坚本月初演讲时表示，“城市大脑不但能造福百姓，也会像登月计划一样，成为机器智能未来10年最重要的研究平台。”

阿里云的“城市大脑”在杭州市萧山区一路段投入使用后，帮助杭州交警智能调节红绿灯，道路车辆通行速度最高提升了11%。

华先胜告诉澎湃新闻，城市大脑已经可以规模复制，一个政府只需要花一两周就可以集成城市大脑，“阿里云会为每个城市大脑搭建专有云，保证数据的安全性。接下来就是最重要的一环，数据接进系统，供研究人员进行算法的研发和系统的构建。最后是数据输出，比如我们监测到交通事故后，要落实到交警，不管是自动、半自动还是人工，要影响他后面的决策。”

不过，用大规模数据改善交通还需要不断完善。华先胜表示，这三篇论文的研究起点都来自城市大脑的应用场景，其研究成果都将帮助到城市大脑的落地，“我们公开的论文其实只是城市大脑一小部分的工作，选取了几个比较难的问题在研究。”

业内人士认为，三篇论文的同时入选，从学术角度佐证了城市大脑的智能研究价值已获国际顶级会议的肯定。

附：入选三篇论文通俗解读

1、城市大脑能看懂交通事故

来源：《时空自编码器的视频异常检测模型》

如果车辆数秒后的运动趋势与模型产生误差，达到一定阈值后即判断为交通异常。

对违章停车、交通拥堵、车辆逆行等异常事件的监测，是城市交通管理和安防领域的重要任务。目前的交通监控系统中，由于摄像头数量众多，仅凭借人力完全无法对于监控视频中的异常事件进行实时检测，因此需要借助计算机视觉技术，对视频中的异常事件进行自动检测。但由于异常视频数据非常少，正负样本分布极不平衡，且异常视频的差异性非常大，因此常见的视频事件检测和视频分类模型很难取得良好的效果。

华先胜介绍，团队受动作识别等领域的最新研究成果启发，设计了一种时空自编码器来进行视频异常检测。其核心模型是3D自编码器，通过3D卷积神经网络对正常视频片段进行特征提取和数据建模。同时，针对交通监控视频的特点，在自编码器的解码部分设计了一个新的预测分支，通过对下一段视频进行预测，来增强网络对视频中物体运动趋势的建模能力。

论文结果表明，通过在真实的交通场景的视频片段上对算法进行了评测，在AUC和EER两个专业指标上都超过了目前最好方法。目前团队正在测试论文方法投入实际应用的效果。

2、不用看脸就能识别出你

来源：《基于风格化对抗自编码器的图像生成算法》

不同层次feature的可视化（低层：稠密，反映局部语义细节；高层：稀疏，反映抽象高层特征）

同人鉴别问题是计算机视觉领域的一个经典问题，要求在多个不相交的摄像头场景下，任意给定出现在一个摄像头下的某个感兴趣的人，要求在其他摄像头下准确的找到该人。

该问题在学术界和工业界一直广受关注。由于不同摄像头下的行人图片在光照、姿态、遮挡、视角等情况下均存在十分大的差异，传统的一些基于hand-carfted特征的方法都不够鲁棒。近几年，深度学习技术被广泛的应用于计算机视觉领域，并在person re-id问题上也有重要突破。深度神经网络学习到的特征相对于传统特征更加抽象也更加鲁棒，在分类、检测、检索等应用场景下有极大的优势。

本文的出发点是融合了已有的两类框架的优势，同时弥补了其劣势。在此基础上，将相似度限制拓展到了不同的层次上，并根据不同层次feature的特点自适应的设计不同的相似度度量和损失函数，使得不同层次的特征都可以进行有效的学习。

3、自己训练自己

来源：《基于风格化对抗自编码器的图像生成算法》