下载客户端

Transformer助力CAD草图生成；光学神经网络做数字识别

2021-05-24 07:18

来源：澎湃新闻·澎湃号·湃客

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周的重要论文包括 DeepMind 提出的助力 CAD 草图生成的一种机器学习模型以及美国康奈尔大学等机构在手写数字分类任务上实现极高准确率的光学神经网络探索。

Self-Supervised Pillar Motion Learning for Autonomous Driving

Computer-Aided Design as Language

Project CodeNet: A Large-scale AI for Code Dataset for Learning a Diversity of Coding Tasks

An optical neural network using less than 1 photon per multiplication

What Are Bayesian Neural Network Posteriors Really Like?

Editing Conditional Radiance Fields

Pay Attention to MLPs

ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Self-Supervised Pillar Motion Learning for Autonomous Driving

作者：Chenxu Luo、Xiaodong Yang、Alan Yuille

论文链接：https://arxiv.org/pdf/2104.08683.pdf

摘要：理解各种交通参与者的运动对于自动驾驶汽车在动态环境中安全运行至关重要。运动信息对于各种车载模块非常关键，涉及检测、跟踪、预测、规划等多个任务。自动驾驶汽车通常配有多个传感器，最常用的是激光雷达（LiDAR）。因此，如何从点云中表征和提取运动信息是自动驾驶研究中一个基础的问题。来自自动驾驶公司轻舟智航和约翰霍普金斯大学的学者提出了一个自监督学习框架，可从未标注的激光雷达点云和配对的相机图像中进行点云运动估计，与现有的监督方法相比，该方法具有良好的性能，当进一步进行监督微调时，模型优于 SOTA 方法。

用于点云体柱运动估计的自监督学习框架。

概率运动掩膜说明，左：投影点在前向相机图像上的光流（已将自我运动分解）。右：点云的一部分。

推荐：本文已被 CVPR 2021 会议接收。

论文 2：Computer-Aided Design as Language

作者：Yaroslav Ganin、Sergey Bartunov、Yujia Li 等

论文链接：https://arxiv.org/pdf/2105.02769.pdf

摘要：在制造业中，CAD 的应用十分广泛。凭借着精准、灵活、快速的特性，CAD 已经取代了纸笔画图，并且不再只是应用于汽车制造、航空航天等领域，哪怕小到一个咖啡杯，生活中几乎每个物件都由 CAD 画图建模。CAD 模型中最难制作的部件之一就是高度结构化的 2D 草图，即每一个 3D 构造的核心。尽管时代不同了，但 CAD 工程师仍然需要多年的培训和经验，并且像纸笔画图设计的前辈们一样关注所有的设计细节。下一步，CAD 技术将融合机器学习技术来自动化可预测的设计任务，使工程师可以专注于更大层面的任务，以更少的精力来打造更好的设计。

在最近的一项研究中，DeepMind 提出了一种机器学习模型，能够自动生成此类草图，且结合了通用语言建模技术以及现成的数据序列化协议，具有足够的灵活性来适应各领域的复杂性，并且对于无条件合成和图像到草图的转换都表现良好。

CAD 草图展示效果图。

CAD 草图示意图。

推荐：网友表示：建筑设计要起飞了

论文 3：Project CodeNet: A Large-scale AI for Code Dataset for Learning a Diversity of Coding Tasks

作者：Ruchir Puri、David S. Kung、Geert Janssen 等

论文链接：https://github.com/IBM/Project_CodeNet/blob/main/ProjectCodeNet.pdf

摘要：让 AI 自动生成代码，是很多开发者的梦想，近些年来，有关这一方面的研究屡见不鲜。要想训练一个好用的 AI，最重要的工作或许就是找到优质数据。近日，IBM 研究院发布了一个名为 CodeNet 的数据集，该数据集包含 1400 万个代码样本，用于训练面向编程任务的机器学习模型。IBM 希望 CodeNet 仿效大型图像数据集 ImageNet，并成为教软件理解软件开发蓝图的领先数据集。

数据集中编程语言的占比。

相关数据集对比。

推荐：IBM 开源了 5 亿行代码数据集，里面最多的编程语言却不是 Python

论文 4：An optical neural network using less than 1 photon per multiplication

作者：Tianyu Wang、Shi-Yuan Ma、Logan G. Wright 等

论文链接：https://arxiv.org/pdf/2104.13467.pdf

摘要：当前，深度学习在越来越多的任务上超越了人类，涉及的领域包括游戏、自然语言翻译、医学图像分析。然而，电子处理器上训练和运行深度神经网络的高能量成本阻碍了深度学习的进步空间。因此，光学神经网络代替深度学习物理平台的可行性受到了广泛的关注。理论上，光学神经网络比部署在常规数字计算机上的神经网络具有更高的能源效率。

在最近的一项研究中，来自美国康奈尔大学等的研究者们证明了，光学神经网络可实现在手写数字分类上的极高准确度：其中，在权重相乘中使用约 3.2 个检测到的光子使得准确度达到了 99％，而仅使用约 0.64 个光子（约 2.4×10^-19 J 光能）就能达到 90％以上的准确度。

光学矩阵向量乘法器的实验仪器配置。

光学矩阵向量乘法示意图。

推荐：在光子预算限制为每个标量乘积少于一个光子，研究者使用光学神经网络实现了非常高的手写数字分类准确度。

论文 5：What Are Bayesian Neural Network Posteriors Really Like?

作者：Pavel Izmailov、Sharad Vikram、Matthew D. Hoffman、Andrew Gordon Wilson

论文链接：https://arxiv.org/pdf/2104.14421.pdf

摘要：后验贝叶斯神经网络（BNN）参数非常高维和非凸。出于计算上的原因，研究人员通常使用廉价的小批量方法来近似这种后变方法，如平均场变分推断或随机梯度马尔科夫链蒙特卡罗（SGMCMC）。为了研究贝叶斯深度学习中的基础问题，来自纽约大学和谷歌研究院的研究者在现代体系结构中使用全批量哈密顿蒙特卡罗（HMC），并得出了一系列结论。

HMC 超参数的影响。

HMC 收敛。

推荐：本文已被 ICML 2021 会议接收。

论文 6：Editing Conditional Radiance Fields

作者：Steven Liu、Xiuming Zhang、Zhoutong Zhang 等

论文链接：https://arxiv.org/pdf/2105.06466.pdf

摘要：神经辐射场（NeRF）是一种场景模型，支持高质量的视图合成，并针对每个场景进行了优化。在本篇论文中，研究者探索了使用户能够编辑在形状类别上训练的 NeRF（也叫做条件辐射场）的功能。

具体而言，研究者提出了一种将粗糙的 2D 用户涂鸦传播到 3D 空间以修改局部区域的颜色或形状的方法。首先，研究者提出一个条件辐射场，其中包含新的模块化网络组件，比如在类别中的对象实例之间共享的一个分支。通过观察同一类别的多个实例，模型无需任何监督即可学习基础部分的语义，从而允许粗略的 2D 用户涂鸦以一致的方式传播到整个 3D 区域（例如座椅）。接下来，研究者调查了网络组件需要更新的编辑任务，并提出了一种针对后期网络组件的混合网络更新策略，平衡了效率和准确性。在用户交互过程中，研究者又提出了一个既要满足用户的约束又要保留原始的对象结构的优化问题。

研究者演示了在三个形状数据集上进行各种编辑任务的方法，并表明它优于以往的神经编辑方法。最后，研究者编辑真实照片的外观和形状，并显示该编辑传播到推断出的新视角视图。

编辑条件式辐射场的示意图。

条件式辐射场网络架构。

推荐：编辑条件辐射场，从 3D 对象集合学习的方法。

论文 7：Pay Attention to MLPs

作者：Hanxiao Liu、Zihang Dai、David R. So、Quoc V. Le

论文链接：https://arxiv.org/pdf/2105.08050.pdf

摘要：谷歌大脑首席科学家、AutoML 鼻祖 Quoc Le 团队也将研究目光转向了 MLP。在最新的一项研究中，该团队提出了一种仅基于空间门控 MLP 的无注意力网络架构 gMLP，并展示了该架构在一些重要的语言和视觉应用中可以媲美。

研究者将 gMLP 用于图像分类任务，并在 ImageNet 数据集上取得了非常不错的结果。在类似的训练设置下，gMLP 实现了与 DeiT（一种改进了正则化的 ViT 模型）相当的性能。不仅如此，在参数减少 66% 的情况下，gMLP 的准确率比 MLP-Mixer 高出 3%。这一系列的实验结果对 ViT 模型中自注意力层的必要性提出了质疑。

他们还将 gMLP 应用于 BERT 的掩码语言建模（MLM）任务，发现 gMLP 在预训练阶段最小化困惑度的效果与 Transformer 一样好。该研究的实验表明，困惑度仅与模型的容量有关，对注意力的存在并不敏感。随着容量的增加，研究者观察到，gMLP 的预训练和微调表现的提升与 Transformer 一样快。

gMLP 架构流程图。

ImageNet-1K 数据集上的结果。

推荐：谷歌大神 Quoc Le 也将研究目光投向了多层感知机（MLP）。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. DialSumm: A Real-Life Scenario Dialogue Summarization Dataset. (from Yang Liu, Liang Chen)

2. Shades of confusion: Lexical uncertainty modulates ad hoc coordination in an interactive communication task. (from Thomas L. Griffiths)

3. KECRS: Towards Knowledge-Enriched Conversational Recommendation System. (from Tong Zhang)

4. OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics. (from Minlie Huang)

5. Long Text Generation by Modeling Sentence-Level and Discourse-Level Coherence. (from Minlie Huang)

6. Stylized Story Generation with Style-Guided Planning. (from Minlie Huang)

7. CoMAE: A Multi-factor Hierarchical Framework for Empathetic Response Generation. (from Minlie Huang)

8. TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance. (from Tat-Seng Chua)

9. Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter. (from Wei Liu)

10. Adversarial Learning for Zero-Shot Stance Detection on Social Media. (from Kathleen McKeown)

本周 10 篇 CV 精选论文是：

1. Biometrics: Trust, but Verify. (from Anil K. Jain)

2. Omnimatte: Associating Objects and Their Effects in Video. (from Andrew Zisserman, William T. Freeman)

3. Face, Body, Voice: Video Person-Clustering with Multiple Modalities. (from Andrew Zisserman)

4. Generalized Few-Shot Object Detection without Forgetting. (from Jian Sun)

5. Unsupervised Super-Resolution of Satellite Imagery for High Fidelity Material Label Transfer. (from Larry Davis, Rama Chellappa)

6. More Than Just Attention: Learning Cross-Modal Attentions with Contrastive Constraints. (from Larry Davis, Dimitris N. Metaxas)

7. MutualNet: Adaptive ConvNet via Mutual Learning from Different Model Configurations. (from Mubarak Shah)

8. TSDF++: A Multi-Object Formulation for Dynamic Object Tracking and Reconstruction. (from Roland Siegwart)

9. High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network. (from Lei Zhang)

10. PPR10K: A Large-Scale Portrait Photo Retouching Dataset with Human-Region Mask and Group-Level Consistency. (from Lei Zhang)

本周 10 篇 ML 精选论文是：

1. Fighting Gradients with Gradients: Dynamic Defenses against Adversarial Attacks. (from Evan Shelhamer, Trevor Darrell)

2. Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning. (from Nitish Srivastava, Ruslan Salakhutdinov)

3. Not All Memories are Created Equal: Learning to Forget by Expiring. (from Jason Weston)

4. Deep Kronecker neural networks: A general framework for neural networks with adaptive activation functions. (from George Em Karniadakis)

5. Learning Robust Hierarchical Patterns of Human Brain across Many fMRI Studies. (from Christos Davatzikos)

6. Boosting Variational Inference With Locally Adaptive Step-Sizes. (from Fabian Pedregosa, Gunnar Rätsch)

7. Drill the Cork of Information Bottleneck by Inputting the Most Important Data. (from Fei-Yue Wang)

8. When Deep Classifiers Agree: Analyzing Correlations between Learning Order and Image Statistics. (from Visvanathan Ramesh)

9. Prescriptive Process Monitoring for Cost-Aware Cycle Time Reduction. (from Marlon Dumas)

10. Learning a Universal Template for Few-shot Dataset Generalization. (from Hugo Larochelle, Richard Zemel)

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

原标题：《7 Papers & Radios | Transformer助力CAD草图生成；光学神经网络做数字识别》

阅读原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报

扫码下载澎湃新闻客户端

澎湃矩阵

新闻报料

报料热线: 021-962866
报料邮箱: news@thepaper.cn

沪ICP备14003370号

沪公网安备31010602000299号

互联网新闻信息服务许可证：31120170006

增值电信业务经营许可证：沪B2-2017116

反馈