下载客户端

机器人怎么学习？靠海量未带标签数据辅助少量带标签数据

中国科学院官方微信号

2017-10-29 11:20

近两年，从最初的阿尔法狗(AlphaGo)击败韩国名将李世石，到机器人小冰“看图作诗”，再到柯马机器人与两位世界级篮球达人宋何景和林书豪同场切磋，无一不让人工智能名声大噪，使之当之无愧地成为全球关注大热头条。2017年7月，国务院下发《新一代人工智能发展规划》，将人工智能正式上升为国家战略。如果说你还没听说或关注人工智能，SORRY，只能说明你OUT了。

那么，人们不禁要问，如何实现人工智能？此时则需了解另一概念：机器学习（Machine Learning）。机器学习是研究如何使计算机能够模拟或实现人类的学习功能，从大量的数据中发现规律和提取知识，并在实践中不断地优化完善和增强自我。机器学习是机器获取知识的根本途径，可让机器像人类一样智能地“思考”，是实现人工智能最重要的途径之一。

机器学习主要包括监督学习（Supervised Learning）和无监督学习（Unsupervised Learning）两种方式。如何理解这两种学习方式呢？让我们先用一个例子来说明。

比如我们在教孩子认知世界时，会拿出一些关于鸟、鱼、飞机和轮船等的图片告诉他（她）们这些分别是什么，等他（她）们以后再次见到时则能准确地认出，这就叫监督学习。无监督学习，则是我们并不会告知孩子们这些图片分别是什么，而是由他（她）们自己认知这些图片。他（她）们中或许有的将鸟和飞机归为一类，将鱼和轮船归为一类，因为这分别代表了天上飞的和水中游的；又或许有的能将鸟、鱼、飞机、轮船等分别归为一类；但是，他（她）们都不知道这些分别是什么。

对于计算机而言，这些鸟、鱼、飞机和轮船等的图片相当于数据，我们告诉孩子们这些图片分别是什么则相当于对这些数据打上了标签，监督学习就是通过这些打上标签的数据去训练得到一个最优模型，而无监督学习则是仅仅利用这些数据而不利用标签去训练得到一个最优模型，最后它们再利用这个模型对未来的数据进行一个判断输出，达到认知能力。

不难看出，在监督学习情况下，计算机学习到的模型性能更优（泛化能力更强）。但是，在大数据时代对海量数据都打上标签是不太现实的。例如，如今我们能轻易地收集到几十万或上百万张关于鸟、鱼、飞机和轮船等的图片，但要对每一张图片都打上标签的代价非常高，是一项耗时耗力的工作。在大数据时代，更多的情况则是海量未带标签数据伴随着少量带标签数据存在于人们的现实生产生活中。

半监督学习（Semi-SupervisedLearning）就是为解决上述问题所产生的，其目的在于利用海量未带标签数据辅助少量带标签数据进行学习训练，以增强计算机的学习能力。近来，中国科学院重庆绿色智能技术研究院大数据挖掘及应用中心团队对半监督学习开展了系列研究，相关研究成果已发表在《IEEE Transactions on Industrial Informatics》、《Neurocomputing 》和《Ecological Indicators 》等国际期刊上，下面将以其研究成果为例说明半监督学习的一个具体应用。

水体富营养化（Water Eutrophication）是一个全球性水环境问题，对其进行准确评价对水环境保护至关重要。目前已有相关行业标准和研究指出对水体富营养化状态评价要求测量叶绿素a(Chl-a)、透明度(SD)、总磷(TP)、总氮(TN)和高锰酸盐指数(CODMn)共5个指标。但是，其中的总磷、总氮和高锰酸盐指数3项指标由于其复杂的测量原理和方式导致其在线监测数据获取代价较高。此时，通过利用水温(T)、PH、溶解氧(DO)和氨氮(NH3-N)等低代价指标来部分取代总磷、总氮和高锰酸盐指数这3项高代价指标开展半监督学习，不仅可降低水体富营养化状态评价的成本，也有助于对水体富营养化问题的监测预警。