|
译者按
2021年9月,美国安全与新兴技术研究中心(CSET)发布《小数据人工智能的巨大潜力》报告。报告认为,人工智能不完全依赖大数据,“小数据”方法可以针对标记数据不足的情况提供替代性解决方案,拥有巨大人工智能潜力。报告介绍了迁移学习、数据标记、人工数据生成、贝叶斯方法以及强化学习五类小数据方法,分析了各类方法在人工智能应用方面的优势,并通过对论文研究集群的统计分析探究了小数据方法研究进展、领先国家相关领域竞争力分析及研究资金投入情况。赛迪智库信息化与软件产业研究所对报告进行了编译,期望对我国有关部门有所帮助。
原文 | 美国安全与新兴技术研究中心
编译 | 赛迪智库 刘丽超 刘雪宁
【关键词】人工智能 小数据
传统观点认为,尖端人工智能依赖于大量数据,一个国家(或企业)能够获取的数据量是其人工智能进展的关键指标。当前很多人工智能系统确实使用了大量数据,然而,并非所有人工智能系统都需要海量数据作为支撑,小数据也拥有巨大人工智能潜力。为此,本文介绍并概述了“小数据”人工智能方法,该方法有助于解决标记数据不足的问题,进而挖掘数据潜能,并鼓励政府部门、行业企业突破大数据基础设施局限,实现人工智能创新。
“小数据”方法的分类
本研究将“小数据”方法分为了五大类:迁移学习、数据标记、人工数据生成、贝叶斯方法以及强化学习。在没有大型预标记数据集的情况下,可以利用这些方法训练人工智能系统。
迁移学习(Transfer learning)是一种机器学习方法,可以在数据丰富的环境中学习执行任务,而后将所学知识“迁移”到可用数据少的任务中。这一方法对于解决关联问题标记数据丰富但所研究问题数据不足的情况有很大价值。
例如,某人在开发用于识别稀有鸟类品种的应用程序时,可能只有少量鸟类照片。利用迁移学习,可以首先使用更大、更通用的图像数据库训练基本图像分类器,一旦该分类器能够区分狗与猫、花与水果、麻雀与燕子,研究人员就可以为该分类器提供更小的稀有鸟类数据集。然后,该模型可以“迁移”其已知的图像分类知识,利用这些知识从更少的数据中学习识别稀有鸟类。
数据标记(Data labeling)方法,即从有限的标记数据和大量无标记数据开始,使用一系列方法来理解可用的未标记数据。例如自动生成标记(自动标记)或识别标记重要数据点(主动学习)。
例如,主动学习可被用于皮肤癌诊断的相关研究。研究人员基于已进行皮肤癌或健康皮肤标记的100张照片,进行图像分类模型的最初训练。然后,为模型提供更大的潜在训练图像集,从中选择另外100张照片进行标记并添加到训练数据中。同时,为了尽可能多地从可用数据中学习,该模型可以基于照片信息含量进行附加照片选择,自行选择信息更丰富的照片进行标记。
人工数据生成(Artificial data generation)方法,旨在通过创建新数据点或其他相关技术,最大限度地从少量数据中提取更多信息。该方法可以通过对现有数据的小幅更改(如图像分类数据集中裁剪或旋转图像)或其他更复杂的方法,推断可用数据的基础结构并从中进行推测。
例如,计算机视觉研究人员利用计算机辅助设计(CAD)软件生成常见物体的逼真3D图像,并使用这些图像扩充现有的图像数据集。这种方法在处理有关重点数据的单独信息源时,相比其他方法更为切实可行。同时,这种生成更多数据的能力不仅仅可用于处理小数据集。如果单个数据的细节为敏感信息(例如,个人的健康记录),但研究人员对数据的整体分布很感兴趣,则可以使用合成数据对数据进行随机更改,以掩盖私人信息。
贝叶斯方法(Bayesian methods)是机器学习和统计学的一种大类方法,有两个共同特点。首先,该方法明确地将问题先验信息纳入其解决问题的方法中,而其他方法则更倾向于对研究问题做出最少的假设。贝叶斯方法会在数据进一步改进之前合并这些“先验”信息,因此更适合某些数据较为缺乏,但可以采取实用数学形式写出问题相关信息的环境。其次,贝叶斯方法侧重于对其预测的不确定性进行良好校准后的估计。该方法可以更容易地识别数据点,从而极大减少不确定性,在可用数据有限的情况下能发挥很大作用。
例如,贝叶斯方法已被用于监测全球地震活动,这对于检测地震和验证核条约十分重要。通过开发一个模型,结合有关地震学的先验知识,研究人员可以充分利用可用数据改进模型。此外,贝叶斯方法还包括处理大型数据集的其他方法。
强化学习(Reinforcement learning)是一个关于机器学习方法的广义术语,在强化学习中,计算机系统通过反复试验来学习如何与环境进行交互。强化学习通常用于训练游戏系统、机器人和自动驾驶汽车。
例如,强化学习已被用于训练学习玩视频游戏的人工智能系统,从简单的街机游戏(如Pong)到战略游戏(如《星际争霸》)。在各种情况下,系统开始时都对如何玩游戏知之甚少或一无所知,但能逐步尝试,观察能产生积极奖励信号的操作,从而逐渐学习游戏规则。
强化学习系统通常最终是从大量数据中学习,需要大量的计算资源,但其使用的数据通常是在系统训练时生成,即数据产生于模拟环境,不需要提前收集和标记。在强化学习问题中,计算机系统与环境交互的能力至关重要。
值得注意的是,人工智能和机器学习研究融合了多种不同的方法、途径和范例,用于解决多个不同类型的问题,在实践中,很难完全分开以上五种方法类别。图1展示了这些方法间的相互连接关系。每个点代表一类研究集群1,集群之间连线的粗细程度代表了集群之间的引用强度。可以看出,虽然各集群与同一类别其他集群的联系的确最多,但不同类别的集群之间也存在大量联系。“强化学习”类别下的集群更为连贯一致,而“人工数据生成”集群则更加分散。
图1:小数据研究集群网络图“小数据”方法的意义
与数据密集型方法相比,不依赖预先收集和标记的大型数据集的人工智能方法具有很多优势。
(一)减少大小实体之间的能力差异
很多人工智能应用的大型数据集价值不断增长,同时不同机构收集、存储和处理所需数据的能力存在差异,这有可能在人工智能“拥有者”(如大型科技企业)与人工智能“匮乏者”(如小型机构)之间形成差距。对此,迁移学习、自动标记、贝叶斯方法等小数据方法能够以较少的数据应用人工智能,将有助于减少小型机构进入数据领域的壁垒,缩小大小实体之间的能力差异。
(二)减少收集大量个人数据的动机
多项调查表明,人们认为大型科技企业会持续收集越来越多与个人身份相关的消费者数据,用于训练其人工智能算法,并由此引发人们对人工智能威胁个人隐私的担忧。对此,某些小数据方法通过人工生成新数据(如合成数据生成),或对算法进行模拟训练,将有效去除敏感的个人可识别属性,从而减少为训练机器学习模型而收集真实世界数据的需要,减轻人们对大规模收集、使用或泄露消费者数据的担忧。
(三)推动在可获得数据点较少的领域取得进展
小数据方法可以为人们提供一种处理数据匮乏或缺失情况的可靠途径,解决面对重要问题时,输入人工智能系统的数据很少或不存在的情况。例如,为一组没有电子健康记录的人构建一个疾病风险预测算法,或者预测有很长喷发周期的火山再次喷发的可能性。小数据方法可以利用标记和无标记数据从相关问题中迁移知识,利用人们手头的少量数据点创建更多数据点,利用与研究领域相关的先验知识,或通过构建模拟场景或编码结构化假设来进入一个全新领域。
(四)规避脏数据问题
在数据利用过程中,要获得干净、结构整齐、方便研究的数据常常需要付出大量努力。对此,迁移学习、贝叶斯方法或人工数据生成方法可以通过分别依赖相关数据集、结构化模型和合成数据,减少需要清理的数据量,从而显著降低脏数据问题的规模。例如,美国国防部由于数据基础设施和遗留系统分散孤立的原因拥有大量“脏数据”,需要耗费大量人力和时间对数据进行清理、标记和组织,而数据标记类别中的方法可以自动生成标记,从而更轻松地处理大量无标记数据。
研究发现
本节介绍了从相关论文研究集群中的发现,涉及“小数据”方法研究进展、领先国家状况及支持研究的主要资金来源。共为5个类别确定了150个研究集群,包含约80324篇论文,这些论文来自安全与新兴技术中心的学术文献合并语料库(截至2021年2月12日),包含全球90%以上的学术成果。下表为所用研究集群的基本信息。
表1:各个“小数据”类别中研究集群的基本信息
(一)各类别“小数据”方法研究进展
在研究数量方面,五类“小数据”方法在过去十年中存在发展程度不同步的问题。如图2所示,强化学习和贝叶斯方法相关研究论文最多,其中,贝叶斯集群中的论文数在过去十年内持续稳步增长,但强化学习集群从2015年才开始增长,在2017-2019年间增长尤为迅速。这可能与深度强化学习在近年来取得的革命性进展有关,在2015年之前,该领域一直遭受技术挑战。相比之下,人工数据生成和数据标记研究集群中的每年论文发表数量在十年间一直保持在相当低的水平。迁移学习在2010年规模很小,到2020年已有大幅度增长。
图2:2010—2020年小数据出版物趋势
在论文质量方面,本研究利用两个指标评估各类集群中论文的质量:H指数和年龄校正引用。H指数是一种常用的度量标准,能够获取一组论文的出版活动和总引用影响。年龄校正引用则可以调整H指数中新发表论文积累引用次数偏低的局限。由图可得,就H指数而言,强化学习领域和贝叶斯方法领域旗鼓相当;但考虑论文的年龄后,强化学习便跃居首位。这意味着本研究中贝叶斯方法的累积影响更高,强化学习领域由于近期论文发表和引用影响激增而脱颖而出。
图3:2010—2020年各类别小数据方法H指数和年龄校正引用
此外,由图4可得,强化学习并非是过去十年内增长最快的领域。在2011—2020年间,除了其中两年外,迁移学习呈最快的稳定增长趋势。该图表还显示了过去5年内人工数据生成领域的增长情况,但由于此类别的论文总数较少,且2012-2015增长数出现最大降幅,因此很难得出这一类别增长轨迹的具体结论。
图4:2011—2020年各类别小数据方法同比增长
图5根据安全与新兴技术中心开发的预测模型,以“人工智能整体”论文类别为基准,比较了各类别小数据方法的三年增长情况。根据预测,迁移学习是唯一一个增长速度超过人工智能整体研究的类别,遥遥领先于所有其他类别,并保持着前几年的持续增长趋势。
注:未来增长指数是根据安全与新兴技术中心对研究集群增长的预测计算得出的。图5:2023年各类别小数据方法增长预测(二)“小数据”方法领域各国竞争力分析
本节查看了全球前十的国家在每种方法中取得的研究进展,并据此探究各国在小数据方法领域的竞争力。本研究使用简单的衡量标准,如发表的论文数量和调整年龄后的引用数量,以初步获得各国在各个类别中的相对地位情况。
表2显示了小数据出版物数量排名前十的国家各类别论文总量。与人工智能整体研究的结果一致,中国和美国是本研究集群中所含论文的前两大发表国,英国紧随其后。中国在数据标记和迁移学习方法领域的学术出版物总量最多,而美国在贝叶斯方法、强化学习和人工数据生成方面领先。
表2:全球前十国家各类别小数据方法出版物数量基于论文引用数来衡量研究质量和影响力,研究结果表明,中国的大量研究是大多数小数据类别中的高质量研究。如表2所示,根据年龄校正引用(可以粗略解释为每年的引用次数),中国在迁移学习和数据标记方法领域持续处于领先地位,唯一表现不足的是贝叶斯方法领域,中国在该领域的研究影响排名第三,低于英国。这意味着与其他方法相比,该类别相关研究的质量和影响力不太理想。在美国方面,其研究质量表现情况与其年龄校正引用的排名一致。
表3:全球前十国家各类别小数据方法年龄校正引用数量
图6显示了各国三年增长预测。值得注意的是,相对于美国和世界其他地区,预计中国将会在迁移学习方法领域有大幅增长。如果预测准确,这一预测将意味着中国可能在迁移学习方面取得进一步发展,至少从论文发表数量来看是这样。
图6:美国、中国和世界其他地区2023年各类别小数据方法增长预测
(三)“小数据”方法研究的资金投入情况
本研究分析了可用于小数据方法的投资数据,以获得为本研究集群中所含论文提供投资的实体类型的估计。需要注意的是,本研究只有大约20—30%涉及论文的投资信息,但有无投资数据支撑的论文应该不存在系统性差异。下表列出了按实体类型划分的5种小数据类别和人工智能整体研究领域的受投资论文百分比。
表4按实体类型划分的受投资论文百分比
在所有学科中的政府机构、企业、学术机构和非营利机构中,政府主体往往是最大的研究投资者,而作者大多隶属于学术机构。基于这一点,本研究将小数据研究结果与人工智能整体研究结果进行了比较,以了解二者的差异程度。有趣的是,在全球范围内,相比于人工智能整体研究,政府资金在本研究集群中的份额占比更大,如图7所示。本研究发现,相比于对人工智能其他领域的投资,非营利机构对小数据研究领域的投资占比较小。贝叶斯方法的投资模式与人工智能整体的投资模式最为相似。
图7:相比于人工智能整体研究投资的小数据方法领域资金来源
图8进一步按国家划分了与政府实体相关的投资信息。研究结果表明,尽管就总体趋势而言,政府对小数据领域的投资占比很高,但美国政府对小数据研究的投资份额低于其对人工智能研究领域的投资份额。
图8:中国、美国和世界其他地区相比于人工智能整体研究领域的小数据方法领域政府投资
图9显示了私营部门实体对小数据研究的投资份额数据。相比于人工智能整体研究,美国的私营行业企业倾向于对小数据研究领域提供更多资金。
图9:中国、美国和世界其他地区相比于人工智能整体研究领域的小数据方法领域企业投资
图10显示了各国研究信托和基金会等非营利机构对小数据领域的投资趋势。相比于人工智能整体研究领域,美国和世界其他地区的非营利机构对小数据研究的投资往往不足。相比之下,除了在人工数据生成领域中国非营利机构的投资份额较低外,中国的非营利机构更倾向于对小数据类别进行投资。
图10:中国、美国和世界其他地区相比于人工智能整体研究领域的小数据方法领域非盈利机构投资
最后,图11显示了学术机构对小数据研究类别的投资模式。需要注意的是,与上述其他两种实体类型相比,学术机构对小数据研究的投资份额,与其对所有人工智能研究的投资份额差异很小,不到1%。因此可以得出结论,各国学术界对小数据研究的投资模式反映了其对所有人工智能研究方法的投资模式。
图11:中国、美国和世界其他地区相比于人工智能整体研究领域的小数据方法领域学术机构投资
研究结论
本文介绍并概述了一系列用于人工智能的“小数据”方法,本研究基于发现,提出了以下要点:
1、人工智能不等同于大数据,尤其是不等同于预先标记的大型数据集。虽然在过去十年中,大数据在人工智能热潮中发挥了不可磨灭的作用,但将大规模数据收集和标记作为人工智能发展的先决条件是错误的。小数据替代方法多种多样,可在不同的环境中以不同方式使用,例如,如果手头问题的数据稀缺,但相关问题的数据丰富,那么迁移学习可能会发挥作用;如果问题可通过进入模拟或真实环境加以解决,计算机系统可以通过试错而不是预先收集的数据进行学习,则可能需要强化学习方法。
2、迁移学习相关研究的增长尤其迅速,甚至比范围更广、更为人熟知的强化学习领域增长更快。也就是说,这种方法在未来可能比现在更有成效,并得到更广泛的应用。因此,如果政策制定者缺乏与重点问题相关的数据,那么通过寻求相关数据集,实施迁移学习方法,或许能够解决这一困难。
3、美国和中国正在小数据方法领域竞争激烈,美国在强化学习和贝叶斯方法这两个最大类别中居于领先地位,中国则在增长最快的迁移学习类别中保持微小但不断增长的领先优势。
4、美国政府可能会在迁移学习领域进行更多投资。相对于在整个人工智能领域的投资模式,美国政府在小数据方法领域的投资份额较小。这可能是因为美国政府没有优先考虑这些领域的研究,或因为美国的私营部门倾向于在这些方法的研究领域投入更高比例的资金。无论哪种原因,鉴于迁移学习是一个快速发展的新兴领域,美国政府可能会增加对该领域的资金投入。
译自:Small Data's Big AI Potential September 2021 by the Center for Securityand Emerging Technology
原文标题:《小数据人工智能的巨大潜力》来源:赛迪智库编辑:晓燕指导:新文
延伸阅读:5G发牌三年
发牌三年:5G成稳经济大盘坚强数字底座
发牌三年:5G商业成功了吗?
发牌三年:中国5G最大创新是什么?
发牌三年:“5G+工业互联网”和是多少?
谁是5G力量:推动5G发展产业贡献榜TOP20
创新者:5G发牌三年的编辑选择——优秀产品技术方案
发牌三年:“5G+工业互联网”十大标杆应用案例
适度超前之路:一张图看5G发牌三年
一张图看5G发牌三年成绩单
发牌三年看专利:中国5G标准必要专利已占全球40%
5G正当时,点亮数智未来
定方向、创技术、赢商业:5G-A如何驶入快车道?
赛迪:从政府工作报告看产业科技自立自强新方向重磅报告:《2021年全球创新指数》
声明:以上内容来源于网络,如有侵权请联系我们(123@shiyan.com)删除! |
|