深度研报：人工智能机器人开启第四次科技革命

普通女青年 · 发表于 2022-7-14 07:25:21

图片来源@视觉中国

文 | 光锥智能&势乘资本，作者 | 谢晨星、王嘉攀、赵江宇

在互联网红利基本散尽的时代，未来到底属于web3、元宇宙，还是碳中和？到底什么样的革命性技术可以引领人类社会走出经济衰退、疫情和战争的影响，并将全球经济体量再向上推动数十倍？

我们的答案是，我们早已处于人工智能时代之中。

我们正处于传统信息技术时代的黄昏，和人工智能时代的黎明。

在过去的260年间，人类社会经历了三次巨大的科技创新浪潮，蒸汽机、电力和信息技术，将全球GDP提升了近千倍。每一次科技浪潮都通过某一项先进生产力要素的突破，进而引起大多数行业的变革：比如蒸汽机的出现推动了汽车、火车、轮船、钢铁等行业的巨大发展，140年前美国铁路行业的恶性竞争史，就如同现今互联网行业BAT之间的竞争。而铁路行业发展、兼并所需的巨额金融资本，又驱动了华尔街的发展，逐渐成为全球的金融中心。

二战之后以信息技术为核心的第三次科技革命迄今已逾70年，将全球GDP提升约60倍。其中可分为两段：1950年-1990年，是半导体产业迅猛发展的时代，推动了大型计算机向个人PC的小型化；1990年至今是近30年的互联网全球化时代，而互联网时代又细分为桌面互联网和移动互联网两段。

但随着摩尔定律的失效和信息技术红利彻底用尽，加上疫情黑天鹅影响，全球GDP衰退，引发并加剧了全球地缘政治和军事冲突，开始向逆全球化发展。

所以未来到底属于web3、元宇宙，还是碳中和？到底什么样的革命性技术可以引领人类社会走出经济衰退、疫情和战争的影响，并将全球经济体量再向上推动增长下一个50倍？

我们的答案是，我们早已处于人工智能时代之中。就像直到2010年iphone4发布，绝大多数人也并未意识到移动互联网革命早已开始一样，如今人工智能其实也已广泛应用，比如到处遍布的摄像头和手机人脸识别，微信语音和文本转换，抖音动态美颜特效、推荐算法，家庭扫地机器人和餐厅送餐机器人，背后都是人工智能核心技术在过去十年不断取得的巨大突破。

互联网已经是传统行业。

互联网技术作为过去30年最先进的生产力要素，改变了全球的所有人、所有产业、社会经济，甚至是政治、军事、宗教。

虽然互联网的技术红利已基本用尽，但我们仍可通过研究其历史规律，来预测未来新技术发展的可能路径。

30年的互联网发展历程总体可分为桌面互联网和移动互联网两个时代，按产业渗透规律，又可分为信息互联网、消费互联网和产业互联网三大阶段。

系统硬件都是最先起步，包括底层芯片、操作系统、联网通信、整机等，进而初步向媒体工具、文娱游戏行业渗透，因为这些领域最易受新技术的影响。当2002年中国网民达到6000万人，2012年中国智能手机出货量达到2亿部之后，互联网和移动互联网开始全面开花，渗透变革了直接to C的众多行业，如零售消费、交通出行、教育、金融、汽车、居住、医疗等。而当用户量进一步上涨、新技术的渗透进一步加深，企业服务、物流、制造、农业、能源等to B产业被影响。

而这个过程中可以发现，移动互联网时代对产业的渗透深度比桌面互联网更深，桌面互联网介入行业基本停留在信息连接层面，而到移动互联网时代，众多掌握先进技术要素的公司开始自己下场开超市、组车队、重构教育内容和金融机构，甚至是卖房、造车。也有些公司虽然诞生在桌面时代，但成功抓住移动爆发红利杀出重围，比如美团、去哪儿、支付宝。

抖音的崛起是中国移动互联网时代的最大变数，也是数据通信传输技术不断提升的必然，引发了用户流量结构的重组，进而催生了一大批抓住抖音流量红利崛起的消费品牌，如完美日记、花西子等等。但最终都逃不过被平台收割的命运，就像当年淘品牌的结局一样。微信支付、支付宝的普及极大推动了线下连锁零售的数字化程度和管理半径，减少了上下游现金收款产生的风险，促使其在资本市场被重新认可，连锁化率进一步提升，比如喜茶、瑞幸、Manner等等。这两条逻辑共同构成了过去几年的消费投资热潮主线。

如何评判一个新技术是否能引领未来的发展方向？

我们要看它能否从本质上解放生产力、发展生产力。

蒸汽机之所以推动了第一次科技革命，是因为其极大的提升了劳动生产力，并将大量劳动人口从第一产业农业的低级劳动中解放出来，进入第二产业工业。电力加速了这一过程，并推动了第三产业服务业的出现和发展。信息技术将更多的人口从第一、二产业中释放，进入第三产业（如大量年轻人不再进厂而去送外卖、跑滴滴），于是形成了如今全球第三产业GDP占比55%，中国第三产业劳动人口占比50%的格局。

机器人即是人工智能技术的硬件形态，在可见的未来，将第一二三产业的劳动人口从低级劳动中大比例释放和替代，并在这个过程中推动全球GDP继续百倍增长。

同时可大胆预言，以创新为职业的第四产业将会出现，而这个职业在人类的历史长河中其实一直存在于第一二三产业的边缘，不断用突破性创新推动着人类技术的进步，且社会生产力的提升促使该职业人群不断扩大。这大约能证明刘慈欣的技术爆炸假说来源。

人工智能从模块上可分为感知、计算和控制三大部分，由表及里可分为应用层、数据层、算法层、算力层，而随着2012年芯片进入28nm制程后的量子隧穿效应导致摩尔定律失效，“每提升一倍算力，就需要一倍能源”的后摩尔定律或将成为人工智能时代的核心驱动逻辑，算力的发展将极大受制于能源，当前全球用于制造算力芯片的能源占全球用电量的约1%，可以预测在人工智能大规模普及的未来数十年后，该比例将会大幅提升至50%甚至90%以上。而全球如何在减少化石能源、提升清洁能源占比，从而确保减少碳排放遏制全球升温的同时，持续提升能源使用量级，将推动一系列能源技术革命。关于该方向的研究可参考我们的另一篇报告《碳中和：能源技术新革命》。

早在第一次科技革命之前260年，哥伦布地理大发现就使西班牙成为了第一个全球化霸主。蒸汽机驱动英国打败西班牙无敌舰队，电力和两次世界大战使美国超过英国，信息技术又让美国赢得和苏联的冷战对抗，全球过了30年相对和平的单极霸权格局。

因此中国如果仅在现有技术框架中与欧美竞争，只会不断被卡脖子，事倍功半。只有引领下一代人工智能和碳中和能源技术科技革命浪潮，才能从全球竞争中胜出。

尽管中国已经跻身人工智能领域的大国，但是我们必须认识到中美之间在AI领域依旧有着明显的差距。从投资金额和布局上看，从2013年到2021年，美国对人工智能公司的私人投资是中国的2倍多。当前美国AI企业数量领先中国，布局在整个产业链上，尤其在算法、芯片等产业核心领域积累了强大的技术创新优势。更关键的是，尽管近年来中国在人工智能领域的论文和专利数量保持高速增长，但中国AI研究的质量与美国依旧有较大差距（集中体现在AI顶会论文的引用量的差距上）。

请输入图说2013-2021年中美在AI领域私有部门（如风险投资、个人投资等）投资金额上差距逐渐拉大

请输入图说中国在AI顶会上发表的文章数量已经反超美国，但影响力上依旧与美国有较大差距

图片来源：The 2022 AI Index Report, Standford University

因此，中国需要持续加大在AI领域的研发费用规模，特别是加大基础学科的人才培养，吸引全世界优秀的AI人才。只有这样，中国才能有朝一日赶超美国，在基础学科建设、专利及论文发表、高端研发人才、创业投资和领军企业等关键环节上的拥有自己的优势，形成持久领军世界的格局。

一、AI发展简史

人工智能的概念第一次被提出是在1956年达特茅斯夏季人工智能研究会议上。当时的科学家主要讨论了计算机科学领域尚未解决的问题，期待通过模拟人类大脑的运行，解决一些特定领域的具体问题（例如开发几何定理证明器）。

那么到底什么是人工智能？目前看来，Stuart Russell与Peter Norvig在《人工智能：一种现代的方法》一书中的定义最为准确：人工智能是有关“智能主体（Intelligent agent）的研究与设计”的学问，而“智能主体”是指一个可以观察周遭环境并做出行动以达致目标的系统。这个定义既强调了人工智能可以根据环境感知做出主动反应，又强调人工智能所做出的反应必须达成目标，同时没有给人造成“人工智能是对人类思维方式或人类总结的思维法则的模仿”这种错觉。

到目前为止，人工智能一共经历了三波浪潮。

第一次AI浪潮与图灵和他提出的“图灵测试”紧密相关。图灵测试刚提出没几年，人们似乎就看到了计算机通过图灵测试的曙光：1966年MIT教授Joseph Weizenbaum发明了一个可以和人对话的小程序——Eliza（取名字萧伯纳的戏剧《茶花女》），轰动世界。但是Eliza的程序原理和源代码显示，Eliza本质是一个在话题库里通过关键字映射的方式，根据人的问话回复设定好的答语的程序。不过现在人们认为，Eliza是微软小冰、Siri、Allo和Alexa的真正鼻祖。图灵测试以及为了通过图灵测试而开展的技术研发，都在过去的几十年时间里推动了人工智能，特别是自然语言处理技术（NLP）的飞速发展。

第二次AI浪潮出现在1980-1990年代，语音识别（ASR）是最具代表性的几项突破性进展之一。在当时，语音识别主要分成两大流派：专家系统和概率系统。专家系统严重依赖人类的语言学知识，可拓展性和可适应性都很差，难以解决“不特定语者、大词汇、连续性语音识别”这三大难题。而概率系统则基于大型的语音数据语料库，使用统计模型进行语音识别工作。中国学者李开复在这个领域取得了很大成果，基本上宣告了以专家系统为代表的符号主义学派（Symbolic AI）在语音识别领域的失败。通过引入统计模型，语音识别的准确率提升了一个层次。

第三次AI浪潮起始于2006年，很大程度上归功于深度学习的实用化进程。深度学习兴起建立在以Geoffrey Hinton为代表的科学家数十年的积累基础之上。简单地说，深度学习就是把计算机要学习的东西看成一大堆数据，把这些数据丢进一个复杂的、包含多个层级的数据处理网络（深度神经网络），然后检查经过这个网络处理得到的结果数据是不是符合要求——如果符合，就保留这个网络作为目标模型；如果不符合，就一次次地、锲而不舍地调整网络的参数设置，直到输出满足要求为止。本质上，指导深度学习的是一种“实用主义”的思想。实用主义思想让深度学习的感知能力（建模能力）远强于传统的机器学习方法，但也意味着人们难以说出模型中变量的选择、参数的取值与最终的感知能力之间的因果关系。

需要特别说明的是，人们往往容易将深度学习与“机器学习”这一概念混淆。事实上，在1956年人工智能的概念第一次被提出后，Arthur Samuel就提出：机器学习研究和构建的是一种特殊的算法而非某一个特定的算法，是一个宽泛的概念，指的是利用算法使得计算机能够像人一样从数据中挖掘出信息；而深度学习只是机器学习的一个子集，是比其他学习方法使用了更多的参数、模型也更加复杂的一系列算法。简单地说，深度学习就是把计算机要学习的东西看成一大堆数据，把这些数据丢进一个复杂的、包含多个层级的数据处理网络（深度神经网络），然后检查经过这个网络处理得到的结果数据是不是符合要求——如果符合，就保留这个网络作为目标模型，如果不符合，就一次次地、锲而不舍地调整网络的参数设置，直到输出满足要求为止。本质上，指导深度学习的是一种“实用主义”的思想。实用主义思想让深度学习的感知能力（建模能力）远强于传统的机器学习方法，但也意味着人们难以说出模型中变量的选择、参数的取值与最终的感知能力之间的因果关系。

二、AI的三大基石解析

如前所述，人工智能由表及里可分为应用层、数据层、算法层和算力层。

1.算力

算力层包括具备计算能力硬件和大数据基础设施。回顾历史我们就会发现，历次算力层的发展都会显著推动算法层的进步，并促使技术的普及应用。21世纪互联网大规模服务集群的出现、搜索和电商业务带来的大数据积累、GPU和异构/低功耗芯片兴起带来的运算力提升，促成了深度学习的诞生，促成了人工智能的这一波爆发。而AI芯片的出现进一步显著提高了数据处理速度：在CPU的基础上，出现了擅长并行计算的GPU，以及拥有良好运行能效比、更适合深度学习模型的现场可编程门阵列（FPGA)和应用专用集成电路（ASIC）。

当前，人工智能的算力层面临巨大的挑战。随着2012年芯片28nm的工艺出现，原先通过在平面上增加晶体管的数量来提升芯片性能的思路因为量子隧穿效应而不再可取，摩尔定律开始失效。晶体管MOSFET这个芯片里最基础的单元，由平面结构变成立体结构（由下图中的Planar结构转向FinFET结构，2018年之后进一步从FinFET结构转向GAAFET结构）。

三代MOSFET的栅极结构演化。其中灰色代表电流流经区域，绿色代表充当闸门的栅极

芯片结构的改变直接导致了芯片制造步骤的增加，最终体现为成本的上升。在2012年28nm工艺的时候，处理器的生产大概需要450步。到了2021年的5nm工艺时，生产环节已经增加到了1200步。对应到每1亿个栅极的制造成本上，我们从图中可以清楚地看到，从90 nm 工艺到7nm工艺，生产成本先下降后上升。这就使得摩尔定律的另一种表述形式——“同样性能的新品价格每18-24个月减半”不再成立。未来我们很可能见到的情况是，搭载了顶级技术和工艺生产出来的芯片的电子产品或设备价格高昂，超过了一般消费者的承受力度。

每 1 亿个栅极的制造成本、图片来源：Marvell Technology, 2020 Investor Day

不过算力层的这个变化让半导体制造企业受益最大，因为只要需求存在，台积电、三星、英特尔等几家掌握先进工艺的厂商就会持续投入资金和人力，不断设计和制造新一代芯片，然后根据自身成本给产品定价。

想要彻底解决摩尔定律失效的问题，需要跳出当前芯片设计的冯·诺依曼结构。类脑芯片、存算一体、寻找基于硅以外的新材料制造芯片，甚至量子计算等等都是潜力巨大的解决方案，但是这些方案距离成熟落地还非常遥远（最乐观地估计也需要几十年的时间），无法解决当下芯片行业的困局。在这段时期内，行业内为了提升芯片性能，开始广泛应用Chiplet技术，或者使用碳基芯片、光芯片等等。

Chiplet技术

Chiplet技术的原理有点类似搭积木，简单来说就是把一堆小芯片组合成一块大芯片。这种技术能够以较低的成本制造过于复杂的芯片，并且保证足够优秀的良率，从2012年开始就逐步被使用。当前Chiplet技术已经能够在二维平面上实现用不同的材料和工艺加工拼接的小核心，Intel等公司正在把Chiplet技术引入新的阶段发展：在垂直方向上堆叠多层小核心，进一步提升芯片的性能（例如Intel于2018年开发的Foveros 3D Chiplet）。不过Chiplet技术路线面临的最大问题来源于芯片热管理方面：如果在三维结构上堆叠多层小核心，传统的通过CPU顶部铜盖一个面散热的方案将无法解决发热问题，因此可能需要在芯片的内部嵌入冷却装置来解决发热功率过高的问题。

碳纳米管技术

使用碳纳米管可能是另一个短期解决方案。这项技术属于碳基芯片领域，具体来说就是用碳纳米管承担芯片里基础元件开关的功能，而不是像传统芯片一样使用掺杂的半导体硅来传输电子。这种技术的优势在于导电性好、散热快、寿命长，而且由于其本质上依旧保留了冯·诺依曼架构，当前的生产工艺、产业链等匹配设施都不需要做出太大的调整。但是目前碳纳米管的大规模生产和应用还有一些困难，距离把碳纳米管按照芯片设计的要求制造出来可能还需要几十年。

短期内，围绕Chiplet技术在热管理方面的探索，和碳纳米管技术的灵活生产制造突破是算力层面上我们重点关注的机会。当然，我们也要了解目前类脑芯片、存算一体和量子计算等终局解决方案的相关情况。这里为大家简单介绍如下：

类脑芯片

类脑芯片的灵感源于人脑。类脑芯片和传统结构的差异体现在两方面：第一，类脑芯片中数据的读取、存储和计算是在同一个单元中同时完成的，也即“存算一体”；第二，单元之间的连接像人类神经元之间的连接一样，依靠“事件驱动。

目前，类脑芯片的相关研究分为两派。一派认为需要了解清楚人脑的工作原理，才能模仿人类大脑设计出新的结构。但是目前人类对人脑的基本原理理解得依旧很粗浅，因此这一派取得的进展相当有限。另外一派则认为，可以先基于当前已有的生物学知识，比照人脑的基础单元设计出一些结构，然后不断试验、优化、取得成果，实现突破。目前这一派的研究人员依照神经元的基础结构，给类脑芯片做了一些数学描述，也搭建了模型，并且做出了不少可以运行的芯片。

存算一体

存算一体可以简单被概括为“用存储电荷的方式实现计算”，彻底解决了冯诺依曼结构中“存储”和“计算”两个步骤速度不匹配的问题（事实上，在以硅为基础的半导体芯片出现之后，存算速度不匹配的情况就一直存在）。存算一体机构在计算深度学习相关的任务时表现突出，能耗大约是当前传统计算设备的百分之一，能够大大提升人工智能的性能。除此之外，这种芯片在VR和AR眼镜等可穿戴设备上有广阔的应用前景，也能推动更高分辨率的显示设备价格进一步降低。

目前，存算一体依旧有两个问题没有突破：第一是基础单元（忆阻器）的精度不高，其次是缺少算法，在应对除了矩阵乘法以外的计算问题时表现远不如冯·诺依曼结构的芯片。

量子计算

量子计算是用特殊的方法控制若干个处于量子叠加态的原子，也叫作“量子”，通过指定的量子态来实现计算。量子计算机最适合的是面对一大堆可能性的时候，可以同时对所有可能性做运算。为了从所有的结果中找一个统计规律，我们需要使用量子计算机进行多次计算。不过由于退相干的问题，量子计算很容易出错。目前量子计算的纠错方法有待突破，只有解决了这个问题量子计算才可能被普遍使用。

当前量子计算机体积过大、运行环境严苛、造价昂贵。目前来看量子计算与经典计算不是取代与被取代的关系，而是在对算力要求极高的特定场景中发挥其高速并行计算的独特优势。中科大的量子物理学家陆朝阳曾总结道，“到目前为止，真正可以从量子计算中受益的实际问题依旧非常有限，享受指数级加速的就更少了——其他的仅有更有限的加速”。

总体而言，量子计算机的相关成果都只停留在科学研究的阶段，距离实际应用还很遥远。

2.算法

算法层指各类机器学习算法。如果根据训练方法来分类，机器学习算法也可以分成“无监督学习”、“监督学习”和“强化学习”等。按照解决问题的类型来分，机器学习算法包括计算机视觉算法（CV）、自然语言处理算法（NLP）、语音处理和识别算法（ASR）、智慧决策算法（DMS）等。每个算法大类下又有多个具体子技术，这里我们为大家简单介绍：

2.1 计算机视觉

计算机视觉的历史可以追溯到1966年，当时人工智能学家Minsky要求学生编写一个程序，让计算机向人类呈现它通过摄像头看到了什么。到了1970-1980年代，科学家试图从人类看东西的方法中获得借鉴。这一阶段计算机视觉主要应用于光学字符识别、工件识别、显微/航空图片的识别等领域。

到了90年代，计算机视觉技术取得了更大的发展，也开始广泛应用于工业领域。一方面是由于GPU、DSP等图像处理硬件技术有了飞速进步；另一方面是人们也开始尝试不同的算法，包括统计方法和局部特征描述符的引入。进入21世纪，以往许多基于规则的处理方式，都被机器学习所替代，算法自行从海量数据中总结归纳物体的特征，然后进行识别和判断。这一阶段涌现出了非常多的应用，包括相机人脸检测、安防人脸识别、车牌识别等等。

2010年以后，深度学习的应用将各类视觉相关任务的识别精度大幅提升，拓展了计算机视觉技术的应用场景：除了在安防领域应用外，计算机视觉也被应用于商品拍照搜索、智能影像诊断、照片自动分类等场景。

再细分地来看，计算机视觉领域主要包括图像处理、图像识别和检测，以及图像理解等分支：

图像处理：

图像识别和检测：

图像理解：

总体而言，计算机视觉已经达到了娱乐用、工具用的初级阶段。未来，计算机视觉有望进入自主理解、甚至分析决策的高级阶段，真正赋予机器“看”的能力，从而在智能家居、无人车等应用场景发挥更大的价值。

2.2 语音识别

第一个真正基于电子计算机的语音识别系统出现在1952年。1980年代，随着全球性的电传业务积累了大量文本可作为机读语料用于模型的训练和统计，语音识别技术取得突破：这一时期研究的重点是大词汇量、非特定人的连续语音识别。1990年代，语音识别技术基本成熟，但识别效果与真正实用还有一定距离，语音识别研究的进展也逐渐趋缓。

随着深度神经网络被应用到语音的声学建模中，人们陆续在音素识别任务和大词汇量连续语音识别任务上取得突破。而随着循环神经网络（RNN）的引入，语音识别效果进一步得到提升，在许多（尤其是近场）语音识别任务上达到了可以进入人们日常生活的标准。以Apple Siri为代表的智能语音助手、以Echo为首的智能硬件等应用的普及又进一步扩充了语料资源的收集渠道，为语言和声学模型的训练储备了丰富的燃料，使得构建大规模通用语言模型和声学模型成为可能。

与语音识别紧密关联的是语音处理。语音处理为我们提供了语音转文字、多语言翻译、虚拟助手等一系列软件。一个完整的语音处理系统，包括前端的信号处理、中间的语音语义识别和对话管理（更多涉及自然语言处理），以及后期的语音合成。

前端信号处理：

说话人声检测、回声消除、唤醒词识别、麦克风阵列处理、语音增强。

语音识别：

语音合成：

2.3 自然语言处理

早在1950年代，人们就有了自然语言处理的任务需求，其中最典型的就是机器翻译。到了1990年代，随着计算机的计算速度和存储量大幅增加、大规模真实文本的积累产生，以及被互联网发展激发出的、以网页搜索为代表的基于自然语言的信息检索和抽取需求出现，自然语言处理进入了发展繁荣期。在传统的基于规则的处理技术中，人们引入了更多数据驱动的统计方法，将自然语言处理的研究推向了一个新高度。

进入2010年以后，基于大数据和浅层、深层学习技术，自然语言处理的效果得到了进一步优化，出现了专门的智能翻译产品、客服机器人、智能助手等产品。这一时期的一个重要里程碑事件是IBM研发的Watson系统参加综艺问答节目Jeopardy。机器翻译方面，谷歌推出的神经网络机器翻译（GNMT）相比传统的基于词组的机器翻译（PBMT），在翻译的准确率上取得了非常强劲的提升。

自然语言处理从流程上看，分成自然语言理解（NLU）和自然语言生成（NLG)两部分，这里我们简单为大家介绍知识图谱、语义理解、对话管理等研究方向。

知识图谱：

语义理解：

对话管理：

2.4 规划决策系统

真正基于人工智能的规划决策系统出现在电子计算机诞生之后。1990年代，硬件性能、算法能力等都得到了大幅提升，在1997年IBM研发的深蓝（Deep Blue）战胜国际象棋大师卡斯帕罗夫。到了2016年，硬件层面出现了基于GPU、TPU的并行计算，算法层面出现了蒙特卡洛决策树与深度神经网络的结合。人类在完美信息博弈的游戏中已彻底输给机器，只能在不完美信息的德州扑克和麻将中苟延残喘。人们从棋类游戏中积累的知识和经验，也被应用在更广泛的需要决策规划的领域，包括机器人控制、无人车等等。

2.5 算法的发展趋势和面临的瓶颈

近年来。处在机器学习也产生了几个重要的研究方向，例如从解决凸优化问题到解决非凸优化问题，以及从监督学习向非监督学习、强化学习的演进：

从解决凸优化问题到解决非凸优化问题

目前机器学习中的大部分问题，都可以通过加上一定的约束条件，转化或近似为一个凸优化问题。凸优化问题是指将所有的考虑因素表示为一组函数，然后从中选出一个最优解。而凸优化问题的一个很好的特性是局部最优就是全局最优。这个特性使得人们能通过梯度下降法寻找到下降的方向，找到的局部最优解就会是全局最优解。

然而在现实生活中，真正符合凸优化性质的问题其实并不多，目前对凸优化问题的关注仅仅是因为这类问题更容易解决。人们现在还缺乏针对非凸优化问题的行之有效的算法。

从监督学习向非监督学习、强化学习的演进

目前来看，大部分的AI应用都是通过监督学习，利用一组已标注的训练数据，对分类器的参数进行调整，使其达到所要求的性能。但在现实生活中，监督学习不足以被称为“智能”。对照人类的学习过程，许多都是建立在与事物的交互中，通过人类自身的体会、领悟，得到对事物的理解，并将之应用于未来的生活中。而机器的局限就在于缺乏这些“常识”。

无监督学习领域近期的研究重点在于“生成对抗网络”（GANs），而强化学习的一个重要研究方向在于建立一个有效的、与真实世界存在交互的仿真模拟环境，不断训练，模拟采取各种动作、接受各种反馈，以此对模型进行训练。

从“堆数据”到研发低训练成本的算法

MIT Digital Lab的研究者联合韩国的相关机构在2020年发表了一项基于1058篇深度学习的论文和数据的研究。在分析了现有的深度学习论文成果后，研究人员提出了一个悲观的预言：深度学习会随着计算量的限制，在到达某个性能水平后停滞不前，因为在深度学习领域有这样一条规律：想提升 X 倍的性能，最少需要用 X^2倍的数据去训练模型，且这个过程要消耗X^4倍的计算量。即便是10倍性能提升和1万倍计算量的提升，这样失衡的比例关系也仅仅是理论上最优的。在现实中，提升10倍性能往往要搭上10亿倍的运算量。以今天地球资源的状况看，想把一些常用的模型错误率降低到人们满意的程度，代价高到人类不能承受。因此，在深度学习领域非常值得关注的是可大幅降低训练成本的新算法创新。

图像分类、物体识别、语义问答等多个领域AI算法准确率及对应所需算力(Gflops）、碳排放量和经济成本

（Today水平截止于2020年已经发表的成果）

3.数据

数据层指的是人工智能为不同的行业提供解决方案时所采集和利用的数据。事实上，使用人工智能解决问题的步骤绝不仅仅包括搜集和整理数据。这里我们简单介绍一下完整的流程和思路：

收集数据：

数据准备：

模型选

择：

训练：

评估：

参数调整：

预测：

如果我们想利用人工智能解决的问题被限定在足够小的领域内，那么我们就更容易活动具体场景下的训练数据，从而更高效、更有针对性地训练模型。在金融、律政、医疗等行业的细分场景下，人工智能已经逐步被应用，且已经实现了一定的商业化。

一、为什么是机器人

1.机器人的外延及框架

虽然机器人产业已有超过60年发展史，在传统【工业机器人】及【服务机器人】分析框架下，全球机器人产业仅有300-400亿美元行业规模，但我们认为，在智能化加持下，机器人的外延及边界已被数倍扩大，新物种的诞生及传统设备的智能化将共同驱动“机器人”产业十倍及百倍增长。

概括来讲，机器人普遍存在的意义是“为人类服务”的可运动智能设备，包括机器人对于人类劳动的替代、完成人类所无法完成任务的能力延伸以及情感陪伴等价值。

面对人类对于物质及精神永不停止的需求增长，相对于元宇宙，机器人将会是“现实宇宙”中的最佳供给方案。

2.AI将会带给机器人怎样的质变

（1）智能化大幅提升

可软件升级：

规模效应：

可适用性大幅增加：

（2）智能化带来的场景适用性提升

AI技术将会是机器人全面爆发的最大变量，机器人产业的爆发极有可能是新物种引领；例如近三年全面爆发的机器人项目，在10年前几乎不存在（例如九号公司、石头科技、普渡、擎朗、云迹、高仙、梅卡曼德、极智嘉等）。

二、为什么是现在？

1.劳动力替代及升级趋势不可逆

2.成熟的技术与产业基础

我们认为，智能手机及智能汽车产业的发展，实质上为现阶段智能机器人产业爆发奠定了大量技术基础：

感知层面：

决策层面：

环境基础：

三、如何判断未来十年新机遇

1.从职业场景出发 —— 寻找未被满足的大赛道

数个万亿级、数十个千亿级、上百个百亿级工作场景

数据来源：国家统计局等机构

上图部分职业又可细分出上百个环节（根据“十四五”机器人发展规划）

（1）制造业：焊接、自动搬运、防爆物品生产、分拣、包装、协作生产、打磨、装配等工作

（2）建筑业：建筑部件智能化生产、测量、材料配送、钢筋加工、混凝土浇筑、楼面墙面装饰装修、构部件安装、焊接等工作

（3）农业：可进一步拆分为果园除草、精准植保、果蔬剪枝、采摘收获、分选，以及用于畜禽养殖业的喂料、巡检、清淤泥、清网衣附着物、消毒处理等工作

（4）矿业：采掘、支护、钻孔、巡检、重载辅助运输等工作

（5）医疗康复：手术、护理、检查、康复、咨询、配送等工作

（6）养老助残：助行、助浴、物品递送、情感陪护、智能假肢等应用

（7）家用场景：家务劳动、教育、娱乐、安防监控等工作

（8）公共场所：讲解导引、餐饮、配送、代步等工作

（9）水下场景：水下探测、监测、作业、深海矿产资源开发等工作

（10）安防场景：安保巡逻、缉私安检、反恐防暴、勘查取证、交通管理、边防管理、治安管控等工作

（11）危险环境作业：消防、应急救援、安全巡检、核工业操作、海洋捕捞等工作

（12）卫生防疫：检验采样、消毒清洁、室内配送、辅助移位、辅助巡诊查房、重症护理辅助操作等工作

2.从技术可行性出发 —— 细分场景的实现难度

（1）从【场景是否单一】及【工作复杂度】两个维度进行分析

分析一项职业被机器人替代的难度，我们认为可以落入以下四个象限进行分析；其中场景维度指该项工作是否需要适应多变的环境，是否需要转移；复杂度指完成该项工作需要的知识储备多少及解决问题的难度

A. 单一场景、低复杂度：例如简单的加工制造工序、搬运、安保、清洁、农业养殖等劳动更容易率先实现机器替代

B. 单一场景、高复杂度：例如绘画、音乐演奏、作家、医生、教育、财务、销售、厨师等场景

C. 多场景、低复杂度：例如应对不同场景下的无人驾驶，不同种类的家务劳动

D. 多场景、高复杂度：例如警察、外交官、企业管理人员、研发创新等工作

（2）从机器与人类的思维长处分析

3.从经济性出发 —— 替代人效比

如何判断某个细分场景下，是否已经到达了机器人应用拐点？我们认为核心指标是替代人效比，即机器人的购买及维护成本相对于同岗位人力成本的回本周期

四、机器人智能化三要素解析

感知、决策

控制

感知要素：

眼、鼻、耳

决策要素：

思考要素是三个要素中的关键

控制要素：

从商业机会的角度来讲，三大要素并不是独立割裂的

1.感知 —— 机器人感觉器官

（1）传感器分类

内部传感器：

外部传感器：

（2）传感器在智能机器人的应用

视觉和接近传感器：

触觉传感器：

射频识别（RFID）传感器：

声学传感器（麦克风）：

湿温度传感器：

运动稳定性感知：

传感器微型化趋势：

（3）多传感器融合是未来趋势

2.决策 —— 机器人大脑

机器人决策我们认为是最具场景差异化的部分，因为不同职业场景下的工作方式、思维逻辑是大相径庭的；在机器人算法与决策方面的创业团队需要非常熟悉场景需求，提炼出标准化的操作流程，然后应用于机器人软硬件控制中。

想要让机器人解决问题我们需要完成三个步骤：第一，明确问题的方向和边界；第二，建立数学模型；最后，找到合适的算法解决问题。这里我们重点讨论将复杂的现实问题转化为数学语言的“建模”过程和选择算法的过程。

建模的第一步需要确定假设。我们需要先明确想让机器人做出什么样精度的决策，以及能否实现，从而确定需要考虑和舍弃哪些要素。在确定了重要变量和核心关系后，我们就把复杂的现实问题转化成计算机可以理解、算法可以处理的数学问题。确定假设后，常识能帮助我们验证模型，但是多数情况下需要我们不断地将模型和现实问题作比较，从而把现实问题尽可能无损地映射进计算机里面。

在建立了模型后，我们需要选择合适的算法来解决不同模型对应的具体现实问题。在进行算法选择的时候需要具体问题具体分析，兼顾“质量”与“效率”。比如同样是让计算机处理图像数据，家庭场景下的扫地机器人和专门用来处理天文观测数据的计算机对算法要求就不一样：前者要求在较快的时间内完成对图像精准度适中的处理，而后者对时间则无感，对精准度有极高的要求。也正是因为绝大多数问题不存在唯一解或者绝对正确的解，算法工程师需要根据机器人工作的场景和目标做出最合适的取舍。

在机器人决策环节中，让机器人自身的硬件处理多少计算任务是一个关键的问题。通常情况下，如果任务的执行依赖于多个机器人采集的多点数据，那么计算任务就更可能在多点数据汇集起来后，被放在远端的云服务器上进行处理。比如，如果有大量的机器人在特定的街区内追捕嫌犯，那么我们就需要所有机器人把采集到的图像等信息上传到云端处理，在一个“大脑中枢”规划了每一个机器人的路径后，每个机器人执行自己所接收到的指令。当然，多数情况下应用云计算的场景是，每个机器人自身的芯片算力不足或者单位能耗过大。云计算提供了一种更加经济的算力解决方案，帮助机器人解决所面临的问题。在此基础上，为了避免网络带宽不足、处理时间过长等问题，人们还会使用边缘计算、雾计算等方案。

以上是机器人决策部分所需要考虑的共性问题。当然，不同场景下机器人所面临的的决策问题非常不同，我们认为这也是机器人应用中最具场景差异化的部分。不过站在更高的维度上进行抽象后，我们依然能够发现大多数机器人都需要面对三大类决策问题：按照什么规则移动位置——移动决策、按照什么规则调整自身——机械臂运动决策，以及如何保障贯彻人类指令——人机交互决策。

（1）平面移动能力

（2）三维空间运动能力

摄影

（3）人机交互能力

3.控制 —— 机器人运动能力

（1）常见的运动控制部件

数据来源：公司公告、浙商证券研究所，部分国产份额为预估值

（2）机器人运动如何进一步发展

a. 机器人柔顺控制

位置控制：

阻抗控制：

b. 机器人攀爬步态规划

c. 控制系统的整合与设计

五、产业图谱及值得关注的方向

1.智能机器人产业图谱

2.值得关注的细分方向

（1）清洁等服务场景机器人

（Scale Partners根据公开信息整理）

（2）建筑场景机器人

（Scale Partners根据公开信息整理）

（3）农业场景机器人

（Scale Partners根据公开信息整理）

（4）空中巡检及水下等特殊场景机器人

（Scale Partners根据公开信息整理）

（5）机器人感知技术

（Scale Partners根据公开信息整理）

（6）机器人运动控制技术

（Scale Partners根据公开信息整理）

核心结论汇总

1.人工智能开启第四次科技革命，在传统三大产业劳动力大幅替代及释放的前提下，以创新为职业的“第四产业”劳动者将成为主流，推动全球GDP继续百倍增长。

2.作为人工智能的实体化，智能机器人将重塑生产协作关系，包括“劳动”在生产要素中的变革、全球制造业的格局重构、人类在物质世界及虚拟世界的精力分配……除经济外，甚至对军事、政治、文化产生深远影响。

3.在全球十亿量级的智能手机、百万量级的智能汽车产业引路的前提下，电池、5G、算力、智能驾驶、感知等通用性技术日趋成熟，当前十万量级的智能机器人将成为下一代爆发的超级终端。

4.机构在智能机器人领域投的不只是智能硬件或国产替代，而是在押注未来数个万亿级、数十个千亿级、上百个百亿级职业场景的无人化。在未来，机器人还将推动专业、细分领域的服务普及化，例如让更多人低成本、便捷地享受到高质量的情感陪伴、心理干预治疗等服务。

5.在劳动力无人化逻辑下，未来机器人即服务(RaaS,Robot as a Service)将成为主流模式，机器人项目服务粘性可能会堪比SaaS行业。在特定场景获得先发优势的企业有望凭借“数据采集→算法迭代→性能提升”的飞轮，进一步扩大其在该领域的领先地位。

6.对于未来新场景的挖掘：可将现有细分职业与无人化解决方案按图索骥分析未被满足的场景，智能机器人对于人工的替代将从大场景、低复杂度入手，逐步向中小型场景、高复杂度渗透。

7.对于细分场景技术实现难度：可从机器人劳动的场景多变性及工作复杂度两个维度来判断；此外也需要结合人类及机器人固有的思维长处。

8.对于商业可行性：通常机器人成本vs人工月成本的 ROI ＜ 48个月时，该细分赛道会有产品出现，客户开始考虑尝试；ROI ＜ 24个月，客户开始批量购买测试；ROI ＜ 12个月，市场开始全面爆发。

声明：以上内容来源于网络，如有侵权请联系我们(123@shiyan.com)删除！

无敌软妹子 · 发表于 2022-7-14 07:27:58

人工智能机

無恙 · 发表于 2022-7-14 07:31:25

[加油][加油][加油]

城市大秀场

深度研报：人工智能机器人开启第四次科技革命

相关帖子

发表回复