继“大模型”之后,具身智能被业界认为将掀起人工智能领域的下一个浪潮。
日前,在北京市科学技术协会主办的“互联网3.0:未来互联网产业发展论坛”上,北京航空航天大学机器人研究所名誉所长、中关村智友研究院院长王田苗提出,具身智能正在迈向“奇点”时刻,他预测到2035年,具身智能将达到380亿美元的市场规模。不过在此之前,还需要解决一系列技术挑战。
具身智能,是人工智能在物理世界的进一步延伸。它是实现思考、感知、行动三者有机智能融合的机器或系统,既具有人机交互与自然语言理解的能力,同时又可以通过感知、认知、决策与时变环境及对象进行实时校准互动,协助人完成相应的决策与行动任务。
王田苗介绍,近五年来,一些重要的科技进展为具身智能的发展提供了有利条件,诸如大模型实现了语义逻辑推理,使机器人执行复杂任务成为可能;人形机器人的结构、电机驱动、视觉感知等有了突破,使机器人有望在制造业、商业、危险作业、家庭养老等领域发挥作用;脑机接口技术通过对脑电信号进行编解码,可以助力残疾人实现对外部设备的控制,这些进展已经将具身智能推向了技术爆发的门口。但他也毫不讳言地指出,当前,机器人在很多环境下还比较“智障”,不能理解场景需求,也无法排除干扰。
所以,人们试图用“感知大模型”提高机器人在现实中的智能水平,试图给各类机器人装上一个通用的“大脑”。这在咨询对话型具身智能上可以看到一定进展,不少人已经在酒店、展览等场景下体验过。但是,这类“具身智能”还不能自主地行动和劳动,而要取得实质性突破,在王田苗看来,还需要攻破一些难题。
“我们已经在语言、视觉大模型上取得了进展,但在机器人领域还未找到类似的模型。而机器人大模型的突破,才能为通用人工智能机器人的研发奠定基础。”王田苗说。
他说,从进化的角度来看,如何协调语言认知智能、行为智能和视觉智能等三个计算空间,并高效地利用真实、优质、海量的数据,也还需要突破。
如果突破了这些技术瓶颈,具身智能可能最先从哪些场景落地?
据王田苗了解,人们确实呼唤具身智能在不同场景上应用。但目前学术界和工业界的共识是,具身智能的目的是提高生产力,不是为了替代人类的工作,未来其主要应用场景可能更多聚焦于那些人类不愿做或难以胜任的任务。
他认为,学术界思考的是从解决复杂需求入手,而工业界强调生产的效率。为此,具身智能的应用可能会先从商务场景开始,包括物流、低空经济等。此外,农业劳作以及工业场景中的危险化工、核工业等也可能会较早落地。他说:“最后才有可能走向家庭,因为走向家庭涉及安全问题、成本问题、伦理问题等。”