多模态人机交互让虚拟人“活了”

“你好，小布！附近有什么好吃的？”用户的话音刚落，手机上就出现了一个小窗口，附近饭店的排名便一目了然。对话中的“小布”是OPPO手机自带的智能助手，在前段时间成为业界首个基于“虚拟人”多模态交互的手机智能助手。去年年末，“虚拟人”市场快速升温。除OPPO之外，京东、百度、阿里巴巴等科技企业都推出了自己的超写实数字人，B站还专门为虚拟主播开设分区，“虚拟人”已经走进了人们的生活。

“虚拟人”受到热捧的重要原因之一，是人们对人机交互的更深层次需要。从单纯的文本到语音，再到计算机视觉等技术的融合，人的天性更倾向于融合视觉、听觉等多种感官的交互过程。而“虚拟人”背后的多模态人机交互技术，恰好能够满足人们对外界信息获取逐渐升维的需求，让“虚拟人”看起来像人、听起来像人，更加具备人的温度。

“虚拟人”背后的技术支撑

人机交互走过了键盘交互、触摸交互、语音交互等若干阶段。如今，由于用户对人机交互的便利性、自然性以及准确性提出了更高要求，更加智能化且能够理解用户意图的多模态人机交互，开始成为人机交互发展的重要趋势。

在接受采访时，OPPO小布助手首席架构师万玉龙向《中国电子报》记者表示，当深度学习算法在各技术方向逐渐趋于产业化后，智能交互变得愈发重要。在这之后，传感器、视觉技术、语音技术和自然语言处理技术等都进行了迭代升级，多种技术的融合形成了多模态人机交互方式。

通过文字、语音、视觉的理解和生成，结合动作识别和驱动、环境感知等多种方式，多模态人机交互能够充分模拟人与人之间的交互方式。万玉龙举例，在地铁、银行、商场等复杂环境下的服务类机器人就是结合传感器、人脸识别、语音交互等技术，来帮助人们完成信息查询、购票、商家导航等任务。

现阶段，多模态人机交互领域最火的代表就是“虚拟人”了。万玉龙向记者表示，得益于元宇宙概念的大火，“虚拟人”这一元宇宙世界的“小切口”也得到了业界的广泛关注。

2021年第三季度，OPPO推出智能助手小布的首个“虚拟人”版本，为“虚拟人”市场再添一把火。相关资料显示，小布“虚拟人”涵盖了视觉、语音、自然语言处理等多模态融合算法，采用多种基础创新技术，可以实现与用户在多个场景生态下的内容服务、实时交互以及情感化交互。

作为多模态人机交互领域的重要成果之一，“虚拟人”依靠前端声学处理、语音唤醒、语音识别、对话理解和管理、语音合成、计算机视觉和图形学等技术支撑。万玉龙告诉记者，语音交互是在对话理解的基础上，通过对话管理生成对应的回复话语和内容服务，结合语音合成技术（TTS）生成播报音频；虚拟人多模态交互则需要在此基础上，进一步理解播报文本所蕴含的表达信息，通过文本和语音分析，生成对应的表情、口形和动作。

“除了口形以外，要想呈现出眼部、脸部的表情，以及我们说话或者非常开心时做出的动作，都需要3D人物设计和建模，并实时地根据表达内容预测人物身体各部位的驱动参数，进而结合渲染引擎实现对人物模型的驱动。”万玉龙举例，某个人在说“大”的时候，他的口型就会张得很大，然后说字母“O”的时候，口型会呈现出一个圆形。

为了让智能助手变得更加智能，人机互动过程还会涉及知识图谱、内容推荐等宽泛的技术领域。

AI学习还需要大量数据积累

现阶段，虚拟人在三个环节上存在关键性的技术难点。万玉龙向《中国电子报》记者指出，第一，从形象生成来说，用户会越来越希望他们所构建出来的“虚拟人”十分逼真，比如发丝、衣服的纹理等很细致入微的特点都能完美呈现。只有“虚拟人”真正像一个活生生的人站在用户面前，用户才能感觉到自己与虚拟人之间的距离被拉近。

“但要实现这一点，涉及的技术其实非常多，处理起来会非常困难，且制作成本居高不下。”万玉龙对记者坦言。

第二，在形象驱动方面，“虚拟人”的行动需要呈现得更加流畅和自然，而不是像机器人那样僵硬。人在交流表达的时候，不管是手、眼还是表情，所有的肢体动作都是根据表达的内容和情绪变化的。但“虚拟人”想要达到这点，还需要更强大的AI机器学习和深度学习能力。AI只有在积累了大量真人表情、肢体表达的数据之后，才会慢慢趋近于真人，但这是一个非常漫长的过程。

第三，形象互动对于虚拟人来说尤为重要，因为“虚拟人”最大的卖点就在于互动性。如果“虚拟人”不能为用户提供自然、舒适的交互体验，用户很快就会失去兴趣。但这种互动性的提升其实并不简单。比如，人在回答问题时，通常会结合语句上下文，运用自己的背景知识很快给出合适的答复。智能虚拟人助手则需要通过学习大量人跟人的对话数据，来构建和丰富知识库。这些数据的获取并非易事，因为AI学习所需的数据量十分庞大，且需要不断更新，其中的难度不言而喻。而且，在获得数据之后，AI还需要对获取的数据进行质量把控和筛选，很难做到逐一排查。AI如果没有辨别能力，在学习完数据之后很难对学习到的内容进行修改，所以有些不合时宜的语句很可能会对用户造成不良影响。

另外，假设人们问AI一个知识点，它也许会从知乎或者其他网站上选一个答案进行反馈，但这就涉及知识产权的问题，同时AI所学习到的知识也无法保证具有绝对专业性。比如，人们在生病的时候不能去询问智能虚拟人助手自己该吃什么药，因为无法保证所获取的答案的专业性。如果“虚拟人”助手给出一个错误的答案，人照做了健康就可能会出现问题。综上所述，“虚拟人”要想与用户进行无障碍且自然流畅的交流，还需要更多的技术积累与沉淀。

向具备更多应用价值的领域拓展

尽管“虚拟人”在技术上尚存难点，但近年来，底层技术其实也在不断进步。万玉龙对《中国电子报》记者表示，不管是语音识别、对话理解、语音合成等语音交互技术，还是唇形驱动、表情驱动等多模态驱动参数预测技术，建模流程和方案都变得更加简单。

“从机器学习的模型层面来说，算法的迭代已经让模型训练和调优进入到了门槛越来越低的阶段。”万玉龙表示。

算力的提升也会让“虚拟人”形象更加接近真人。万玉龙告诉记者，手机等设备端的算力正变得越来越强，云端服务器的算力也在不断增强，促使AI工程师们可以生成更加复杂、更加真实的人物形象。

2021年，英伟达CEO黄仁勋的一段“虚拟人”演讲视频风靡全球，英伟达推出的Omniverse平台进一步走入大众视野。据了解，Omniverse平台是英伟达推出的实时3D设计协作和虚拟世界模拟平台，旨在通过将图形、AI、模拟技术和可扩展计算整合到一个平台上，成为连接虚拟世界的基础。

万玉龙表示，借助自身强大的GPU算力，英伟达构建了一个看上去比较真实的人物形象。这进一步表明，目前的算力确实提升了一个台阶，算力的提高也让超写实人物的渲染变得更具可行性。一方面是对话式AI技术的不断升级，另一方面就是虚拟人物的形象构建能力越来越强，整个对话体验也变得更加智能。对话理解、知识图谱等认知能力的建设更上一层楼，助力“虚拟人”产品化的能力日益提升。

有人说，汽车是下一代移动终端，有望成为实现人机互动、情感交互的移动载体。那么，“虚拟人”是否有可能出现在智能座舱领域？

在万玉龙看来，不管是手机还是汽车，其实都可以被视为智能交互载体。OPPO推出的小布“虚拟人”目前的着力点主要还是在提升手机、电视、可穿戴设备等智能设备的交互体验。万玉龙表示，在智能座舱等设备形成一定的规模之后，智能助手在这些设备中一定会有与用户频繁交互的机会，所以必然会产生一些场景的应用价值。只要是有应用价值的领域，“虚拟人”的触角其实都是可望又可即的。（记者张依依许子皓）