——访北京邮电大学人工智能学院教授邓伟洪、中国信通院云大所内容科技部副主任石霖


(相关资料图)

  微软发布“ChatGPT版必应”(人工智能增强型搜索引擎),市值飙涨超800亿美元;谷歌紧急推出对话式AI服务Bard,演示“翻车”导致市值蒸发千亿美元;百度官宣将发布类ChatGPT项目“文心一言”(ERNIE Bot)……ChatGPT近期持续霸榜科技论坛热搜,2023 开年的人工智能赛道激战正酣。

  ChatGPT何以成为AI圈“顶流”?人工智能领域有哪些突破性进展?从“昙花一现”到成为“得力助手”,人工智能技术发展面临哪些挑战?针对上述问题,《人民邮电》报记者采访了北京邮电大学人工智能学院教授邓伟洪和中国信通院云大所内容科技部副主任(主持工作)石霖。

  更智能的服务体验引领知识获取方式变革

  记者:ChatGPT爆火的背后原因是什么?能够激发哪些应用创新?

  邓伟洪:技术上,GPT(Generative Pre-training Transformer)的全称是生成式预训练Transformer,是一个新型语言模型,ChatGPT是一个学习了多领域知识(知识量比人类都大)和问答机制的智能系统,是一个高效的内容生产工具。

  2018年,GPT模型在NLP(自然语言处理)领域已经开始火起来了,最近ChatGPT在朋友圈和微博刷屏了,已经获取了亿级用户。ChatGPT的交互界面是一个聊天框。类似应用十多年前就有了,最近爆火的原因是它的回答内容非常准确、专业、全面,让非专业的普通民众近距离、实实在在地感受到类似于人类的人工智能。

  ChatGPT未来的应用场景很多,基于大量语料和知识图谱的学习,给出一系列的回答,它将推动基础模型和通用智能的研究。

  最直接的影响就是改变我们获取知识的方式。通过问答形式来获得知识,同时得到经过归纳的答案,而不是搜索零散的网页。这种搜索方式更加自然,微软已经率先整合进入必应搜索引擎,很多AI企业也在跟进。

  在内容生成方面,ChatGPT能够根据给定主题和观点生成论文、文案、诗歌、剧本等,它的观点和知识都很全面。例如,对于市场营销和文化教育行业,它将大大提高内容产出效率。

  通过对开源代码库的学习,它已经有了写代码和改正代码错误的能力。对于低端重复性的开发需求,只需要一行需求指令,就可以生成基础代码,将编程效率提高数倍。不过,目前的需求分析还不能被取代。

  此外,像在智能客服、办事攻略、行业咨询等问答场景中,它能够代替一些机械性、重复性的劳动,从而提高各行业信息获取的效率。

  石霖:我觉得主要有三个方面的原因。一是人们对数字内容需求的不断加大。近年来,随着信息通信技术的不断发展,人们对数字世界更加依赖,对内容的质量、时效、数量、多样性和个性化都提出了更高的要求。而传统的内容生成方式受限于产能和质量,难于满足迅速增长的内容需求。以ChatGPT为代表的AIGC打破了这一局面,有望成为未来数字世界的基础设施。

  二是智能生成技术应用的不断成熟。人们对智能生成的研究一直在探索,早期的算法多基于预先定义的规则或模板,还算不上是“智能”。深度学习创新发展加速了智能生成技术的发展,特别是大模型在工程上的优化改进,使得智能生成技术应用具备了强交互、强理解和强生成能力。

  三是智能生成类技术应用给用户带来了全新体验。ChatGPT基于海量的互联网公开数据训练而成,支持多语种、多轮次交互对话,且具备一定的“通用”智能,用户几乎可以向它问任何问题,这种全新的用户体验,使得全球用户都成了它的宣传员,这在很大程度上促进了它的火爆。

  以ChatGPT为代表的智能生成技术在应用场景上也不断创新。除了ChatGPT所体现的智能对话、写文章、写代码外,智能生成技术应用还可以作画、作曲、制作电影,且应用范围还在进一步探索,有的甚至在工业设计、药物生产等方面进行了实践,帮助降低试验成本和缩短研发周期,帮助提升社会生产力。

  

ChatGPT类应用火出圈儿,背后是生成式AI、大模型和预训练技术的突破

  记者:近年来,人工智能领域有哪些突破性进展?

  石霖:近两年,人工智能领域最具突破性的进展就是AIGC,也就是智能生成类的技术应用。特别是2022年,AIGC异军突起,智能生成新范式已初步被市场认可,迅速成为人工智能技术热门方向。一方面是文本生成技术方向,2022年11月,OpenAI推出ChatGPT,背后的技术由GPT-3.5模型支持,其采用指令微调(instruction tuning)并引入人类反馈中强化学习(RLHF)技术,较上一代GPT-3而言,能够生成中立、客观、安全和翔实的答案,因其文本交互能力接近于人类水平,上线两个月后月活跃用户数已破亿。另一方面是图像生成方向,主要是扩散模型Diffusion的应用落地。国际上部分企业开始推出基于扩散模型的产品服务。Open AI、谷歌等研究机构和企业从2021年开始就推出一系列视觉大模型,其中DALL.E 2、Imagen等都是基于扩散模型技术实现的。国内智源研究院大模型研究团队开源了扩散模型,可以实现中文直接生成图像。值得一提的是,以Stable Diffusion模型闻名的新晋独角兽Stability AI获巨额融资,商业化价值初步显现,其推出的Stable Diffusion成为近期最火的扩散模型,在生成图像的质量、速度和成本上都取得了巨大突破。Stable Diffusion于2022年8月开源,在不到两个月的时间内就突破了33K的点赞数量,成为攀升到Github 10K点赞最快的软件之一。2022年10月,Stability AI获得超过一亿美元的融资,估值突破十亿美元,其面向消费者的产品DreamStudio注册用户数已经超过150万,共同创建了超过1.7亿张图像。

  邓伟洪:近两年AI领域取得了很大进展,其中生成式AI、大模型和预训练技术备受关注,这三项突破都与ChatGPT有关。

  生成式AI即借助AI生成内容,包括生成语言文字、语音、图像、视频、三维模型等,2015年出现了生成对抗网络,前两年提出的扩散模型进一步提升了AI绘画和图像视频的效果,甚至展现了艺术上的创造性,给了人们强人工智能的感觉。ChatGPT也是AI生成文本的里程碑式的工作。

  以Transformer为代表的模型,它的输入特征维度和内部注意力模块数量的倍增,达到了千亿甚至万亿参数规模,对训练数据的理解和生成能力都不断提高,通过多任务协同学习,识别和生成的性能不断提高,至今为止人们依然没有看到边际效应。ChatGPT的核心技术就是Transformer结构,是一个非常成功的“大语言模型”。

  自监督的预训练技术利用数据内部的结构进行自我约束,可以在没有人工标注的情况下学习。例如补全一句话或者一幅图,通过过去的视频来预测未来的视频等,能够在没有人工标注的情况下,对网络模型的参数进行学习,从而降低目标任务的海量标注压力。ChatGPT就是在自监督预训练的基础上,进一步引入了人工标注反馈来进行强化学习,获得了突破性的性能。

用户访问情况对比

  盈利模式、科技伦理治理体系仍需探索

  记者:从昙花一现到真正成为人类的得力助手,人工智能技术发展面临哪些挑战?

  邓伟洪:ChatGPT已经可以辅助人类完成很多重复性的劳动,但它与人类的思维方式和能力还有明显差距,在因果推理、多模态分析以及成本消耗等方面仍有不少挑战。

  GPT是典型的数据驱动模型,它理解知识的原则是“共生则关联”。因此,GPT生成的文案可能会一本正经地胡说八道,存在术语的明显错误、使用的数据不可靠、语法正确但逻辑混乱等问题。目前看来,基于GPT的应用其推理分析能力还比较弱,例如无法解答小学生的“鸡兔同笼”问题等。

  虽然ChatGPT的强化学习使其具备拒绝回答敏感问题的能力,但其生成的文本仍会带有训练语料中的偏见。GPT-3生成的文章可能存在性别、民族、种族或宗教偏见。如果人们都使用ChatGPT来获取知识,它的偏见就会影响人们的价值观,带来很大的社会问题。

  GPT目前擅长处理语言文字交流,而人类的理解是语音、视觉、触觉、味觉等的多模态感知,后续GPT 需要重点突破多模态感知和对话的能力。

  此外,GPT模型很大,标注、训练和应用的成本高昂,目前的盈利模式仍需探索。

  石霖:我个人认为,主要有两方面的挑战。第一方面是ChatGPT自身的问题,比如它的高昂的研发、运营成本。网上公开的资料显示,OpenAI研发和运营投入巨大,高度依赖于微软算力支持。根据ChatGPT参数规模估计,OpenAI使用微软Azure AI超级计算系统需耗费数月才能完成模型训练,训练一次成本约为460万美元,搭建类似系统的硬件投入约上亿美元。

  ChatGPT运营成本高昂,按照百万级别用户量计算,每月运行成本约为300万美元。整体上看,智能生成类应用目前仍处于打磨产品阶段,从“能用”到“好用”还有很长的路要走,比如它不能像搜索引擎一样实时使用互联网数据、回答的答案不准确等。在业务模式、商业模式上还有待时间的检验。

  第二方面是ChatGPT类的智能生成技术应用带来的问题,主要集中在内容治理、版权制度、科技伦理方面。

  智能生成技术应用助长虚假信息的传播,给网络信息内容治理带来新挑战。随着生成的内容愈发逼真,应用的门槛也在不断降低,人人都能轻松实现“换脸”“变声”,制作虚假信息。

  智能生成技术应用还将提升“网络水军”的隐匿性,可能会被用于恶意炒作。网络攻击和电信网络欺诈成本严重降低,普通网民可使用智能生成技术实现钓鱼邮件和恶意代码的快速生成,信息安全的防范难度极大增加。美国研究机构CheckPoint已报告了利用ChatGPT进行网络攻击的可能性。

  智能生成技术应用将冲击现有的版权制度。一方面,用户输入简单指令生成的创作内容是否能够享有版权仍然存在较大争议。另一方面,用户主动创作与引导机器创作的内容交织杂糅,版权溯源难题进一步凸显。当前,国外部分高校已将利用ChatGPT撰写论文列为学术不端行为。

  智能生成技术应用还将带来科技伦理治理难题。由于创作过程的不可解释性,导致以ChatGPT为代表的智能生成产品输出结果存在极大的不确定性和不稳定性,对于当前科技伦理治理手段造成冲击,影响了公众对智能生成技术应用的信任。(记者 吴双)

推荐内容