原文:《AIGC:Web3时代的生产力工具》
作者:宋嘉吉、金郁欣
AIGC(AI-Generated Content 人工智能生成内容)代表新一轮范式转移的开始。近期,硅谷的众多一线 VC 们开始将目光瞄准 AI 初创公司,尤其是生成式 AI 艺术这一领域。今年有两家独角兽 Stability 和 Jasper 均获得了超过一亿美元的融资,估值突破十亿美元。AIGC 赛道火爆不仅得益于技术进步、商业应用广泛和需求增长,还归功于该赛道还处于早期。虽然大型科技公司捕获了大量价值,初创企业仍有机会突破。
AIGC 将是 Web3 时代的生产力工具。当我们迈入 Web3.0 时代,人工智能、关联数据和语义网络构建,形成人与网络的全新链接,内容消费需求飞速增长。UGC\PGC 这样的内容生成方式将难以匹配扩张的需求。AIGC 将是新的元宇宙内容生成解决方案。AIGC 的生成利用人工智能学习知识图谱、自动生成,在内容的创作为人类提供协助或是完全由 AI 产生内容。不仅能帮助提高内容生成的效率,还能提高内容的多样性。随着 NLP(Natural Language Processing,自然语言处理)技术和扩散模型(Diffusion Model)的发展,AI 不再仅作为内容创造的辅助工具,创造生成内容成为了可能。由此,将来文字生成、图片绘制、视频剪辑、游戏内容生成皆可由 AI 替代。
AIGC 技术主要涉及两个方面:自然语言处理 NLP 和 AIGC 生成算法。自然语言处理是实现人与计算机之间如何通过自然语言进行交互的手段。AIGC 生成算法主流的有生成对抗网络 GAN 和扩散模型。扩散模型已经拥有了成为下一代图像生成模型的代表的潜力。它具有精度更高、可扩展性和并行性,无论是质量还是效率均有所提升,其快速发展成为 AIGC 增长的拐点性因素。同时,在机器学习的过程中,需要通过大量的训练来实现更准确的结果,目前以英伟达 A100 为主,对于底层算力需求将有飞速增长。
AIGC 在文字、图像、音频、游戏和代码生成中商业模型渐显。近期我们研究了国内外数十家 AIGC 相关企业,尤其在一些具备高重复性的任务、对于精度要求并不那么高的领域应用已逐步成熟,并在探索商业模式中。目前图片生产、文字生成较为常见,这类 AIGC 服务大多数时候会以提供 SaaS 服务的形式变现。
AIGC 未来发展核心:大模型、大数据与大算力。结合自然语言的大模型与数据集已成为 AIGC 发展的软件基础,OpenAI 的 Clip 模型基于 4 亿组高质量的英文图文对应数据训练而成;算力即权力将在 AIGC 数字时代更加凸显, Stable Diffusion 目前依赖于 4000 个英伟达 A100 的 GPU 集群,运营成本超 5000 万美金。为了让功能更加精确,未来还将更多地基于语种去开发垂直类的应用,便于更有目的性地为特定功能进行训练。
AIGC 投资框架:软硬件与数据集。生成算法、NLP 与算力决定 AIGC 能否运行,而高质量的数据集决定了 AIGC 质量与商业模式。
风险提示:技术创新不及预期:AIGC 的技术发展不及预期。以及底层硬件技术,如:超级计算机、算力的发展不及预期。政策监管风险:目前 AIGC 还处于相对早期,后续是否会出台 AIGC 作品相关知识版权或其他法律监管条款尚不明确。
近期,硅谷的众多一线 VC 们开始将目光瞄准 AI 初创公司,尤其是生成式 AI 艺术这一领域。今年 9 月 23 日,红杉美国官网发表了一篇名为《生成式 AI:一个创造性的新世界》的文章,认为 AIGC(AI-Generated Content 人工智能生成内容)会代表新一轮范式转移的开始。
2022 年 10 月,英国开源人工智能公司 Stability AI 宣布获得 1.01 亿美元融资,估值高达 10 亿美元,跻身独角兽行列,由 Coatue、Lightspeed Venture Partners 和 O’Shaughnessy Ventures LLC 参与投资。Stability AI 今年发布了 Stable Diffusion 的模型,主要用于根据用户输入的文字描述自动生成图像。Stable Diffusion 的诞生让 AI 绘画这个领域愈发火爆。最近,巴比特正式对外宣布,全面拥抱 AIGC,开始规模化采用 AI 配图,其中头条图片,全面由 AI 创作。包括但不限于巴比特网站和 APP,微信公众号、百家号、网易号等自媒体平台,以及微博等社交媒体账号。
除了绘画以外,文字、音频、视频均可通过 AI 来生成。
文字:以 Jasper 为例,以 AI 文字生成为主打产品,通过其文字生成功能,用户可以生成 Instagram 标题,编写 TikTok 视频脚本、广告营销文本、电子邮件内容等工作。截止 2021 年,Japer 已拥有超过 70000 位客户,并创造了 4000 万美元的收入。
音频:以 Podcast.ai 为例,作为一个由 AI 生成的博客,每周都会探讨一个话题。在第一期节目中,其通过乔布斯的传记和收集网络上关于他的所有录音,Play.ht 的语言模型大量训练,最终生成了一段假 Joe Rogan 采访乔布斯的播客内容。
视频:目前的 AI 技术不仅可以生成图片,也能够生成序列帧,如:《幻觉东京》。经过 160 小时,完成 3 万多张独立插画,再进行手动微调。虽然目前还只是在原脚本和视频的基础上,通过 AI 逐帧完成图片生成的,但看到了 AIGC 参与到视频创作中的可能。而在诸多垂直类应用中,如体育、财经等,已经可以通过文字直接生成相应的短视频,如果配上虚拟人则可以实现自动播报。相比于单一的虚拟人读稿,基于 AIGC 生产的内容在镜头转换、表情动作结合方面更加逼真、自然。
随着 NLP(Natural Language Processing,自然语言处理)技术和扩散模型(Diffusion Model)的发展,AI 创造生成内容成为了可能。此前,内容生成主要运用 GAN(Generative Adversarial Network,生成对抗网络)来实现的,GAN 不同于扩散模型依赖于超大规模语言模型,因此难以实现通过文字的描述,自主理解内容并创造出图像、视频等。近年来,随着扩散模型的成熟,生成方式更接近于人脑的联想,AIGC 完成了内容创造辅助工具到内容创作主体的角色转变。
AIGC 是通过人工智能技术自动生成内容的生产方式。从 Web 1.0 的单向信息传递的「只读」模式到 Web 2.0 的人与人通过网络双向沟通交流的「交互」模式,内容的需求在不断增加。为了满足这一需求,同时也因为互联网的发展,内容的生成从单一的 PGC 演变到了现在的 UGC 并占据了主要市场。Youtube、Instagram、抖音、快手、B 站上有大量的内容来自于 UGC 创作者。当我们迈入 Web3.0 时代,人工智能、关联数据和语义网络构建,形成人与机器网络的全面链接,内容消费需求飞速增长,UGC\PGC 这样的内容生成方式将难以匹配扩张的需求。
我们认为,AIGC 将是 Web3 时代全新的内容生成工具,同样,将对现有的短视频、游戏及广告行业带来巨大的影响。AIGC 的生成利用人工智能学习知识图谱、自动生成,在内容的创作为人类提供协助或是完全由 AI 产生内容。不仅能帮助提高内容生成的效率,还能提高内容的多样性。
AIGC 的发展可以大致分为以下三个阶段:
近年来,AIGC 的发展迅速,从原来作为边缘侧服务于企业、机构的角色变为了现在 C 端零基础用户都可以使用的创作工具。开发侧重点上,AIGC 也从原先用于翻译、语音合成以及重复性工作转变为了更注重应用层面,用户能够便捷操作的方向。
随着 NLP(Natural Language Processing,自然语言处理)技术和扩散模型(Diffusion Model)的发展,AI 不再仅作为内容创造的辅助工具,创造生成内容成为了可能。
自然语言处理技术 NLP
自然语言处理是实现人与计算机之间如何通过自然语言进行交互的手段。融合了语言学、计算机学、数学,使得计算机可以理解自然语言,提取信息并自动翻译、分析和处理。在自然语言处理技术发展之前,人类只能通过一些固定模式的指令来与计算机进行沟通,这对于人工智能的发展是一个重大的突破。
自然语言处理最早可以追溯到 1950 年,图灵发表论文「计算机器与智能」,提出「图灵测试」的概念作为判断智能的条件。这一测试包含了自动语意翻译和自然语言生成。
自然语言处理技术可以分为两个核心任务:
自然语言理解 NLU:希望计算机能够和人一样,具备正常人的语言理解能力。过去,计算机只能处理结构化的数据,NLU 使得计算机能够识别和提取语言中的意图来实现对于自然语言的理解。由于自然语言的多样性、歧义性、知识依赖性和上下文,计算机在理解上有很多难点,所以 NLU 至今还远不如人类的表现。
自然语言理解跟整个人工智能的发展历史类似,一共经历了 3 次迭代:基于规则的方法、基于统计的方法和基于深度学习的方法。
自然语言生成 NLG:将非语言格式的数据转换成人类可以理解的语言格式,如文章、报告等。NLG 的发展经历了三个阶段,从早期的简单的数据合并到模板驱动模式再到现在的高级 NLG,使得计算机能够像人类一样理解意图,考虑上下文,并将结果呈现在用户可以轻松阅读和理解的叙述中。自然语言生成可以分为以下六个步骤:内容确定、文本结构、句子聚合、语法化、参考表达式生成和语言实现。
NLP 主要被应用在四个方面:
商业上,NLP 主要被应用在一下领域:
神经网络,尤其是循环神经网络 (RNN) 是当前 NLP 的主要方法的核心。其中,2017 年由 Google 开发的 Transformer 模型现已逐步取代长短期记忆(LSTM)等 RNN 模型成为了 NLP 问题的首选模型。Transformer 的并行化优势允许其在更大的数据集上进行训练。这也促成了 BERT、GPT 等预训练模型的发展。这些系统使用了维基百科、Common Crawl 等大型语料库进行训练,并可以针对特定任务进行微调。
Transformer 模型是一种采用自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。除了 NLP 以外,也被用于计算机视觉领域。与循环神经网络(RNN)一样,Transformer 模型旨在处理自然语言等顺序输入数据,可应用于翻译、文本摘要等任务。而与 RNN 不同的是,Transformer 模型能够一次性处理所有输入数据。注意力机制可以为输入序列中的任意位置提供上下文。如果输入数据是自然语言,则 Transformer 不必像 RNN 一样一次只处理一个单词,这种架构允许更多的并行计算,并以此减少训练时间。
AIGC 生成模型
近年来,AIGC 的快速发展归功于生成算法领域的技术积累,其中包含了:生成对抗网络(GAN)、变微分自动编码器(VAE)、标准化流模型(NFs)、自回归模型(AR)、能量模型和扩散模型(Diffusion Model)。可以看到,大模型、大数据、大算力是未来的发展趋势。我们认为,算法模型的突破是近年来 AIGC 得以快速突破的催化剂,下面将展开介绍一下两个非常常用的模型,分别是生成对抗网络和扩散模型。
生成对抗网络 GAN(Generative Adversarial Networks)
2014 年,Ian J.Goodfellow 提出了 GAN,是一种深度神经网络架构,由一个生成网络和一个判别网络组成。生成网络产生「假」数据,并试图欺骗判别网络;判别网络对生成数据进行真伪鉴别,试图正确识别所有「假」数据。在训练迭代的过程中,两个网络持续地进化和对抗,直到达到平衡状态,判别网络无法再识别「假」数据,训练结束。
GAN 被广泛应用于广告、游戏、娱乐、媒体、制药等行业,可以用来创造虚构的人物、场景,模拟人脸老化,图像风格变换,以及产生化学分子式等等。
其优点在于:
缺点:
扩散模型 Diffusion Model
扩散模型是一种新型的生成模型,可生成各种高分辨率图像。在 OpenAI,Nvidia 和 Google 设法训练大模型之后,它们已经引起了很多关注。基于扩散模型的示例架构包括 GLIDE,DALLE-2,Imagen 和完全开源的稳定扩散。扩散模型已经拥有了成为下一代图像生成模型的代表的潜力。以 DALL-E 为例,能够直接通过文本描述生成图像,让计算机也拥有了人的创造力。
扩散模型的生成逻辑相比其他的模型更接近人的思维模式,也是为什么近期 AIGC 拥有了开放性的创造力。本质上,扩散模型的工作原理是通过连续添加高斯噪声来破坏训练数据,然后通过反转这个噪声过程来学习恢复数据。训练后,我们可以通过简单地将随机采样的噪声传递给学习的去噪过程来生成数据。
从下图可以看到,扩散模型是一个潜在变量 (latentvariable) 模型,通过马尔科夫链映射到潜在空间。马尔可夫链是状态空间中经过从一个状态到另一个状态的转换的随机过程,下一状态的概率分布只由当前状态决定。在这一过程中逐步添加高斯噪声来获得近似的后验概率 q(? ! |?!”#),其中? # ……? ! 均是潜在变量,并且它们的维度与原图?$ 一致。
从上图中我们可以看到,图片?$ 最终会变为纯高斯噪声的图片?!。而训练扩散模型 的目标则是反向这一过程,也就是训练图中所示的转移概率?%(?!”#|?!)。通过沿着这条线向后遍历,我们可以生成新的数据。
相比于其他模型,扩散模型的优势在于生成的图像质量更高,且无需通过对抗性训练,这使得其训练的效率有所提升。同时,扩散模型还具有可扩展性和并行性。
扩散模型中添加的高斯噪声是一种概率密度函数符合正态分布的函数,当 AIGC 运用扩散模型来生成内容的时候,是通过在一副纯白的画布 ( 随机白噪声 ) 上逐步去噪来生成最终的目标画作。即用户给出的文本描述形容词,来从一个模糊的概念逐步具象。我们可以简化为多个正态分布函数的叠加,模型选择其中重叠的区间输出,这也是一个逐步缩小范围的过程。这与人类的思维模式很类似。
简言之,在 AI 训练阶段,我们将数据集中上亿组图文对进行训练,提取特征值;生产过程中,通过添加文字描述,引入不同的特征值进行去噪,从而生产一副 AI 理解下的内容作品。例如,在当我们在脑海中想象一个画面的时候,比如:一只柯基通过一个小号玩火焰。我们的思维模式也是先有一只柯基,再去想象小号和火焰,最后将这些元素叠加在柯基身上。
简述完原理以后,我们可以通过目前非常先进的 AI 图像生成应用 DALL-E2 来举例阐述具体的工作过程:
这一个过程和人类的思维模式相似。在生成的过程中,涉及到了文本编码器这一概念,目前主流的文本编码器是来自于 OpenAI 的 Clip 模型,其通过 4 亿组文字 – 图片对进行训练。当然,其中的模型训练都是基于英文实现,语言的区别又会给 AIGC 带来另一重挑战。
除了上述提到的自然语言处理技术和 AIGC 生成算法模型以外,超级计算机和算力这些硬件作为基础设施也是不可或缺的。在机器学习的过程中,需要通过大量的训练来实现更准确的结果,这样的计算量普通的电脑是无法完成的,目前主要由英伟达 A100 构建的计算集群完成,而国内外的初创企业也会通过云实现。
AIGC 已被广泛应用在文字、图像、音频、游戏和代码的生成当中,一些较早创立的企业已经实现了较好的商业化。尤其在一些具备高重复性的任务、对于精度要求并不那么高的领域应用较为成熟。随着 AIGC 技术的发展,其适用面将会逐渐扩大。这类 AIGC 服务的提供商大多数时候会以提供 SaaS 服务的形式变现。
文字创作
AIGC 生成文字目前主要被应用于新闻的撰写、给定格式的撰写以及风格改写。其中,有一家成立还不满两年的独角兽企业 Jasper 在最新一轮的融资里获得了 1.25 亿美元资金,目前估值为 15 亿美元。Jasper 成立于 2021 年,是一个 AI 内容平台,允许个人和团队利用 AI 来创作内容,多用于商业。用户可以在借助 Jasper 生成具有丰富关键词、搜索引擎优化的原创博客,可以通过文字描述让 Jasper 帮助完成文章的创作、创建广告话术。通过 Jasper 用户可以寻找创作思路、高效完成文案、突破语言壁垒,而不会存在抄袭的嫌疑。目前,Jasper 拥有 7 万多名客户,包括 Airbnb、Ibm 等企业。仅 2021 年一年便创造了 4000 万美元的收入,今年预估收入为 9000 万美元。
用户可以通过输入一段对于目标文章的描述或者要求,系统会自动抓取数据,根据我们描述的指令进行创作。作者本人进行如下实验,输入的描述为【写一篇关于 AIGC 的文章,其中要包含 AIGC 的定义、发展史、应用、现阶段发展情况和对于未来发展趋势的看法,同时,要包含细节和举例】。同时,在风格上我选择了「专业性」。Jasper 很快就生成了一篇 AIGC 撰写的 AIGC 文章(如下图所示),可以看到这篇文章语义通顺,按照我们给出的描述逐段阐述,并且包含了一些举例,这个生成效果无疑会大幅度提升人类的写作效率。
并且,在 Jasper 的网页版 APP 上,还给出了数百种模板,可以根据需求更好的完成作品。
图像创作
MidJourney 降低了艺术绘画创作的门槛,用户只需要通过输入文字描述,计算机将会自动生成一张作品。其背后的逻辑在于计算机通过 NLP 识别语意并翻译成计算机语言,结合后台的数据集(这些数据集主要通过自有素材或机器人爬取公开版权的内容获得),创作出一副全新的作品。这样产生的作品原则上属于 AI 创作,因此,在新闻媒体等平台被广泛使用,不仅减少了成本,同时避免了潜在的版权纠纷风险。除此以外,在抖音、微信等社交平台上,已经有一些数据集图库博主通过 AIGC 创造素材并结合自己的私域流量进行商业变现。
近期,OpenAI 已经与全球最大的版权图片供应商之一的 Shutterstock 达成深度合作,Shutterstock 将开始出售利用 OpenAI 的 DALL-E 生成的图片,并禁止销售非 DALL-E 生成的图片,完成深度独家绑定。
AIGC 除了大家熟知的生成绘画以外,还可以利用这一功能完成文字和图片的互相转换,这在写专利时可以被用到。
视频创作
除了绘画以外,AIGC 也能够被运用在视频创作中。Google 推出了 AI 视频生成模型 Phenaki 能够根据文本内容生成可变时长视频的技术,在公布的 DEMO 中,Phenaki 基于几百个单词组成一段前后逻辑连贯的视频只需两分钟。相比原有的 Imagen 基础上衍生的 Imagen Video 瞄准短视频,Phenaki 瞄准的是长视频。AIGC 视频中的运用,让我们看到了未来虚拟人也能够作为演员在影视剧中扮演不同的角色以提高内容产出的效率和多样性。
音频剪辑
AIGC 生成音频早被应用于我们的日常生活当中。我们常用的手机导航,可以切换不同明星甚至于卡通人物的语音提示。这是通过提前请明星或卡通人物的配音朗读完成一个语音库,再通过反复的训练学习使得可以用指定的声音说出任何话。我们自己也可以通过高德地图录制自己的语音导航包。而更深层次的应用将会是虚拟人领域,AIGC 不仅可以生成虚拟人的声音,并可以创造出说的内容。虚拟人在未来有望和我们一样表达自己的想法,灵魂逐步显现。
游戏开发
AIGC 在游戏当中的应用可以分为两方面,一方面是用于场景和故事的搭建。开放世界游戏越来越受欢迎,通过 AIGC 来创建场景和 NPC 都将会大幅度提升效率和降低成本。另一方面,玩家可以通过 AIGC 的平台工具来创建自己的虚拟人,可以用于游戏中的打金等活动。有一家叫做 Delysium 的游戏已经开始引入这一功能。或许在未来的开放世界游戏中,不同的玩家将对应不同的游戏剧情和副本,这无疑将是令人兴奋的应用。
代码生成
GitHub Copilot 是一个 GitHub 和 OpenAI 合作产生的 AI 代码生成工具,可根据命名或者正在编辑的代码上下文为开发者提供代码建议。官方介绍其已经接受了来自 GitHub 上公开可用存储库的数十亿行代码的训练,支持大多数编程语言。
AIGC 是 PGC、UGC 之后,全新的内容生产方式。不仅能提升内容生产的效率以满足我们飞速增长的内容需求,也能够丰富内容的多样性。在 2022 年百度世界大会上,李彦宏提到了:「AIGC 将走过三个发展阶段:第一个阶段是『助手阶段』,AIGC 用来辅助人类进行内容生产;第二个阶段是『协作阶段』,AIGC 以虚实并存的虚拟人形态出现,形成人机共生的局面;第三个阶段是『原创阶段』,AIGC 将独立完成内容创作。未来十年,AIGC 将颠覆现有内容生产模式,可以实现以十分之一的成本,以百倍千倍的生产速度,去生成 AI 原创内容。」
技术上来看,虽然当前生成的图片、文字已经可以用以商业用途,但还存在一些问题使得无法满足较高的质量要求。我们可以发现在二次元或抽象的图片生成中,AIGC 的表现较好。但对于比较具体和细节的内容,生成的效果不尽如人意。
下图是笔者通过 AIGC 生成的一副「美女与布偶猫」的图片,从这一张图片我们可以发现有两个问题:
与此同时,参考上文中的图表 23,我们可以发现不同的应用平台,输入几乎一致信息点的文本,生成的图片的质量和内容差距是巨大的。
那么造成以上的这些问题和差距的原因在哪里呢?我们依旧可以从 AIGC 的工作原理上来分析:
以上,我们可以看到若要使得 AIGC 生成的内容真正高效地被运用在商业层面,那么自然语言处理、翻译模型、生成算法和数据集这些细分赛道都还有很大的进步空间。
在上文中,我们了解到从应用软件方面,自然语言处理、翻译模型、生成算法和数据集这些细分赛道都还有很大的进步空间。更深入地来看,以上这些的发展需要依托于算力、数据的支持。所以未来的发展重点将更着力于大模型、大数据和大算力的方向去发展。同时,为了让功能更加精确,将会更多地去开发一些垂直类的应用,毕竟垂直类的应用可以更有针对性地为特定功能进行训练,成本相对较低。
投资策略:AIGC 的软硬件与数据集
从 PGC 到 UGC 再到 AIGC,AIGC 能让人类突破内容生产力枷锁,高效率生成高质量内容,让人类进入到真正的元宇宙之中。若要 AIGC 能够满足元宇宙的需求,独立完成高质量、高精度的内容,AIGC 技术层面还需要一定的发展,我们可以分为软硬件两个维度看,软件层面主要包括自然语言处理技术、AIGC 生成算法模型和数据集,硬件层面主要是算力、通信网络。
从业务层面看,结合国内外发展情况,目前在 AIGC 的知识产权归属方面尚有法律空缺,且创作伦理问题也未得到有效解决,因此无论是技术还是商业层面,高质、干净的数据集对于模型训练及内容生成均有至关重要的影响。同时,随着 AIGC 逐步落地,其算力需求将大增,未来相关企业除用云计算之外,或组建自有算力集群,考虑到英伟达 A100、H100 出口受限,相关国产算力芯片将有机会获得增量市场。
从主题投资的角度看,区块链、元宇宙、Web3 均描述了数字经济时代中宏大的应用场景,而去年被资本市场关注的虚拟人、NFT 等只是其中的具体应用之一。我们认为,AIGC 将是推动数字经济从 Web2 向 Web3 升级的重要生产力工具:一方面,其对现有的杀手级应用——短视频、游戏等具有颠覆式影响,或进一步扩大内容量、提高成瘾性,同时对社交和广告提供新的工具;另一方面,Web3 开放、共建的价值观下,UGC、AIGC 的内容会更具吸引力,二次创作、开放想象的浪潮将来临。目前 AIGC 已成为硅谷最新热门方向,国内一级市场、互联网大厂等对 AIGC 应用关注度也在快速提升中。
风险提示
技术创新不及预期:AIGC 的技术发展不及预期。以及底层硬件技术,如:超级计算机、算力的发展不及预期。
政策监管风险:目前 AIGC 还处于相对早期,后续是否会出台 AIGC 作品相关知识版权或其他法律监管条款尚不明确。
本文节选自国盛证券研究所已于 2022 年 11 月 13 日发布的报告《国盛区块链 |AIGC__Web3 时代的生产力工具》,具体内容请详见相关报告。