导读
AI绘画是AIGC的重要分支,跨模态生成是该项技术发展的关键节点。AI绘画作品获奖成导火线,商业化潜力尚待发掘,跨模态或更进一步,下一代互联网望成AI绘画关键着力点。
报告摘要
AI绘画是AIGC的重要分支,跨模态生成是该项技术发展的关键节点。AIGC是基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术,可以看做是继PGC、UGC之后的内容产出方式,AI绘图属于AIGC技术场景中的分支。目前在该项技术上保持领先的主要是NVIDIA、Google等国外大厂,跨文字和图像的多模态内容生成技术的实现成为AI绘画关键的发展节点。
AI绘画作品获奖成导火线,Diffusion模型为当前主流。AI绘画作品《太空歌剧院》在美国一场人类艺术比赛中获第一名成为近期AI绘画受到高度关注的导火线,通过《Midjourney》软件生成的绘画作品丝毫不输艺术家的创作成果。而基于Diffusion模型设计的《Disco Diffusion》、《Stable Diffusion》、《DALL·E2》等多款AI绘图应用成为目前主流产品。同时《Dream by Wombo》等手机App的上架使得AI绘画从专业度较高的产品向大众化应用转变。
商业化潜力尚待发掘,有望参与10%-30%的图像内容生成工作。当前AI绘画的用户付费意愿不强,60%的用户从未在AI绘画相关方面付费,在C端付费形式刺激度较低的情况下,未来B端或将成为AI绘画软件的核心客户。但同时,AI绘画也面临版权问题,绝大多数原创作品的版权拥有者会介意AI提取自身作品的部分元素。从市场规模来看,未来五年或将有10%-30%的图片内容由AI参与生成,相应或将有600亿以上的市场规模。
跨模态或更进一步,下一代互联网望成AI绘画关键着力点。以VR设备等新型硬件为入口的下一代互联网,2D向3D的转换对于内容量的需求或成指数级上升,这其中AI将成为重要辅助。目前,GAN模型和NeRF模型均已能实现单张2D图像向3D模型的生成,并且动态、场景、光影效果等3D图像所需的要素均已有了明显进步。在此基础上,文字向2D图像生成,进而向3D模型的生成或有望实现,该项技术不仅在游戏等行业能得到有效应用,对于下一代互联网各种元素的构建亦有关键意义。因此,AI绘画或不是结果,而只是AI进程中的一块重要拼图,有望在技术更新的加持下实现更大的应用价值。
风险提示:AI绘画相关技术发展不及预期,商业化拓展低于预期。
正文部分
01AI绘画横空出世,新技术奠定跨模态成熟
1.1. AIGC重要分支,有望率先落地
AIGC全称AI-Generated Content,是基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术,AI绘图属于AIGC技术场景中的分支。目前,AIGC正在完成从简单的降本增效向创造额外价值升级,跨文字和图像的多模态内容成为关键的发展节点。并且,AIGC已经成为PGC和UGC之后新内容创作模式,具备较大的商业前景。
从AIGC的参与者来看,目前国外大厂及细分赛道龙头公司已位居世界前列,国内部分公司也在奋起直追。例如NVIDIA、Google、Amazon等公司通过自研或收购的方式已走在技术前沿,图像、视频等细分领域也有诸多小龙头诞生。国内布局最多的赛道是AI写作和语音合成,图像、视频等领域的初创公司不断增加。未来随着国内AIGC技术不断成熟,大公司收购可能为成为主流现象,将部分初创公司的先进技术结合进已然成熟的内容体系中,从而生成可供直接应用的消费形式,进而在多种场景中实现应用。
由于家庭娱乐习惯差异,欧美用户较我国大陆用户而言更偏好主机。根据观研数据,2021年全球主机用户数达4.1亿人,其中欧洲、北美、我国大陆分别为2亿、1.6亿、821万人;全球主机(含软硬件)市场规模达2867亿元,其中欧洲、北美、我国大陆分别为949亿、1301亿、26亿元。我国大陆市场与欧美市场差异悬殊主要系主机渗透率有限所致,国内市场手游迅速流行,主机游戏未能有效触达用户。
1.2. 模态生成为主流,文字到图像基本成熟
AI绘画初代实现形式为GAN(Generative Adversarial Nets,生成式对抗网络),最初是图像到图像的生成过程。GAN模型由生成器和判别器两部分组成,生成器将抓取数据、产生新的生成数据,并将其混入原始数据中送交判别器区分。这一过程将反复进行,直到判别器无法以超过50%的准确度分辨出真实样本。以NVlabs的SPADE为例,用户提供草图,由GAN将其转化为真实的风景图像。但在这类模型里,用户无法通过文本影响生成结果。
升级后的模型加入CLIP的“指导”,可以实现跨模态的图文生成,使用户能以文字辅助AI作画。例如VQGAN+CLIP或StyleCILP,均是因为CLIP打通文本和图形域,使用户输入的文本和GAN生成的结果有了可比性,从而通过计算二者的误差来达到用户真正想要的结果。
凭借更丰富的内容形式、更低的售价、更强的便携性,VR设备销量有望突破主机4000万台的天花板。与主机相比,VR不再局限于游戏,而是基于沉浸式特征向视频、直播、健身、社交等更多内容形式延伸,丰富度显著提升。硬件方面,VR一体机2000-3000元的售价显著低于传统家用主机3500-4000元的售价,并且无需电源供电、无需连接显示器,突破了家用主机的场景限制。从主机三大品牌间的横向比较来看,售价更低、更轻便、使用场景更多的Switch也更受欢迎,2021年Switch 2080万台的出货量远高于PS的1370万台、Xbox的800万台,可见大众对于定价低且便携的硬件接受度更高。因此我们认为,VR设备有望凭借更丰富的内容、更低的售价、更强的便携性覆盖更广泛的用户群体,其年度销量有望突破主机4000万台的天花板。
但GAN也有诸如训练不稳定、生成样本大量重复相似、图像压缩等问题需要解决。这也使得扩散模型Diffusion model快速崛起,甚至有望超过GAN。Diffusion其实是早于GAN被提出的,但因为Diffusion依赖大模型实现,所以对大部分用户的进入门槛较高,研究者也不多。直到2021年,因为Disco Diffusion、DALL·E2、Imagen AI等,Diffusion 才开始被更多人了解。
Diffusion最初受到热力学概念的启发,扩散模型通过增加噪声破坏训练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像。一旦经过训练,扩散模型就可以应用这些去噪方法从随机输入中合成新颖的“干净”数据。相比GAN,Diffusion模型在所需数据更少的情况下,图像生成效果有明显提升。
Diffusion 模型的代表是Disco Diffusion,最初是搭载在Google Colab上,特点是擅长抽象画面,但在具象生成和较多的描述语句上效果较差。后续出现的DALL·E2和Imagen AI对文本指令的还原度更高,但前者技术上是CLIP模型和Diffusion模型的结合,后者是由纯语言模型(T5-XXL)实现文字到图像的转换。
1.3. AI绘画作品获人类美术比赛第一名,大规模应用或在朝夕2022年PICO不断强化营销力度,全年出货量有望同比增长超6倍至113万台。
近期AI绘画受到高度关注的导火线在于一副AI绘画作品《太空歌剧院》在以人类绘画作品为主的美国科罗拉多州博览会的美术比赛获得第一名,从而引起对AI绘画的争议。该作品通过Midjourney生成,获奖者在AI绘图的基础上对作品进行调整。Midjourney上手难度很低,有较强的商业价值,近期《经济学人》杂志也用Midjourney生成的图片做了封面。前期AI绘画生成,后期通过PS调整,作画效率将会大大提升。通过《太空歌剧院》获奖这一事件,AI绘画的大规模应用或已到黎明期。
目前,AI绘画已不局限于PC端,且对显卡的要求也不再是创作的限制,在iOS和安卓系统均上线多款AI绘画App。其中,iOS App Store最热门的AI绘画App为《Dream by Wombo》,截止2022年上半年,平台用户已创作出一千万以上的画作,该App的安卓版本在上架一个月的时间内,下载量超过一百万次。
《Dream by Wombo》操作页面可视化程度高,上手难度低,且CLIP模型的随机性能保证不会生成两个相同的作品。用户在在平台上输入各种与风格、主题、氛围有关的关键词后,AI就会根据这些关键词在互联网上搜索有关的资源素材,并将其糅合与拼接成一些符合要求的画作,同时还有多种艺术风格可以选择。CLIP的加持使得同一关键词会随机生成不同图像,这使得所有用户都能创作出独一无二的作品。
02AI绘画元年,在下一代互联网望大放异彩
2.1. AI绘画黎明将至,商业化潜力仍待发掘
我国AI绘画用户主要是集中在一二线城市中的年轻人,这类人群更乐意尝试新事物。根据6pen的调研,国内AI绘画用户年轻化特点明显,46%的用户为大学生和研究生,18%的用户为初中生和高中生。而在地域方面,北京占8.7%,深圳占7.8%,南方城市占比较北方更高。
而在用户行业分布方面,美术设计类和互联网工作为核心,这与AI绘画的商业应用关系密切。根据6pen的调研,AI绘画的用户近半数为美术设计类和互联网行业,AI绘画能辅助设计类工作的进展,同时对游戏等互联网行业有所助益,这几类行业将是AI绘画模型的核心商业受众。在使用的具体方式上,接近40%的用户依靠在线服务,早起AI绘画模型对显卡的高要求导致部分配置无法较好的运行AI绘画系统,但随着Stable Diffusion、Midjourney等新应用的上架,对电脑配置的要求将进一步降低。
在AI绘画商业化方面,用户付费尚在摸索阶段,B端付费的可能性更高,且通过AI绘画并不能获取较高的收入。根据6pen的调研,60%的用户从未在AI绘画产品上有过付费行为,剩下40%的用户中,付费超过100元占比仅10%。目前AI绘画的盈利方式较为单一,多为生成图像的次数付费或者缩短生成时间付费等,在未大规模应用AI绘画之前,C端用户目的性较弱的前提下付费意愿不强,但如若B端应用成熟,付费的可能性相对更高。此外,AI绘画用户主要为了娱乐目的,只有极少的用户能从中获得收入。
最后,在AI绘画的用户认知层面,已经有相当一部分用户认可AI绘画对人类工作的助益,并且2022年更多用户开始接触AI绘画,或成为AI绘画的元年。根据6pen的调研,虽然有42%的用户认为AI绘画仅能满足娱乐需求,但有50%以上的用户认为AI绘画能替代一部分,甚至完全颠覆目前的工作方式。随着多款低门槛的AI绘画产品在2022年发布,多数用户开始接触AI绘画,2022年有望成为AI绘画元年。
2.2. 应用更新迭代,有望成为图片内容生成重要辅助
具体到AI绘画产品,Disco Diffusion、Stable Diffusion、Midjourney位列前三。Disco Diffusion作为成熟的AI绘画应用,用户基础较好。Stable Diffusion于2022年8月下旬发布,技术门槛和储备显卡成本均进一步下探,且有更多的风格化,更简易的训练框架,迅速成为AI绘画热门应用。Midjourney依靠AI绘画作品获得人类美术比赛一等奖而名声大噪。
从艺术家的角度来看,对AI绘画总体持保守态度,版权问题或成为AI绘画产品需要解决的关键。根据6pen对艺术家的问卷调研,7%的艺术家表示自己的作品风格已经被AI模型学习,更多的表示不能确定。但无论如何,超过90%的原创艺术家表示会对AI使用自己的风格有所介怀,希望AI绘画的相关作品能向版权付费或有所标注。目前仍有较多的AI绘画模型是通过搜寻互联网相关图片元素来进行艺术创作,背后涉及的版权问题将成为AI绘画发展亟待解决的重点。
市场空间方面,未来五年或将有10%-30%的图片内容由AI参与生成,相应或将有600亿以上的市场规模。在AI绘画技术持续快速发展的当下,更成熟易用的产品不断推陈出新。在此基础上,AI绘画已经能承担图像内容生成的辅助性工作,前期初稿的形成可以由AI提供,后期再由创作者进行调整,这将提高内容产出的效率。而根据6pen的预测,若未来五年10%-30%的图片在AI的帮助下诞生,则将创造超过600亿元的市场空间,而若考虑到下一代互联网对内容需求的迅速提升,则可能创造更大的市场规模。
2.3. AI绘画的星辰大海,文字转3D箭在弦上
借助NeRF神经辐射场模型,AI绘画正尝试从2D向3D生成,这为VR设备及下一代互联网建设提供了重要帮助。3D或是下一代互联网的“标配”,但这也意味着内容量指数级上升,AI将成为内容创作的核心辅助。从技术端来看,2020-2021年NVIDIA推出的GANverse3D已经能够生成可自定义的3D图形,并能进一步形成视频内容,但由于GAN在对抗训练中会受限于样本特征,该模型对于人类的生成尚不能有良好的解决方案。但NeRF模型利用深度学习完成了计算机图形学中的3D渲染任务。
对于NeRF模型的探索,动态NeRF、全场景NeRF、光影变化效果、接近实时生成等细分赛道均有产品推出,但关键节点或是基于单张2D图像生成3D模型,Google于2022年推出的PHORHUM已具备类似能力。AI绘画在该方面的突破有望使用户上传2D照片即能生成逼真的3D形象,从而拥有在VR世界中的优秀“替身”。
更进一步的探索或是文字向3D模型的直接转换,在AI的帮助下,仅需输入幻想世界的文字,即能生成一个全新的3D空间。目前,文字向2D图像的跨模态生成已经成熟,随着2D向3D模型转换的发展,可以认为从文字出发有望创造3D世界。该项技术对于游戏等多行业或将有所助益,也能使得在VR等设备为入口的下一代互联网实现内容数量和质量的重要突破。
03风险提示
AI绘画相关技术发展不及预期。目前无论是GAN模型、Diffusion模型、CLIP模型或是最新的NeRF模型均有各自明显短板,如若问题无法得到及时解决,则可能使得AI绘画发展低于预期。
商业化拓展低于预期。AI绘画有能力成为内容创作的重要辅助,但若因版权等问题导致作品产出受限,则可能影响商业化拓展。更多股票资讯,关注财经365!