中国AIGC产业联盟 x 无界AI:中国AIGC文生图产业白皮书
AIGC系列深度研究报告:《AIGC专题:中国AIGC文生图产业白皮书》
(报告出品方:中国 AIGC 产业联盟 x 无界 AI)
人工智能生成内容(AIGC)风靡全球
AIGC,即 Artificial Intelligence Generated Content,人工智能生成内容。它是 生成式 AI(Generative AI)技术所激发的新一轮内容创作者经济浪潮;让人人都 可以简易、便捷、低成本地借助 AI 的力量完成文本、图片、视频、音频等多媒体内 容的高效高质量生产;是对以短视频、自媒体等为代表的大规模 UGC(用户生成内容)经济的进一步范式升级,故称“AIGC”。AIGC 擅长制造和传播爆款内容,尤 以图片、视频等视觉形态最为突出。
AIGC 就在身边:新西湖、古良渚、古温州
AI“新西湖”全名为《新西湖繁盛全景图》,由人类画师与 AIGC 共同参与完成。主要用到三项主流的 AI 绘画技术:线稿上色(controlnet Lineart)、无限拓展(Outpainting)、建筑模型训练(Dreambooth & Lora)等。创作方将该作品的使用权无偿捐赠给杭州市贸易促进会、中国国际 动漫节执行委员会、杭州西湖风景名胜区管委会、杭州万事利丝绸文化股份有限公司、杭州灵伴科技有限公司(Rokid)等多家单位和企业以共创、推广 杭州文化,共享 AI 作品版权。
AI“古温州”,则以温州朔门古港遗址的资料为基础,以“千年商港,未来温州”为主题,借助 AI 工具为古港遗址勾勒出了一幅“东方威尼斯”繁华景象。2023 年 3 月 29 日,这幅图片刊登在温州日报,成为温州日报“商周刊·文博”板块元宇宙主题报道的靓丽一笔。
案例虽小,管中窥豹,可见一斑。从 2022 年至 2023 年,国内 AI 绘画产业正是从这样微小的案例开始了举世瞩目的产业应用浪潮,从最初的静态图片 走向复杂、交互式的 AIGC 产业应用场景。
2022 遇见 AIGC 的序章:AI 文生图
2022 年春,国内掀起的 AI 艺术热潮源于海外 A 技术在图像生成领域的革命性进步,以 DiscoDiffusion、Stable Diffusion、Midjourney 等为头部代表的扩散模型(Diffusion Model)开始在数字艺术领域大放异彩!这一关键节点要早于随后大火的 ChatGPT 以及大模型(LLM)风口。因此可以认为,国内第一批全民级大规模参与 AIGC 活动的用户群来自 AI 绘(即文生图)领域。
AI 文生图的艺术质量呈现出指数级进化速度
故事始于 2022 年春天,Disco Diffusion 的开源打开了 AI 绘画的浪潮之门——
2022 年 4、5 月份:AI 绘画只擅长抽象之美或者色彩美学,以令人“眼花缭乱”的色彩涂抹构图向世人展 示出 AI 艺术的别样魅力。这段时期人们常用的工具是 Disco Diffusion 以及 Midjourney 初代版本。
2022 年 6、7、8 月份:AI 绘画开始集中突破绘画的逻辑性和质量,可以逐步写实、产出具有艺术性的作 品。这段时期以 Midjourney 为主要工具代表。
2022 年 9 月份:AI 绘画最重要开源力量 Stable Diffusion 成为社区大热门,且凭借成本低、高质量、高逻 辑性、更强的通用绘制能力以及快速生成等优势迅速占领市场,AI 绘画的艺术质量和逻辑能力开始进入“飞轮式”发展,且 Midjourney 也开始引入其开源技术。
2022 年 10、11 月份:AI 绘画的第一个现象级潮流“二次元模型”横空出世,以 NovelAI 等开源产品和力量为突出代表,进一步蔓延到整个 Stable Diffusion 社区,更多的开源模型和产品加入到这个队伍中,生态力量开始形成。二次元模型的高质量性和现实影响力也令世人展开了对 AI 绘画版权的争议。11 月份,国内 AI 绘画第一波大浪潮启动,抖音迅速推出的“抖音 AI 绘画(二次元)”流量成功辐射数以千万计网民,国内第一波千万级 AI 绘画用户群形成。 2022 年 12 月份:紧接着二次元浪潮,人们仿佛打开了“通往异次元的大门”,开始让三次元、2.5 次元照 进 AI 绘画,于是新一波浪潮“ AI 真人模型”形成。传统互联网上充斥着大量由 AI 生成的“美女”、“真 实场景”、“平行时空新闻”等新形态内容。与此同时,闭源力量 Midjourney 也几近 AI 绘画的艺术巅峰, 各行业的大量设计师与内容工作者群体开始用 Midjourney 生成极高质量且满足现实生产需求的 AI 图片。
2023 年至今:AI 绘画在极高质量、通用逻辑能力、细节完美度以及精准控制层面已经开始大范围“侵蚀”各行各业的生产与消费过程,各产业以及互联网都到处充斥着 AI 生成的内容。第一波 AI 大范围赋能产业的 共识正逐步形成。Stable Diffusion 生态力量和 Midjourney 产品力成为当下人们唯二选择。
2023 年 AI 文生图“侵蚀”的商业版图:实用性 AI 绘画时代到来
我们在 2022 年曾预测,2023 年数以亿计的 AIGC 内容将充斥着整个互联网,绝大多数网民在刷抖音或者小红书时都会在 不知不觉中浏览到 AIGC 内容,占比可能达到 5~10%;以小红书平台为例,都会将疑似 AI 生成的内容打上“疑似包含 AI 创作信息,请注意甄别真实度”的标签以供用户警惕。一时间,泛娱乐场景成为 AI 文生图商业化的“第一阵地”。
面对 AI 绘画一年来指数级的进化速度,2023 年 AI 绘画正式开启“全面商用”时刻。从多样性的艺术维度冲击多样性的行业商业,在流量平台等虚拟内容经济的加持下,数以千万甚至上亿计的互联网用户群深受其影响。其中以“摄影模型”和“真人模型”等为代表的“真实世界模型”对现实世界的冲击最为显著,包含商业应用、泛娱乐消费甚至诸多负面影响。
AI 文生图模型阵营及简史
一切都始于 CLIP 开源,CLIP 是一个通过自然语言监督有效地学习视觉概念的神经网络。通过使用 CLIP 可将文本和图像连接在一起。
CLIP(Contrastive Language–Image Pre-training)是文本和图像对照的预训练模型,数据集使用的是 LAION-400M,包含 4 亿组从互联网上收集的文本图像对。文本编码器 提取文本特征,图像编码器提取图像特征,两个放到一起对比相似度,从而让 AI“掌握”文本图像的匹配关系。
开源之王 中国 AIGC 文生图产业白皮书 Stable Diffusion 的模型风格化细分及其生态占比
2022 年 8 月,AI 绘画最为重要的开源力量 Stable Diffusion 正式向全世 界开放其模型代码、训练数据集、生产内容的版权归属协议。完全自由的开源运动激起了全世界开发者、创业者、产业公司和普通爱好者的热忱, 在短短半个月时间内,SD 的谷歌搜索趋势彻底超越大名鼎鼎的 DALL·E,成为人们谈论 AI 绘画不可规避的话题。SD 的开源也令 AI 巨 头们倍感震惊。
2022 年,Stable Diffusion 的开源发布由两大公司实体驱动,分别是 Stability.Ai 和 RunwayML。二者共同促进了 SD 大版本的成功。
截止 2023 年 7 月份,Stability.Ai 已将 SD 开源版本迭代至 Stable Diffusion XL 1.0(SDXL 1.0)。
SD 所基于的开创性的“潜在空间”(Latent Space)技术将扩散模型 (Diffusion Model)再次推上新的台阶,是 AI 绘画走向大规模商用化的 关键一步(如 latent 空间让快速生成高分辨率图像成为可能,对比之下, 过往的 DALL-E2 和 Google Imagen 则是基于传统的 pixel 空间)。
Stable Diffusion 重要开源技术路线:全民训练,无尽的模型生态
仅依靠 SD 官方基础版本大模型并不足以产生五彩缤纷的 AI 绘画体验,它只是一 个基础的“通用底子”,需要更多开发者在其之上进行更多样化、更高质量的风格 化训练。便有了以模型广场、精准控制、训练框架为代表的开源模型生态的繁荣。 可以适配千行百业的垂直模型开始涌现,同时也造就了行业应用 AI 的场景涌现。
实现 AIGC 精准创作的“利刃”:ControlNet
2023 年初,Stable Diffusion 生态重要控制组件 ControlNet 横空出世,给出了 一条完美解决 AI 绘画发展进程中“精准控制”难题的道路。
该开源技术使用了一种称为 “Conditional Generative Adversarial Networks”(条件生成对抗网络)的技术来生成图像,与传统的生成对抗网络 不同,ControlNet 允许用户对生成的图像进行精细的控制。
例如它将传统意义上的【设计】抽象分解为 AI 或者计算机视野下的【线/轮廓】、【深度】、【语义】、【姿势】 等众多基础原子操作。根据应用场景, 随心所欲地组合这些基本原子和元素, 实现绘制的整体可控性和对大千世界通 用场景的绘制。
腾讯 AI 实验室开源推出的 IP-Adapter 模型为 Controlnet 生态做出了突出贡献,可识别参考图的风格和内容,然后生成相似的作品,且可搭配其他控制器使用。
报告共计:48页