Ai 生图原理,那些一眼心动的美女是如何骗你的?
2023-05-19 06:22:17 | 来源:太平洋电脑网 |
2023-05-19 06:22:17 | 来源:太平洋电脑网 |
作为一名自诩 " 赛博写手 " 的无名小编,在完成每天的工作之余,就是在各类 Ai 绘画社群与某鸟上冲浪,最近一段时间 ChatGPT 的 "Meme 时刻 "(就是常说的高光时刻)明显已经过去了,与之伴随的 Ai 整体热度也开始下滑,没有 3 月初期那种一刷信息流就全是 Ai 内容的 " 拥挤感 "。
【资料图】
百度的 Ai 搜索指数
谷歌的 Ai 关键词全球搜索指数(这越南有点东西啊)
其实这也是好事,任何独特新鲜技术的 " 诞生时刻 " 都是惹人关注的,但想要真正有所建树,还是需要时间的沉淀,哪怕是 Ai 技术的迭代是普通科技产品的指数级倍数。比如最近,谷歌的 2023 IO 开发者大会上,剑指微软系(ChatGPT/Bing/copliot)的 Palm2 模型发布,不仅拥有与 GPT4 相抗衡的语言能力,同时还打了一套 Ai 组合拳来维系谷歌科技龙头的地位。
图片源自互联网
PaLM 2 模型有四个版本,按照大小从小到大分别是 Gecko、Otter、Bison 和 Unicorn。其中,轻量级的 Gecko 模型可以快速的在移动设备上运行,无需网络连接。PaLM 2 在超过 100 种语言的语料库上进行训练,因此它在处理多语言任务上表现优异,能理解、生成和翻译更精细、多样化的文本。在一些基准评估中,PaLM 2 部分成绩甚至超过了 GPT-4。尽管 PaLM 2 的参数数量更少,但其性能却优于上一代 PaLM 模型。
谷歌 bard 对话模型进步比较明显,应该已经使用了 PaLM 2 模型
可见在短短的几个月中,由算法、算力组织起来的 Ai 智慧树已经从一棵小树苗长成一棵硕果累累的巨树,至于这棵树会不会成为未来人类科技的 " 智慧之母 ",还是要等待与辩证地看待。
Midjourney 丨 Ai 绘画
回归到标题上,最近在 C 站发现了一个运行在 stable diffusion 上的新模型,名字叫做BRA ( Beautiful Realistic Asians ) V5直译为美丽逼真的亚洲人,点击查看其效果照片,非常惊艳,不少用户展示出的作品都能达到照片级别,于是我就下载尝试玩玩。
根据该模型的创作者介绍,该模型使用了大约 3 个月的训练失败以及训练合并的结果。该作者是一位在新加坡的华人,会说一点点中文与日文。
使用 Discord 和该模型制作者交流一下使用心得
下面是我利用该模型配合一些特定的 prompt 产出的效果图片,部分图片由于原生精度与分辨率不足,我利用 NVIDIA 推荐的 ON1 Ai 放大软件进行了分辨率扩展,大家可以来看看这些 Ai 产出的图片是否很具有迷惑性。
stable diffusion 丨 BRA V5
部分 prompt:8k, best quality, masterpiece, ultra highres_1.2 ) Photo of Pretty Japanese woman in the style of paul rubens and rebecca guay
部分 prompt:A beautiful woman is setting up a stall in the street market,beautiful face,cinematic, Faint side light,fine details, 8k,
部分 prompt:A lovely girl typing in front of the office computer, beautiful, lovely face, shot with Nikon Z7 full frame camera, 50mm lens,
部分 prompt:girl at the bus stop on a rainy day, no umbrella, getting wet, cute face, short haircinematic,Faint side light,fine details
部分 prompt:Cute girl at the beach, short hair, smile, sunset, with a bow, half body, film style,cinematic,Faint side light,fine details, 8k
部分 prompt:girl in supermarket, young girl, bangs, cute face, 50mm, F1.2, shot by Nikon camera, faded film style,Faint side light,
部分 prompt:Snowy girl with a scarf covering her nose, big eyes, eyelashes, black pupils, F1.2, shot by Nikon camera, faded film style
部分 prompt:Urban girl, city neon as background, city night view from high above, neon flashing, with love, short hair, wearing glasses
是不是感到很惊艳,不仅仅是屏幕前的大家,就算训练过千张 Ai 图片的我,当看到光线、五官、表情与神态与照片几乎无差别的 Ai 生图时也是激动得不行,要知道就在 20 天前我们在做《NVIDIA显卡Ai 算力大比拼,想画 Ai 女友该怎么选?》时画出的 Ai 女友也就仅仅长成这样:
虽然也是非常美丽动人,但一眼就能觉得这是 Ai 出图,在脸部与皮肤的生成上,Ai 非常倾向给出非常完美的 " 光线效果 ",让皮肤的颜色、光感都处于绝佳状态,眼睛与嘴唇的细节处理也偏向于极致,眼妆与口红的色号也都是使用了 " 婚礼级别 ",让图片中的女生虽然光彩动人,但是太过于 " 完美 ",少了真实感。
但在 BRA V5 中,在生成人像时,Ai 模型甚至会刻意避开脸部的细节光线,让图像中的脸部处于阴暗面或者侧光面,同时在脸上加入了不少 " 瑕疵 ",比如明显的血管纹、痘痘、雀斑等来增加人像的真实感。
图片中的女生甚至有抬头纹,肤色也相对更偏向真实,另外人脸的骨骼结构也更偏向真人
在该张中,女生的眼袋与雀斑也是比较明显,同时不会出现 Ai 经典的假笑
同样的,脸部会出现一些血管纹、印记等瑕疵来烘托真实感
脸部会有明显的高光与阴影区域,符合在真实光线与摄影环境中的出图
这样的照片也成功骗到了我的朋友们,虽然他们已经给我打上了 " 我发的女生 99% 都是 Ai 画的 " 标签,但依然这几组成功唬到了不少人。
看来,在可预见的未来,喜欢好看妹妹的男生们不仅要防过度美颜大法还要警惕 Ai 美女的以假乱真,这也从侧面反映了,当前的 Ai 生图技术的强大,那么目前流行的 stable diffusion 和 midjourney 的 Ai 绘图软件到底是怎么理解文字,然后生成这样的图片的呢?
接下来就来为大家揭开 Ai 画图的奥秘,但其中会涉及大量的技术类名词,为了更方便大家的理解,我会用大量的比喻来代替。
教学时刻
使用过 stable diffusion 和 midjourney 的小伙伴都应该清楚,Ai 绘图都一个从 " 模糊到清晰 " 的过程,不论是基于本地的 stable diffusion 还是基于线上高性能服务器的 midjourney。
这模糊到清晰的过程就是当前 Ai 绘画的主流手段 -Diffusion model(扩散模型),简单点说,Ai 绘画会先把图片进行 " 降维 " 然后训练,这个降维的过程很像是大家平时使用的榨汁机,将一个苹果放在榨汁机里去打碎了,变成苹果泥,然后吃一口,记住苹果泥的味道,从而知道这个味道的果泥就是苹果。
而 Ai 则是将图片进行 " 嚼碎 "(加噪点)来变成一组组的马赛克图片,这样的用意是在有限的算力下尽可能地多学习几组图片,多生成几组图片。因为马赛克的数据值是精确图片的 1/100 甚至 1/1000.
那现在知道了 Ai 是如何快速学习图片的,那如何生成呢?还是拿苹果泥举例,在我们吃过了许多的果泥,比如苹果的、西瓜的、哈密瓜的、香蕉的,我们即使蒙上眼睛,只需要通过一点点的果泥就能分辨这个水果,然后回答出来。
Ai 也是重复类似的过程,通过大量的图片加噪点得到的马赛克图片,Ai 也总结出了这个马赛克是猫、那个马赛克是狗之类的规则(具体逻辑比较深,不做赘述)。那就可以通过马赛克来反向还原图像,这一步就叫做 Reverse diffusion 反向扩散。
那么,Ai 是如何理解我们的语言,并根据我们的想法画出 " 我们想要的小姐姐 " 的呢?过程中需要将文本进行 " 分词器 Tokenizer" 然后进行 "clip" 再进行 " 嵌入 Embedding",就可以让机器学习、认到了!谢谢大家!
好了,不闹了。这些拗口且复杂的概念应该留给更加专业的小伙伴去学习,我们只需要知道,Ai(不管是绘图的,还是 GPT 类型的)都是通过将文字 " 降维 " 的方式来理解并学习,有点像是上述提到的 " 苹果泥 " 概念,Ai 会将用户输入的文本拆分为更小的单元(词或字符),然后将分词后的文本转换成数学向量,这样模型才能更好地理解和处理。
Ai 理解就是将文本碎片化、数字化丨 Midjourney 丨 Ai 绘画
然后就要用到转换器模型(Transformer Model):这是一个能够处理序列数据(如文本)的深度学习模型。它通过捕捉文本中的依赖关系和上下文信息,为生成图像提供丰富的信息。类似于专业的语言学家来帮计算机处理文本的关系,比如用户输出 " 可爱的猫 ",不至于出现 " 猫的爱可 " 这样的计算机识别错误。
转换器模型就是将成堆的拼图碎片转换成一张张完整的拼图丨 Midjourney 丨 Ai 绘画
理解完文本,就到了画画的过程了,就要用到噪声画画这个概念,如同吃水果泥来辨别水果,噪声预测器(Noise Predictor):这一步利用转换器模型提供的信息,逐渐生成图像。通过迭代过程,噪声预测器会从粗糙的图像开始,逐步细化细节。这就是为啥我们看到的 Ai 画图都是从模糊到清晰的过程。也像是一个画家根据一段描述开始创作,先绘制大致轮廓,然后不断添加细节,直至完成一幅画作。
也可以理解为慢慢地去雕刻一块巨石丨 Midjourney 丨 Ai 绘画
接下来,我利用 stable diffusion 给大家展示一个小姐姐的生成过程,
给 Ai 输入小姐姐的关键词(prompt )
输入一定的特定咒语,比如什么高级渲染,8K 渲染,HDR 渲染之类的,还有一定的反面词,比如不要奇怪的手部,不要畸形之类的。
开始绘图,得到结果
如果在这过程中,我们中断一下模型的进度就可以得到类似于带有噪点的图片
从绘图过程中,我们可以看到绘图一开始的过程中,Ai 就是先生成一个比较模糊的人物形象,一个大致的轮廓,然后逐渐地去填充,在绘图进度 46% 的时候就可以初见人物的雏形,后续都是把人物的细节进行纠正修改。
这就是可以以假乱真的小姐姐的诞生过程了,感兴趣的小伙伴可以尝试用 SD 来画自己喜欢的小姐姐形象,但是请注意的是,目前国内的部分内容平台已经开始针对 Ai 生图进行了扫描识别并下架部分涉嫌违规的内容。目前 Ai 领域的规则还是处于空白阶段,所以针对版权保护等行为还没有彻底上线。
希望各位在利用 Ai 工具的同时也要敬畏技术带来的冲击,我很喜欢老黄在 NVIDIA 2023 大会上提到的 " 我们处于 Ai 的 iPhone 时刻 ",正如 iPhone 彻底颠覆了手机市场一般,我们也需要辩证地看待 Ai 将会带来的改变。
技术没有黑白之分,是一把达摩克利斯之剑。
关键词: