你肯定见过 AI 画的图。你输进去一句话,几秒钟,一张以前世界上根本不存在的画,就出现在你面前。你有没有想过一个特别朴素的问题:它到底是怎么画的?是不是像个画家那样,先勾个轮廓,再一笔一笔上色,最后描细节?

我跟你说,完全不是。真相要古怪得多,也漂亮得多。今天最厉害的那些 AI 画图工具、AI 出视频工具,背后基本都是同一套办法。它们画图的方式,不是从一张白纸开始往上加东西,而是从一团乱七八糟的雪花噪点开始,一点一点把不要的东西擦掉。它擦着擦着,一张清清楚楚的画,就从那团雪花里浮现出来了。这套办法,有个名字,叫扩散模型,英文 Diffusion Model。

米开朗基罗那把钥匙

要讲清楚扩散模型,先讲一个老故事。关于文艺复兴的雕塑大师米开朗基罗,一直流传着这样一个说法:相传有人问他,你是怎么雕出大卫这种神作的?他的回答特别狂,也特别深刻——大卫本来就在那块大理石里,我只是把多余的石头去掉而已。

这句话听着像在凡尔赛,但它恰恰就是理解扩散模型的那把钥匙。AI 画图,干的就是米开朗基罗这件事。只不过,AI 面前那块大理石,不是石头,是一整块纯粹的、随机的雪花噪点——就是你小时候电视没信号时,屏幕上那种密密麻麻、跳来跳去的雪花点子。

你想象一下,AI 面前摆着这么一整屏幕的雪花。你跟它说,我要一只戴着宇航员头盔的橘猫。然后 AI 就开始干活了。它盯着这团雪花,问自己一个问题:如果这团乱码里,真的藏着一只宇航员橘猫,那我应该擦掉哪些点、留下哪些点?它擦一遍,雪花淡了一点,画面里隐约有了个模糊的轮廓。再擦,再擦,擦个几十轮,那只戴着头盔的橘猫,就清清楚楚地从雪花里显影出来了。

注意这个词:显影。年纪大一点的朋友都记得,以前洗照片,是把相纸泡进一盆显影液里。刚泡进去的时候,相纸上什么都没有,白茫茫一片。然后影像就慢慢地、一点一点地从那片空白里浮上来,越来越清晰,最后定格成一张照片。扩散模型画图,就是这种感觉——不是凭空画出来的,是从混沌里慢慢显影出来的

前向扩散:先学会怎么把画毁掉

你心里一定立刻冒出一个问题:凭什么?AI 凭什么知道该擦掉哪个点、留下哪个点?米开朗基罗是练了一辈子才知道怎么下凿子的,AI 这本事是哪儿来的?

AI 学这门手艺的办法,说出来你会觉得有点反常识:它是先学会怎么把一张好好的画给毁掉,然后再倒着放。

研究人员手里有几亿张真实的图片——猫、狗、风景、人脸,什么都有。他们拿出一张清清楚楚的猫的照片,然后干一件看起来很无聊的事:往上面撒一点点雪花噪点。照片有一点点糊了。再撒一点,更糊了。就这么一遍一遍地撒,撒上几百上千遍,最后这张猫照片,被彻底糟蹋成了一整团纯粹的雪花,再也看不出原来是只猫。

这个把好图一步步糟蹋成雪花的过程,就叫前向扩散,说白了就是加噪。扩散模型这个名字里的「扩散」,就是从这儿来的——好像一滴墨水滴进清水里,慢慢扩散、晕开,最后整杯水都均匀了,再也分不清哪滴是墨水。

模型学的不是画画,而是预测噪声

那加噪有什么用呢?关键在这儿。在加噪的每一小步里,研究人员都偷偷记下来一件事:我这一步,到底撒了哪些噪点上去?然后,他们就拿这几亿张图、几亿次加噪的全过程,去训练一个 AI——就训练它一件事,而且只有这一件事:给你看一张被撒了噪点的、有点糊的图,你来猜,刚才这一步,到底是哪些噪点被撒上去的?

这是整个扩散模型的命门,一定要记住:模型从头到尾,学的不是怎么画画,它学的是预测噪声——猜出一张图上多出来的脏东西到底长什么样。

你可能会想,这也太笨了吧,猜噪点有什么用?用处大了。如果 AI 能准确猜出一张糊图上多出来的噪点是什么,那它把这些噪点一减,不就得到一张更干净、更清楚的图了吗?这一下子,它不就会去噪了吗?

反向去噪:魔法发生的瞬间

这就是魔法发生的瞬间。学的时候,是顺着来,把好图一步步加噪、糟蹋成雪花。用的时候,是倒着放,把这套去噪的本事反过来用。你直接丢给它一整团全新的、谁都没见过的雪花,它就一步一步地猜噪点、减噪点,一步一步地去噪,最后愣是从这团随机的雪花里,去出一张全新的画来。这个倒着走、把雪花变回图画的过程,就叫反向去噪

所以你看,米开朗基罗那句话,现在是不是有了全新的意思?AI 不是在雪花里凭空创造一只橘猫,它是把不属于这只橘猫的噪点,全都当成多余的石头,一点一点凿掉。剩下的,自然就是那只橘猫了。

提示词是你伸进雪花里的那只手

讲到这儿,还差最后一块拼图:那你输进去的那句话,那个提示词(prompt),到底是怎么管用的?

如果只让 AI 自己对着一团雪花瞎去噪,它确实能去出一张图来,但去出来的是什么它说了不算,可能是只猫,可能是棵树,全凭运气。所以我们得在它去噪的每一步,都凑到它耳边提醒一句:喂,你现在去的这张,得是一只戴着头盔的宇航员橘猫啊。

你输入的那句提示词,就是这个全程在它耳边念叨的导航。AI 在猜噪点的时候,会一边听着你这句话,一边猜——专门朝着更像你那句话的方向去擦。你这句话描述得越准、越具体,它擦的方向就越明确,最后出来的图就越接近你脑子里想的那个东西。这个机制有个专门的名字,叫文本条件——用文字这个条件,去约束、去引导那团雪花,让它往你要的方向显影。

这下你大概也明白了,为什么那些玩 AI 画图玩得溜的人,特别讲究提示词怎么写。因为提示词不是个可有可无的标题,它是你伸进那团雪花里的唯一一只手。你描述得潦草,AI 就只能瞎猜;你描述得到位,它才能精准地把你想要的东西从混沌里凿出来。

扩散模型为什么取代了 GAN

也许你还听过另一个名词,叫生成对抗网络,英文缩写 GAN,那是扩散模型之前,AI 画图的老办法。老办法 GAN,是搞两个 AI 互相较劲:一个拼命造假图,一个拼命挑毛病,逼着造假的那个越来越逼真。这思路很聪明,但有个老毛病——这俩 AI 经常吵架吵崩,训练特别不稳定,一不留神就翻车,而且画来画去容易钻牛角尖,花样不多。

扩散模型就老实多了,也稳得多。它不搞对抗,就埋头干一件最朴素的事——猜噪点、去噪点。一步一步、慢慢悠悠地把图磨出来。正因为它的活儿这么简单、这么专一,所以训练起来又稳又好教,画出来的东西又清楚又多样。这就是为什么这几年 AI 画图的水平像坐了火箭一样往上窜——底层那套老办法,被换成扩散这套更靠谱的了。

从画图到出视频

扩散模型这个想法,最早是从物理学里借来的,灵感来自墨水在水里扩散这种自然现象,早在 2015 年,就有人提出了它的雏形。但真正让它一鸣惊人的,是 2020 年的一项关键研究,正是它把「预测噪声」这个又简单又好用的办法给定了下来,扩散模型才算真正登上舞台。

研究人员后来发现,既然能从雪花里去出一张图,那能不能去出一连串连贯的图,连起来不就是视频了吗?于是这套去噪的办法,就从画图扩展到了出视频。你现在看到的那些惊艳的 AI 视频,让一张照片动起来、凭一句话生成一整段画面,背后用的,还是扩散这同一套从混沌里显影的思路。

懂原理的人指挥 AI,和不懂的人差的不是一点半点

你看完这期,肯定不会自己去训练一个扩散模型,也完全没必要——这是少数顶尖工程师的活儿。但你现在懂了它的脾气,这才是真正值钱的地方。你知道了 AI 画图不是在白纸上作画,而是在一团雪花里听着你的话做雕刻。那么下次你再用这些工具的时候,你就不会再随便扔一句橘猫进去,然后抱怨它画得不像了。你会明白,你说的每一个字,都是在给那只凿石头的手指方向。

这就是 AI 时代普通人最该握住的那根杠杆:你不需要变成那个造工具的工程师,你只需要搞懂工具的原理,然后学会怎么把话说清楚、怎么精准地指挥它。懂原理的人指挥 AI,和不懂原理的人胡乱试,差的不是一点半点。

最后给你留个问题琢磨琢磨:如果 AI 画出来的每一张图,本质上都是从一团随机的雪花里去噪去出来的,那这世界上其实藏着无穷无尽、还没被任何提示词唤醒的画面,它们都还静静地躺在那些雪花里。那么,当一张以前从不存在的图,被你的一句话第一次显影出来——这到底算 AI 的创造,还是算你的创造呢?


📺 更多元知识视频,搜索 Wiki4What | 🌐 blog.wiki4what.com