什么是扩散模型

你肯定见过 AI 画的图。你输进去一句话，几秒钟，一张以前世界上根本不存在的画，就出现在你面前。你有没有想过一个特别朴素的问题：它到底是怎么画的？是不是像个画家那样，先勾个轮廓，再一笔一笔上色，最后描细节？

我跟你说，完全不是。真相要古怪得多，也漂亮得多。今天最厉害的那些 AI 画图工具、AI 出视频工具，背后基本都是同一套办法。它们画图的方式，不是从一张白纸开始往上加东西，而是从一团乱七八糟的雪花噪点开始，一点一点把不要的东西擦掉。它擦着擦着，一张清清楚楚的画，就从那团雪花里浮现出来了。这套办法，有个名字，叫扩散模型，英文 Diffusion Model。

米开朗基罗那把钥匙

要讲清楚扩散模型，先讲一个老故事。关于文艺复兴的雕塑大师米开朗基罗，一直流传着这样一个说法：相传有人问他，你是怎么雕出大卫这种神作的？他的回答特别狂，也特别深刻——大卫本来就在那块大理石里，我只是把多余的石头去掉而已。

这句话听着像在凡尔赛，但它恰恰就是理解扩散模型的那把钥匙。AI 画图，干的就是米开朗基罗这件事。只不过，AI 面前那块大理石，不是石头，是一整块纯粹的、随机的雪花噪点——就是你小时候电视没信号时，屏幕上那种密密麻麻、跳来跳去的雪花点子。

你想象一下，AI 面前摆着这么一整屏幕的雪花。你跟它说，我要一只戴着宇航员头盔的橘猫。然后 AI 就开始干活了。它盯着这团雪花，问自己一个问题：如果这团乱码里，真的藏着一只宇航员橘猫，那我应该擦掉哪些点、留下哪些点？它擦一遍，雪花淡了一点，画面里隐约有了个模糊的轮廓。再擦，再擦，擦个几十轮，那只戴着头盔的橘猫，就清清楚楚地从雪花里显影出来了。

注意这个词：显影。年纪大一点的朋友都记得，以前洗照片，是把相纸泡进一盆显影液里。刚泡进去的时候，相纸上什么都没有，白茫茫一片。然后影像就慢慢地、一点一点地从那片空白里浮上来，越来越清晰，最后定格成一张照片。扩散模型画图，就是这种感觉——不是凭空画出来的，是从混沌里慢慢显影出来的。

前向扩散：先学会怎么把画毁掉

你心里一定立刻冒出一个问题：凭什么？AI 凭什么知道该擦掉哪个点、留下哪个点？米开朗基罗是练了一辈子才知道怎么下凿子的，AI 这本事是哪儿来的？

AI 学这门手艺的办法，说出来你会觉得有点反常识：它是先学会怎么把一张好好的画给毁掉，然后再倒着放。

研究人员手里有几亿张真实的图片——猫、狗、风景、人脸，什么都有。他们拿出一张清清楚楚的猫的照片，然后干一件看起来很无聊的事：往上面撒一点点雪花噪点。照片有一点点糊了。再撒一点，更糊了。就这么一遍一遍地撒，撒上几百上千遍，最后这张猫照片，被彻底糟蹋成了一整团纯粹的雪花，再也看不出原来是只猫。

这个把好图一步步糟蹋成雪花的过程，就叫前向扩散，说白了就是加噪。扩散模型这个名字里的「扩散」，就是从这儿来的——好像一滴墨水滴进清水里，慢慢扩散、晕开，最后整杯水都均匀了，再也分不清哪滴是墨水。

模型学的不是画画，而是预测噪声

那加噪有什么用呢？关键在这儿。在加噪的每一小步里，研究人员都偷偷记下来一件事：我这一步，到底撒了哪些噪点上去？然后，他们就拿这几亿张图、几亿次加噪的全过程，去训练一个 AI——就训练它一件事，而且只有这一件事：给你看一张被撒了噪点的、有点糊的图，你来猜，刚才这一步，到底是哪些噪点被撒上去的？

这是整个扩散模型的命门，一定要记住：模型从头到尾，学的不是怎么画画，它学的是预测噪声——猜出一张图上多出来的脏东西到底长什么样。

你可能会想，这也太笨了吧，猜噪点有什么用？用处大了。如果 AI 能准确猜出一张糊图上多出来的噪点是什么，那它把这些噪点一减，不就得到一张更干净、更清楚的图了吗？这一下子，它不就会去噪了吗？

反向去噪：魔法发生的瞬间

这就是魔法发生的瞬间。学的时候，是顺着来，把好图一步步加噪、糟蹋成雪花。用的时候，是倒着放，把这套去噪的本事反过来用。你直接丢给它一整团全新的、谁都没见过的雪花，它就一步一步地猜噪点、减噪点，一步一步地去噪，最后愣是从这团随机的雪花里，去出一张全新的画来。这个倒着走、把雪花变回图画的过程，就叫反向去噪。

所以你看，米开朗基罗那句话，现在是不是有了全新的意思？AI 不是在雪花里凭空创造一只橘猫，它是把不属于这只橘猫的噪点，全都当成多余的石头，一点一点凿掉。剩下的，自然就是那只橘猫了。

提示词是你伸进雪花里的那只手

讲到这儿，还差最后一块拼图：那你输进去的那句话，那个提示词（prompt），到底是怎么管用的？

如果只让 AI 自己对着一团雪花瞎去噪，它确实能去出一张图来，但去出来的是什么它说了不算，可能是只猫，可能是棵树，全凭运气。所以我们得在它去噪的每一步，都凑到它耳边提醒一句：喂，你现在去的这张，得是一只戴着头盔的宇航员橘猫啊。

你输入的那句提示词，就是这个全程在它耳边念叨的导航。AI 在猜噪点的时候，会一边听着你这句话，一边猜——专门朝着更像你那句话的方向去擦。你这句话描述得越准、越具体，它擦的方向就越明确，最后出来的图就越接近你脑子里想的那个东西。这个机制有个专门的名字，叫文本条件——用文字这个条件，去约束、去引导那团雪花，让它往你要的方向显影。

这下你大概也明白了，为什么那些玩 AI 画图玩得溜的人，特别讲究提示词怎么写。因为提示词不是个可有可无的标题，它是你伸进那团雪花里的唯一一只手。你描述得潦草，AI 就只能瞎猜；你描述得到位，它才能精准地把你想要的东西从混沌里凿出来。

扩散模型为什么取代了 GAN

也许你还听过另一个名词，叫生成对抗网络，英文缩写 GAN，那是扩散模型之前，AI 画图的老办法。老办法 GAN，是搞两个 AI 互相较劲：一个拼命造假图，一个拼命挑毛病，逼着造假的那个越来越逼真。这思路很聪明，但有个老毛病——这俩 AI 经常吵架吵崩，训练特别不稳定，一不留神就翻车，而且画来画去容易钻牛角尖，花样不多。

扩散模型就老实多了，也稳得多。它不搞对抗，就埋头干一件最朴素的事——猜噪点、去噪点。一步一步、慢慢悠悠地把图磨出来。正因为它的活儿这么简单、这么专一，所以训练起来又稳又好教，画出来的东西又清楚又多样。这就是为什么这几年 AI 画图的水平像坐了火箭一样往上窜——底层那套老办法，被换成扩散这套更靠谱的了。

从画图到出视频

扩散模型这个想法，最早是从物理学里借来的，灵感来自墨水在水里扩散这种自然现象，早在 2015 年，就有人提出了它的雏形。但真正让它一鸣惊人的，是 2020 年的一项关键研究，正是它把「预测噪声」这个又简单又好用的办法给定了下来，扩散模型才算真正登上舞台。

研究人员后来发现，既然能从雪花里去出一张图，那能不能去出一连串连贯的图，连起来不就是视频了吗？于是这套去噪的办法，就从画图扩展到了出视频。你现在看到的那些惊艳的 AI 视频，让一张照片动起来、凭一句话生成一整段画面，背后用的，还是扩散这同一套从混沌里显影的思路。

懂原理的人指挥 AI，和不懂的人差的不是一点半点

你看完这期，肯定不会自己去训练一个扩散模型，也完全没必要——这是少数顶尖工程师的活儿。但你现在懂了它的脾气，这才是真正值钱的地方。你知道了 AI 画图不是在白纸上作画，而是在一团雪花里听着你的话做雕刻。那么下次你再用这些工具的时候，你就不会再随便扔一句橘猫进去，然后抱怨它画得不像了。你会明白，你说的每一个字，都是在给那只凿石头的手指方向。

这就是 AI 时代普通人最该握住的那根杠杆：你不需要变成那个造工具的工程师，你只需要搞懂工具的原理，然后学会怎么把话说清楚、怎么精准地指挥它。懂原理的人指挥 AI，和不懂原理的人胡乱试，差的不是一点半点。

最后给你留个问题琢磨琢磨：如果 AI 画出来的每一张图，本质上都是从一团随机的雪花里去噪去出来的，那这世界上其实藏着无穷无尽、还没被任何提示词唤醒的画面，它们都还静静地躺在那些雪花里。那么，当一张以前从不存在的图，被你的一句话第一次显影出来——这到底算 AI 的创造，还是算你的创造呢？

📺 更多元知识视频，搜索 Wiki4What | 🌐 blog.wiki4what.com

Tagged in:

Wiki4what 科普元知识扩散模型 AI画图 AI入门第一性原理

什么是扩散模型

米开朗基罗那把钥匙

前向扩散：先学会怎么把画毁掉

模型学的不是画画，而是预测噪声

反向去噪：魔法发生的瞬间

提示词是你伸进雪花里的那只手

扩散模型为什么取代了 GAN

从画图到出视频

懂原理的人指挥 AI，和不懂的人差的不是一点半点

王利杰

Other Stories

什么是推理模型

什么是扩散模型

什么是推理模型

什么是生成式AI

Press ESC to close

Or check our Popular Categories...

米开朗基罗那把钥匙

前向扩散：先学会怎么把画毁掉

模型学的不是画画，而是预测噪声

反向去噪：魔法发生的瞬间

提示词是你伸进雪花里的那只手

扩散模型为什么取代了 GAN

从画图到出视频

懂原理的人指挥 AI，和不懂的人差的不是一点半点

Share Article:

Related Articles

Other Stories

什么是推理模型