什么是生成式AI

这两年，你大概天天都在听一个词——生成式 AI。AI 画图、AI 写文章、AI 做视频、AI 写代码，好像一夜之间，机器突然就会“无中生有”了。可你有没有停下来想一想：凭什么以前的 AI 只会帮你认认人脸、拦拦垃圾邮件，这两年的 AI 却突然会“创作”了？同样都叫 AI，这中间到底差了一道什么样的坎？

判别 vs 生成：一所画画学校里的两种学生

我先把那个最关键的分界线，直接画给你看。想象一所画画学校，这所学校里有两种完全不同的学生。

第一种学生，他这辈子的目标，是当一个鉴定师。他每天干的事，就是看画——老师给他看一万张猫的画，再给他看一万张狗的画，反复地看、反复地比。看到最后，他练就了一身什么本事呢？你随便丢给他一张画，他扫一眼就能告诉你：这是猫，还是狗。注意，这位鉴定师，他厉害是厉害，可他这辈子，一笔画都不会画。他的全部本事，就是“判断”和“区分”——在猫和狗之间，划出一条界线。这种只会判断、只会分类的 AI，就叫判别式 AI。

第二种学生，他的目标完全不一样。他要当的，是个画家。他看那一万张猫的画，看的根本不是“这是不是猫”，他看的是更深的东西：猫的耳朵为什么是尖的，胡须是怎么长的，毛是顺着哪个方向铺的。他要把“一只猫到底凭什么长成一只猫”这件事，从骨子里吃透。吃透到他可以拿起笔，凭空给你画出一只全世界从来没有存在过的猫——但你一看，就知道那是只活生生的猫。这种学了规律之后能“无中生有”造出新东西的 AI，就叫生成式 AI。

同样是看那一万张猫的画，鉴定师学的是“边界”——猫和狗之间那条线在哪；画家学的是“规律本身”——一只猫从里到外是怎么构成的。这一字之差，就是判别和生成之间，那道最深的鸿沟。

判别式 AI：人脸识别、垃圾邮件过滤、银行风控——只会指，不会画
生成式 AI：画图、写文章、作曲、做视频——会无中生有地创造

生成的本质：先学“分布”，再“采样”

一台机器，凭什么能像那位画家一样“无中生有”？它的秘密，藏在一个词里，叫分布。

你闭上眼睛，想象一下“猫”长什么样。你脑子里浮现的，不是某一只具体的猫，而是一团模模糊糊的“猫的感觉”——大概有耳朵、有胡须、毛茸茸的、会有一双圆眼睛。这团“猫的感觉”，就是你脑子里关于猫的分布。世界上所有的猫，无论胖瘦黑白，都落在这团感觉的范围之内；而一只长着六条腿、方脑袋的东西，就落在这团感觉之外，你一看就知道不对劲。

生成式 AI 干的第一件事，就是把全世界几百万张猫的图片读进去，在它自己的脑子里，也算出这么一团“猫的分布”。这一步，跟那位画家把猫的规律吃透，是一模一样的。

那它怎么“画”呢？这就是第二步，也是最神奇的一步，叫采样。学会了那团分布之后，机器就在这团“猫的感觉”的范围之内，随手“抓”出一个点来。它抓到的这个点，不是它见过的任何一张原图，而是落在这片范围里的一个全新的组合——于是，一只世界上从没存在过、但怎么看怎么是猫的猫，就被它“生”出来了。

这就是“生成”两个字最朴素的真相：先学到一团关于世界的规律分布，再从这团分布里，采样出一个全新的样本。它不是从一个抽屉里翻出一张旧照片给你，它是真的在那片规律里，现捏出一个新的来。

扩散模型：从雪花噪点里“显影”一只猫

今天最厉害的那些画图 AI，用的是一种叫扩散模型的法子。它“捏”一张图的过程，简直像雕塑：一开始，它面前是一整屏的雪花点，就是老电视没信号时那种乱七八糟的噪点，啥也不是。然后它就根据你给的那句话——比如“一只戴帽子的橘猫”——一步一步地，把那些跟橘猫无关的雪花点擦掉、修正，让画面一点一点地从混沌里浮现出来。擦上几十步，一只戴帽子的橘猫，就从那片雪花里被它“显影”出来了。

文字、图片、声音、视频、代码，背后都是这一招——只不过学的那团“分布”不一样：写文章的，学的是人类语言的分布；画图的，学的是图像的分布；作曲的，学的是声音的分布。换的是教材，没换的是那套“学分布、再采样”的根本功夫。

凭什么偏偏是这两年？三股力量同时到位

这套功夫听起来也不算太玄，凭什么偏偏是这两年，它突然就成了？其实是三股力量在同一个时间点撞到了一起，缺一样都成不了。

Transformer 发动机：2017 年才发明，第一次让机器真正有能力把那团又大又复杂的规律学明白
海量数据：整个互联网几十年攒下来的文字、图片、视频，成了喂给这位“画家”的教材，多到看不完
GPU 算力：要把这么多教材读进去、把那团分布算出来，得用成千上万块 GPU 连着烧上好几个月，背后是天文数字的电费

发动机、教材、算力，这三样东西，在过去几十年里是各凑各的，谁也没等齐。直到这两年，三股力量第一次同时到位，那位“画家”才终于被真正喂大、教成。2022 年底，ChatGPT 横空出世，两个月就涌进了一亿用户。全世界在那一刻才反应过来：机器，是真的会“创作”了。

生成式 AI 和 AI 智能体：底座和用手艺干活的人

生成式 AI 和那个会自己动手干活的“AI 智能体”，是不是一回事？记住一句话：生成式 AI，是“能力底座”；智能体，是“会用这身本事去干活的人”。

生成式 AI，就好比那位画家身上画画的天赋和手艺——它本身是一种“会创造”的能力。而智能体，是把这位画家请进了一家装修公司：你跟他说“把我家客厅设计得温馨一点”，他能自己去量尺寸、自己出方案、自己买材料、自己动手刷墙，最后把活儿给你干成。画画的手艺是底座，会用这手艺自己接活、把事办成的，才是智能体。底座只有一个，但搭在底座上能干的活，千千万。

普通人只需要学会“指挥”这位画家

你完全不需要会“造”那位画家，你只需要学会怎么“指挥”那位画家。你不用懂什么叫分布、什么叫采样、什么叫扩散模型——就像你请一位画家替你画肖像，你不需要懂他怎么调色、怎么运笔，你只需要会做一件事：把你想要的东西，说清楚。

而恰恰是这一层“学了分布再采样”的认知，能让你一下子明白好几件原本想不通的事。比如，你就明白了它为什么有时候会画出六根手指头、一本正经地胡说八道——因为它本质是在一团“大概的规律”里采样，它追求的是“看起来合情合理”，而不是“字字句句都对”。再比如，你也就明白了，为什么你把要求说得越具体、越清楚，它给你的东西就越对路——因为你是在帮它，从那一大团模糊的分布里，精准地圈出你真正想要的那一小块。

AI 时代，你不需要把自己逼成一个能造大模型的专家。你只需要掌握最小的那一块底层认知，然后学会怎么去指挥这位“画家”替你干活。学会怎么指挥一个专家，永远比把自己逼成那个专家，要划算一万倍。

所以下次再有人在你面前神乎其神地聊生成式 AI，你可以淡淡地补一句：说穿了，它就是个看遍了天下的画、把规律吃透、然后从那团规律里给你现捏一个新东西出来的画家——只不过，它捏得实在是太像了。

那么问题来了：当机器已经能像画家一样，造出从未存在过的图、写出从未有人写过的句子，你觉得，这到底算不算一种“创造”？它是真的有了想象力，还是只是把人类的智慧搅拌均匀，又喂还给了我们？这个问题，连最顶尖的艺术家和科学家都还在吵。你的答案是什么，来评论区聊聊。

📺 更多元知识视频，搜索 Wiki4What | 🌐 blog.wiki4what.com

Tagged in:

Wiki4what 科普元知识生成式AI AI入门第一性原理 AI科普

什么是生成式AI

判别 vs 生成：一所画画学校里的两种学生

生成的本质：先学“分布”，再“采样”

扩散模型：从雪花噪点里“显影”一只猫

凭什么偏偏是这两年？三股力量同时到位

生成式 AI 和 AI 智能体：底座和用手艺干活的人

普通人只需要学会“指挥”这位画家

王利杰

Other Stories

什么是API

什么是生成式AI

什么是API

美元是如何被印刷出来的

Press ESC to close

Or check our Popular Categories...

判别 vs 生成：一所画画学校里的两种学生

生成的本质：先学“分布”，再“采样”

扩散模型：从雪花噪点里“显影”一只猫

凭什么偏偏是这两年？三股力量同时到位

生成式 AI 和 AI 智能体：底座和用手艺干活的人

普通人只需要学会“指挥”这位画家

Share Article:

Related Articles

Other Stories

什么是API