这两年,你大概天天都在听一个词——生成式 AI。AI 画图、AI 写文章、AI 做视频、AI 写代码,好像一夜之间,机器突然就会“无中生有”了。可你有没有停下来想一想:凭什么以前的 AI 只会帮你认认人脸、拦拦垃圾邮件,这两年的 AI 却突然会“创作”了?同样都叫 AI,这中间到底差了一道什么样的坎?
判别 vs 生成:一所画画学校里的两种学生
我先把那个最关键的分界线,直接画给你看。想象一所画画学校,这所学校里有两种完全不同的学生。
第一种学生,他这辈子的目标,是当一个鉴定师。他每天干的事,就是看画——老师给他看一万张猫的画,再给他看一万张狗的画,反复地看、反复地比。看到最后,他练就了一身什么本事呢?你随便丢给他一张画,他扫一眼就能告诉你:这是猫,还是狗。注意,这位鉴定师,他厉害是厉害,可他这辈子,一笔画都不会画。他的全部本事,就是“判断”和“区分”——在猫和狗之间,划出一条界线。这种只会判断、只会分类的 AI,就叫判别式 AI。
第二种学生,他的目标完全不一样。他要当的,是个画家。他看那一万张猫的画,看的根本不是“这是不是猫”,他看的是更深的东西:猫的耳朵为什么是尖的,胡须是怎么长的,毛是顺着哪个方向铺的。他要把“一只猫到底凭什么长成一只猫”这件事,从骨子里吃透。吃透到他可以拿起笔,凭空给你画出一只全世界从来没有存在过的猫——但你一看,就知道那是只活生生的猫。这种学了规律之后能“无中生有”造出新东西的 AI,就叫生成式 AI。
同样是看那一万张猫的画,鉴定师学的是“边界”——猫和狗之间那条线在哪;画家学的是“规律本身”——一只猫从里到外是怎么构成的。这一字之差,就是判别和生成之间,那道最深的鸿沟。
- 判别式 AI:人脸识别、垃圾邮件过滤、银行风控——只会指,不会画
- 生成式 AI:画图、写文章、作曲、做视频——会无中生有地创造
生成的本质:先学“分布”,再“采样”
一台机器,凭什么能像那位画家一样“无中生有”?它的秘密,藏在一个词里,叫分布。
你闭上眼睛,想象一下“猫”长什么样。你脑子里浮现的,不是某一只具体的猫,而是一团模模糊糊的“猫的感觉”——大概有耳朵、有胡须、毛茸茸的、会有一双圆眼睛。这团“猫的感觉”,就是你脑子里关于猫的分布。世界上所有的猫,无论胖瘦黑白,都落在这团感觉的范围之内;而一只长着六条腿、方脑袋的东西,就落在这团感觉之外,你一看就知道不对劲。
生成式 AI 干的第一件事,就是把全世界几百万张猫的图片读进去,在它自己的脑子里,也算出这么一团“猫的分布”。这一步,跟那位画家把猫的规律吃透,是一模一样的。
那它怎么“画”呢?这就是第二步,也是最神奇的一步,叫采样。学会了那团分布之后,机器就在这团“猫的感觉”的范围之内,随手“抓”出一个点来。它抓到的这个点,不是它见过的任何一张原图,而是落在这片范围里的一个全新的组合——于是,一只世界上从没存在过、但怎么看怎么是猫的猫,就被它“生”出来了。
这就是“生成”两个字最朴素的真相:先学到一团关于世界的规律分布,再从这团分布里,采样出一个全新的样本。它不是从一个抽屉里翻出一张旧照片给你,它是真的在那片规律里,现捏出一个新的来。
扩散模型:从雪花噪点里“显影”一只猫
今天最厉害的那些画图 AI,用的是一种叫扩散模型的法子。它“捏”一张图的过程,简直像雕塑:一开始,它面前是一整屏的雪花点,就是老电视没信号时那种乱七八糟的噪点,啥也不是。然后它就根据你给的那句话——比如“一只戴帽子的橘猫”——一步一步地,把那些跟橘猫无关的雪花点擦掉、修正,让画面一点一点地从混沌里浮现出来。擦上几十步,一只戴帽子的橘猫,就从那片雪花里被它“显影”出来了。

文字、图片、声音、视频、代码,背后都是这一招——只不过学的那团“分布”不一样:写文章的,学的是人类语言的分布;画图的,学的是图像的分布;作曲的,学的是声音的分布。换的是教材,没换的是那套“学分布、再采样”的根本功夫。
凭什么偏偏是这两年?三股力量同时到位
这套功夫听起来也不算太玄,凭什么偏偏是这两年,它突然就成了?其实是三股力量在同一个时间点撞到了一起,缺一样都成不了。
- Transformer 发动机:2017 年才发明,第一次让机器真正有能力把那团又大又复杂的规律学明白
- 海量数据:整个互联网几十年攒下来的文字、图片、视频,成了喂给这位“画家”的教材,多到看不完
- GPU 算力:要把这么多教材读进去、把那团分布算出来,得用成千上万块 GPU 连着烧上好几个月,背后是天文数字的电费
发动机、教材、算力,这三样东西,在过去几十年里是各凑各的,谁也没等齐。直到这两年,三股力量第一次同时到位,那位“画家”才终于被真正喂大、教成。2022 年底,ChatGPT 横空出世,两个月就涌进了一亿用户。全世界在那一刻才反应过来:机器,是真的会“创作”了。
生成式 AI 和 AI 智能体:底座和用手艺干活的人
生成式 AI 和那个会自己动手干活的“AI 智能体”,是不是一回事?记住一句话:生成式 AI,是“能力底座”;智能体,是“会用这身本事去干活的人”。
生成式 AI,就好比那位画家身上画画的天赋和手艺——它本身是一种“会创造”的能力。而智能体,是把这位画家请进了一家装修公司:你跟他说“把我家客厅设计得温馨一点”,他能自己去量尺寸、自己出方案、自己买材料、自己动手刷墙,最后把活儿给你干成。画画的手艺是底座,会用这手艺自己接活、把事办成的,才是智能体。底座只有一个,但搭在底座上能干的活,千千万。
普通人只需要学会“指挥”这位画家
你完全不需要会“造”那位画家,你只需要学会怎么“指挥”那位画家。你不用懂什么叫分布、什么叫采样、什么叫扩散模型——就像你请一位画家替你画肖像,你不需要懂他怎么调色、怎么运笔,你只需要会做一件事:把你想要的东西,说清楚。
而恰恰是这一层“学了分布再采样”的认知,能让你一下子明白好几件原本想不通的事。比如,你就明白了它为什么有时候会画出六根手指头、一本正经地胡说八道——因为它本质是在一团“大概的规律”里采样,它追求的是“看起来合情合理”,而不是“字字句句都对”。再比如,你也就明白了,为什么你把要求说得越具体、越清楚,它给你的东西就越对路——因为你是在帮它,从那一大团模糊的分布里,精准地圈出你真正想要的那一小块。
AI 时代,你不需要把自己逼成一个能造大模型的专家。你只需要掌握最小的那一块底层认知,然后学会怎么去指挥这位“画家”替你干活。学会怎么指挥一个专家,永远比把自己逼成那个专家,要划算一万倍。
所以下次再有人在你面前神乎其神地聊生成式 AI,你可以淡淡地补一句:说穿了,它就是个看遍了天下的画、把规律吃透、然后从那团规律里给你现捏一个新东西出来的画家——只不过,它捏得实在是太像了。
那么问题来了:当机器已经能像画家一样,造出从未存在过的图、写出从未有人写过的句子,你觉得,这到底算不算一种“创造”?它是真的有了想象力,还是只是把人类的智慧搅拌均匀,又喂还给了我们?这个问题,连最顶尖的艺术家和科学家都还在吵。你的答案是什么,来评论区聊聊。
📺 更多元知识视频,搜索 Wiki4What | 🌐 blog.wiki4what.com
