2025年12月

咖啡喝多了睡不着,突然脑袋里蹦出这个标题。

你看,所谓的“预训练”(Pre-training),不就是我们的基因吗?

出厂设置里就写好了:见到蛇会怕,吃到糖会开心,到了青春期荷尔蒙会乱撞。这都是几百万年进化论喂给我们的“大数据”。不需要谁教,你天生就知道要躲避痛苦、追求快乐,甚至连某些恐惧——比如恐高或者密集恐惧症——都像是写在底层代码里的权重,不管你愿不愿意,开机自带。

这部分甚至决定了我们的“算力上限”。有的人天生逻辑处理强,有的人情感模块敏锐,硬件差异摆在那儿,不得不服。

然后呢,出生之后,“后训练”(Post-training / Fine-tuning)就开始了。

这就是原生家庭、学校教育、你在哪儿摔过跟头、被谁爱过又被谁坑过。特别是童年那几年,简直就是高强度的SFT(监督微调)。父母的每一句唠叨,老师的每一把红叉,都在调整你的神经网络参数。

有意思的地方在于,就像AI模型一样,有时候“预训练”太强大了,你怎么微调都很难改。比如一个人天生内向敏感(预训练),你非要把他丢到销售岗去搞魔鬼训练(后训练),结果往往是模型崩塌(崩溃),而不是变成社牛。

但人类比AI复杂的一点是,我们好像还有一个“强化学习”(RLHF)的机制,而且这玩意儿是实时的、终身的。

社会就是那个巨大的奖励函数。你做了一件事,周围人给了正反馈(点赞、加薪、拥抱),你的大脑就分泌多巴胺,告诉你“这个策略是对的”;你搞砸了,丢脸了,那个痛苦的惩罚机制立马生效,让你下次不敢再这么干。我们一辈子都在为了这还是那个隐形的Reward Model(奖励模型)打工。

不过,如果真的只是这样,人生未免也太像个设定好的程序了。

我总觉得,在这套“预训练+后训练”的框架之外,人类可能还保留了一点点被称为“随机性”或者“幻觉”的东西——也就是所谓的创造力或者自由意志

AI产生幻觉是在胡说八道,人产生幻觉,有时候却是在搞艺术,或者在绝境里想出了没人见过的路子。哪怕只有1%的权重是留给这种“系统错误”的,可能也是我们之所以为人的原因吧。

说到底,大家都是在大模型里炼丹,只是不知道我们最终会被炼成什么样。