到底什么是生成式大语言模型AI?我今天力求用最简单的语言给大家讲明白,资本包装

孤鸿泽 2025-11-11 10:45:15

到底什么是生成式大语言模型AI ?

我今天力求用最简单的语言给大家讲明白,资本包装吹得神乎其神的 AI 到底是个什么玩意。AI的本意是人工智能,人类利用技术实现人类自身的思考人脑智能的过程,但现在的AI圈把LLM与AI的概念混同了。他们是故意这样做的,现在AI的营销属性远远大于技术。

我们先回到AI发展的历史,现代意义上的AI要追溯到imageNet,是一个由华人女科学家李飞飞发起的一个计算机视觉识别比赛。imageNet非常原始,它有一千多万张图片构成,里面有2200个分类,比如有若干张狗、猫、苹果、桌子等各类物品的图片。这些图片全部由人手工收集并进行标注,形成数据库,每一张图片代表什么。参赛者可以下载这些数据集对自己的算法进行训练,训练完成后,大赛再提供一组从未在图库里出现过的同类图片,比如说图库中只有波斯猫,银渐层等,没有狸花猫,那么给出狸花猫让参赛者经过训练的程序识别。谁在2200个分类里识别的准确率高,谁就赢了。

一开始正确率只有15%~20%~30%这么稳步地发展。直到有一年,一个叫AlexNet 的算法将准确率提高到了85%。李飞飞听到以后头都炸了,怎么可能这么强,这不科学,但她已经意识到图像识别的时代到来了。AlexNet 用的是神经网络算法,其实这是一个在IT界中比较古老且笨拙的算法,它并不是一个“高科技”,但它在图像识别领域有神奇的能力。

三年后一个强化的神经网络算法CNN代替了AlexNet,又过了两年谷歌的几个工程师发表了论文《Attention Is All You Need》开源了一个全新的神经网络架构Transformers,也就是现在所有AI大模型的爹。

无论是AlexNet,CNN,还是Transformers,它们的底层算法本质都没有变过。使用了完全相同的一套机制,前向传播,反向传播,梯度下降,大的环节就这么三个,来回地折腾几百亿次就是训练的过程。所以归根结底,现在的所有AI的智能的本质就是由梯度下降产生的。

什么叫梯度下降?这要从AI的训练过程说起。AI的训练需要程序设定一个教学过程,把大模型当成一无所知的徒弟。训练集的数据设定了一个正确的标准,比如说正确的标准是10(实际上是一个矩阵值),然后AI尝试去识别得到正确的答案,它会从一个初始值和随机数开始随机瞎蒙。比如随机得到了3,去和正确的值10对比,发现有7个数的差距,这就是损失,计算损失的代码叫损失函数。这就是AI算法的核心,然而它简单得不能再简单了,表达是θ=θ−α∇θJ(θ)。

由于没得到老师的认可,AI再一次进行训练,将3这个值加上3,结果是6,再拿去与10比较,损失函数计算后还是有差距,那就继续训练,再加上3。等到训练值到9的时候如果再加3就等于12,显然颗粒度太大了,所以这时就启动梯度下降算法,将颗粒度降到1,这时经过几次训练,AI准确地命中了10的数值。

训练成功以后AI得到了一个巨大的参数库,当你输入任意一张图片,它通过曾经自己训练过的数据就能判断出这个文字图片是什么。CNN就是靠这个方法完成对未知图片的识别,因为经过训练,抽象出来了一个狗的通用数学矩阵,只要在近似值范围内,全都是狗。这是一个完全机械的拟合过程,与智能没啥关系,要说智能,只能说人发明这种算法还是挺智能的。

Transformers强化和简化了CNN,让本来只擅长处理图片识别的神经网络程序可以更好地处理文字。Transformers提出了一种注意力机制,它对用户输出的句子进行拆分成多个token(词),然后对每一个词进行一个打分(权重)公式是这样的Attention(Q,K,V)=softmax(dk​​QKT​)V 简而言之,就像你使用谷歌搜索网页,它将你搜索的提示词,匹配到它通过打分(pagerank)的网页上,那么第一个网页就是大模型给你返回的回答。

Transformer 是从 Google 翻译系统的 Attention 机制演化来的,它把“词与词之间的语义关系”放在了算法核心,从此机器第一次在形式上“模拟了语义相关性”。

这一切也完全是机械的,没有任何的思考过程。所有大模型的梯度算法的本质就是尝试答案对不对,如果不对那么相对于真实的答案还差了几,自己就减去几。这算什么智能?人类的智能可不是这么来的,这种梯度的猜测只是人类智能经过决定使用的一种方法。人类在寻找答案时未必知道答案是什么,并且可以通过想象去假设,排除,修正,优化,等一系列的复合方法,但最终的结果必然符合一种东西逻辑。这种逻辑是人脑内置的推理和评价算法系统,而梯度只是其中之一。大模型而言,梯度是全部。

一句话,当前的LLM是对CNN神经网络和网页搜索的整合,它对人类的智能根本就没什么关系。有人说人类也是这么思考的,没错,人类有拟合过程,也使用逼近法,但那是人类经过主动思考进行的决策而采用的工具或方法。

AI的发展历史是ImageNet→ CNN → RNN → Attention(seq2seq) → Transformer → LLM 这么一个顺序。

准确地说,LLM是机器学习的一个进化,但与智能还没有产生确实的关系。因为它的训练算法还是用梯度下降控制,与人类的思考、决策、推理速度的即时反馈性完全不在一个维度。人类是真正的自然智能的高级阶段,LLM只使用机械的方法拟合模拟了人的语言处理过程。这就好像人是经过思考决定怎么向前运动的,气球是被风吹动的,你不能说两个都向前动了,气球产生了智能,这是不可能的,它没思考过,因为它没有脑子。

那说吹什么大模型几百亿个参数多么酷炫多么高科技似的,实际上这就好像说我的数据库里有100亿条数据,所以我代表了顶尖科技一样可笑,数据多就是智能?LLM生成式AI本质上是一个基于海量数据训练的、统计和概率拟合系统。 当前的LLM不超过20个核心数学公式,它根本就不复杂,而且非常简单,梯度下降也就用了个极限的概念,高中数学就能看懂。本质就是前向投喂数据,反向计算损失,然后梯度下降得到结果的过程。这玩意没什么技术护城河,所以才用烧硬件来当护城河。

现在所有的AI都是工程问题,妄图用一个巨大的工程造价拦住竞争对手,它的本质是暴力化的大型IT工程基建和能源的消耗,而非一个智能和技术奇迹,因为真正的智能不会这么蠢笨。

0 阅读:3
孤鸿泽

孤鸿泽

感谢大家的关注