我们过去的观点里面:文字是精简的,抽象的;图像和视频体积一个比一个大,因为包含了

法正观汽车啦 2025-10-25 19:23:45

我们过去的观点里面:文字是精简的,抽象的;图像和视频体积一个比一个大,因为包含了很多的无效信息

然而 Deepseek 的 OCR 小模型,识别图象是直接用图像 token 而不是文本 token,精简 10 倍以上

也就是说:在 AI 眼里,图像和视频可以比文本更精简

这是反常识的,人类需要适应 ​​​

0 阅读:0
法正观汽车啦

法正观汽车啦

感谢大家的关注