DeepSeek 发布了一个新型 OCR文档理解模型:DeepSeek-OCR
它不仅解析图像文档达到了一流水平
还探索出了一个大胆的想法👇🏻
大语言模型(比如 GPT)在处理长文章时,消耗的计算量会爆炸性增长。
但如果把文字“画成图片”,模型只需要很少的“视觉 token”就能理解同样内容。
这样做相当于给AI一个**“视觉记忆压缩”机制**。
也就是:
他们先把长文本压缩生成一张图片,用视觉模型将其压缩成只需少量“视觉 token”,然后再用语言模型从这些 token 解码出文字。
换句话说,他们让模型“看图识字”来代替“逐字阅读”,把文字信息压缩进图像空间,从而实现大幅度的 token 减少。
比如:
1000 个字的文章,压缩成图像只需用 100 个视觉 token(压缩 10×)表示,模型解压时候仍能还原出 97% 的原文。
这就展示了一种**“视觉压缩记忆”**的概念:
-未来的AI可以把旧记忆变成图片保存;
-用更少的计算处理“几百页”的上下文;
-这可能是解决“LLM记忆上限”的关键技术。
他们将视觉压缩比拟为人类的“遗忘曲线”:
也就是说:
近期的上下文保留高分辨率图像(高保真信息);
较旧的上下文可被压缩为模糊图片(低信息密度);
这样既节约计算资源,又模拟了人类“遗忘”的自然过程。
点击图片查看原图