实测DeepSeek新上线多模态识图：这次真的追上GPT-4V了吗？

实测DeepSeek新上线多模态识图：这次真的追上GPT-4V了吗？封面

实测DeepSeek新上线多模态识图：这次真的追上GPT-4V了吗？

今天DeepSeek悄悄灰度上线了多模态识图功能，没有官宣、没有造势，直接在网页端就能用。作为国产大模型里代码能力的标杆，这次的多模态能力到底什么水平？我第一时间做了深度测试+技术拆解。

核心技术亮点：不是简单的「加个视觉模块」

DeepSeek这次的多模态和很多厂商拼接式的多模态不一样，核心是做了三个层面的技术优化： 1. 视觉编码器和基座模型深度对齐：用了超过10亿级别的图文配对数据做端到端预训练，视觉特征和文本特征的匹配度比普通拼接模型高28%，不会出现「图和文字对不上」的低级错误 2. 原生支持长图+复杂图表解析：专门针对长截图、表格、公式场景做了优化，实测支持最长20000px的长图解析，财务报表、技术架构图、数学公式的识别准确率超过95% 3. 低资源推理优化：多模态模式下推理速度和纯文本模式几乎持平，显存占用只增加了30%，普通消费级显卡也能跑量化版的多模态模型。

实测体验：细节能力直接拉满

我用了10组不同场景的测试用例做测试，几个印象最深刻的点： ✅ 复杂代码截图识别：贴了一张50行的分布式训练代码截图，不仅100%准确识别了所有代码，还直接指出了其中两个隐藏的性能瓶颈，给出了优化方案 ✅ 手绘架构图解析：随手画的一张微服务架构草图，准确识别了所有组件和调用关系，还给出了架构优化建议 ✅ 公式推导能力：贴了一张量子力学的公式手稿，不仅准确识别了所有符号，还完整推导了公式的演变过程，给出了适用场景说明 ✅ 长文档截图解析：贴了一张10页的论文长截图，直接提炼了核心观点、实验数据和结论，比自己读快了10倍。

对比同价位的其他国产多模态模型，DeepSeek这次的多模态能力在专业场景的表现已经和GPT-4V不相上下，部分代码相关的场景甚至超过了GPT-4V。

为什么这是国产多模态的里程碑？

过去国产多模态模型普遍存在「偏科」问题：要么泛化能力强但专业场景准确率低，要么专业场景强但泛化能力差。DeepSeek这次的多模态做到了两者的平衡：普通用户可以用它识别日常生活场景，专业开发者可以用它做代码解析、论文解读、架构图分析，真正做到了「通用+专业」两不误。按照目前的迭代速度，DeepSeek大概率会在今年Q3推出正式版的多模态大模型，到时候国产多模态和GPT-4V的差距会进一步缩小。

附：目前灰度版使用方法

现在DeepSeek网页端已经默认开放了多模态功能，不需要申请资格，直接上传图片就能用，免费额度每天有50次，普通用户完全够用。 *目前已知的小问题：对中文手写体的识别准确率还有提升空间，复杂场景的OCR偶尔会有小错误，后续应该会快速迭代优化。

「易观AI」是易观矩阵旗下垂直科技账号，专注硬核技术拆解、新工具测评、前沿趋势解读，带你看懂AI技术背后的底层逻辑。

在 AI技术

中科院扔出AI王炸！「磐石100」模型体系发布：科研直接从「单兵作战」变「集团冲锋」

自动化运营系统

AI项目定制

AI方案

AI产品周边

跟随我们

实测DeepSeek新上线多模态识图：这次真的追上GPT-4V了吗？

实测DeepSeek新上线多模态识图：这次真的追上GPT-4V了吗？

核心技术亮点：不是简单的「加个视觉模块」

实测体验：细节能力直接拉满

为什么这是国产多模态的里程碑？

附：目前灰度版使用方法