
实测DeepSeek新上线多模态识图:这次真的追上GPT-4V了吗?
今天DeepSeek悄悄灰度上线了多模态识图功能,没有官宣、没有造势,直接在网页端就能用。作为国产大模型里代码能力的标杆,这次的多模态能力到底什么水平?我第一时间做了深度测试+技术拆解。
核心技术亮点:不是简单的「加个视觉模块」
DeepSeek这次的多模态和很多厂商拼接式的多模态不一样,核心是做了三个层面的技术优化: 1. 视觉编码器和基座模型深度对齐:用了超过10亿级别的图文配对数据做端到端预训练,视觉特征和文本特征的匹配度比普通拼接模型高28%,不会出现「图和文字对不上」的低级错误 2. 原生支持长图+复杂图表解析:专门针对长截图、表格、公式场景做了优化,实测支持最长20000px的长图解析,财务报表、技术架构图、数学公式的识别准确率超过95% 3. 低资源推理优化:多模态模式下推理速度和纯文本模式几乎持平,显存占用只增加了30%,普通消费级显卡也能跑量化版的多模态模型。
实测体验:细节能力直接拉满
我用了10组不同场景的测试用例做测试,几个印象最深刻的点: ✅ 复杂代码截图识别:贴了一张50行的分布式训练代码截图,不仅100%准确识别了所有代码,还直接指出了其中两个隐藏的性能瓶颈,给出了优化方案 ✅ 手绘架构图解析:随手画的一张微服务架构草图,准确识别了所有组件和调用关系,还给出了架构优化建议 ✅ 公式推导能力:贴了一张量子力学的公式手稿,不仅准确识别了所有符号,还完整推导了公式的演变过程,给出了适用场景说明 ✅ 长文档截图解析:贴了一张10页的论文长截图,直接提炼了核心观点、实验数据和结论,比自己读快了10倍。
对比同价位的其他国产多模态模型,DeepSeek这次的多模态能力在专业场景的表现已经和GPT-4V不相上下,部分代码相关的场景甚至超过了GPT-4V。
为什么这是国产多模态的里程碑?
过去国产多模态模型普遍存在「偏科」问题:要么泛化能力强但专业场景准确率低,要么专业场景强但泛化能力差。DeepSeek这次的多模态做到了两者的平衡:普通用户可以用它识别日常生活场景,专业开发者可以用它做代码解析、论文解读、架构图分析,真正做到了「通用+专业」两不误。 按照目前的迭代速度,DeepSeek大概率会在今年Q3推出正式版的多模态大模型,到时候国产多模态和GPT-4V的差距会进一步缩小。
附:目前灰度版使用方法
现在DeepSeek网页端已经默认开放了多模态功能,不需要申请资格,直接上传图片就能用,免费额度每天有50次,普通用户完全够用。 *目前已知的小问题:对中文手写体的识别准确率还有提升空间,复杂场景的OCR偶尔会有小错误,后续应该会快速迭代优化。
「易观AI」是易观矩阵旗下垂直科技账号,专注硬核技术拆解、新工具测评、前沿趋势解读,带你看懂AI技术背后的底层逻辑。