DeepSeek再出“王牌”：Janus-Pro-7B多模态AI开源亮相，性能超前作

2025-01-28 15:34:15 720 大屏时代

人工智能领域再度迎来一次里程碑时刻：2025年1月28日凌晨，国产AI先驱DeepSeek正式发布其全新的多模态AI模型——Janus-Pro-7B。这一模型在多项基准测试中取得耀眼成绩，并以完全开源的形式为全球开发者与研究人员敞开大门，体现了DeepSeek推动AI生态繁荣的雄心。

640 (2).jpg

一、多模态升级：自回归框架实现“图像理解”与“图像生成”分离

1. 基于Janus模型的全新进化
Janus-Pro-7B是DeepSeek去年10月发布的Janus模型的延伸与升级，相较前代在多模态理解与生成能力上更趋完善。其最显著的变化，在于采用了新颖的自回归框架，将视觉编码与多模态推理过程成功“解耦”，从而有效避免了图像解码环节与文本生成环节的冲突。

2. 灵活应对多任务场景

视觉编码器SigLIP-L：支持分辨率达384×384的图像输入，保证对视觉信息的高保真处理。
特定分词器+降采样：在图像生成环节中，模型采用降采样率为16的特定分词策略，确保对于复杂图像要素也能进行细腻刻画。

据DeepSeek介绍，这种设计思路为“多模态AI模型提供了更灵活的功能扩展性”，有望在未来的版本中兼容更多视觉或语音任务。

二、强势登顶测试：精度全面超越前代与竞品

1. 在GenEval与DPG-Bench表现突出
官方测评显示，Janus-Pro-7B在GenEval与DPG-Bench的准确率分别达到了80%与84.2%，显著高于前一代Janus及其他对比模型。

前代Janus：测试中准确率约61%~79.7%，与新版本存在明显差距。
OpenAI的DALL-E 3：据称也未能超越Janus-Pro-7B的综合表现，反映了国产AI在多模态生成和理解领域的“超车”潜力。

2. 多任务学习能力再进化
Janus-Pro-7B不仅能完成图像生成与图像理解任务，还可进行跨模态推理。它在不同任务类型间的切换更加高效，进一步巩固了其“全能型选手”的地位。

三、开源策略：强化行业交流，引领生态共建

DeepSeek一贯秉持“开放合作”的理念，此次Janus-Pro-7B发布也在GitHub上提供了完整开源代码，搭配Hugging Face平台上的在线DEMO与模型仓库，让开发者能够轻松上手并进行二次开发。

开源意义：

四、应用前景：为多模态AI注入“加速度”

1. 多行业场景潜力

医疗影像：Janus-Pro-7B通过视觉编码能力，可能在疾病筛查、医学辅助诊断等方面创造新价值。
文创产业：该模型对图像生成、跨模态推理的高准确度，或为动漫、游戏美术和影视特效提供全新思路。
智能机器人：在识别周围环境并与之互动的过程中，多模态模型能让机器人拥有更多“感知力”和“创意力”。

2. 深远影响
面对5G、物联网等技术的快速推进，多模态AI或将成为人机交互领域的“新风口”。Janus-Pro-7B的问世，无疑给市场注入新的动能，也向国际AI巨头们发出了国产力量的有力挑战。
随着Janus-Pro-7B正式登场，DeepSeek再次向业界展示了其在多模态AI研发上的“先发”与“深耕”。这一模型不仅在基准测试中交出亮眼成绩，也通过开源为全球AI研究者与开发者提供了绝佳资源。展望未来，Janus-Pro-7B或将在图像生成、跨模态推理等领域显现更多落地价值，助推多模态AI生态的繁荣与升级。

谷歌安卓16即将推出三应用分屏模式，提升平板效率

DeepSeek的AI大模型实测：超低成本下的意外惊喜与挑战

生成式AI价格战升级：巨头们疯狂降价，市场格局再洗牌

清北应届生撑起DeepSeek天：年轻团队背后的中国版OpenAI

国产AI之光：杭州DeepSeek公司挑战全球巨头，成为AI大模型革新先锋

上一篇：达里奥敲响AI投资警钟：美股或重演互联网泡沫破灭危机

下一篇： GameStop“再进化”：人工智能加持，能否再掀“零售革命”？

本文地址：https://www.dapingtime.com/article/1146.html