2024年12月16日,清华系AI基础设施创业公司无问芯穹(Infinigence)宣布正式开源其端侧全模态理解小模型 Megrez-3B-Omni,并同步发布其纯语言版本 Megrez-3B-Instruct。此次开源的Megrez-3B-Omni具有强大的图片、音频和文本三种模态数据处理能力,成为端侧智能设备的一项重要技术突破。
Megrez-3B-Omni是一款专为端侧设备设计的全模态理解模型,拥有30亿个参数,大小适中,能够在手机、平板等设备上高效运行。该模型在推理速度上领先同精度模型300%以上,且在多个标准基准测试中表现出色,特别是在图像理解、文本理解和语音理解方面。它能够灵活地在三种模态之间切换,支持用户通过语音、图片或文本输入与模型进行互动,快速响应并生成相应输出。
例如,用户可以拍摄一张单据图片并询问模型“6个人AA人均多少钱”,模型将快速计算并提供答案。随后,用户可通过语音指令要求模型生成一段幽默的催款文案,Megrez-3B-Omni能够即刻按要求输出内容。
与其他同类模型如VITA、Baichuan-Omni-7B等相比,Megrez-3B-Omni在主流基准测试集上的表现并不逊色。尤其是在图像理解方面,Megrez-3B-Omni以3B体量对标传统34B模型,其精准度已经超越了多个大型模型,如LLaVA-NeXT-Yi-34B等,表现出强大的图像识别能力。
例如,Megrez-3B-Omni在场景理解、OCR(光学字符识别)等任务中表现卓越,能够准确地从低质量、模糊的图像中提取文本信息,即使是复杂的手写字体也能快速识别。
在文本理解方面,Megrez-3B-Omni结合了上一代14B模型的优异性能,能够在3B的规模下提供更高的性能输出,显著降低计算成本,并提高计算效率。这使得它能够在理解长文本和进行文本推理时迅速做出准确响应,尤其适用于教育、文案写作、代码审查等场景。
此外,Megrez-3B-Omni还具备语音输入的处理能力,支持中文和英文语音,并能够与图片或文字结合进行语音提问。例如,用户可以通过语音提问“这张图中显示的是什么?”并获得即时的答案。该模型的语音理解能力堪比行业主流解决方案,支持多轮对话并能够跨模态进行高效切换。
除了Megrez-3B-Omni,无问芯穹还开源了纯语言模型版本Megrez-3B-Instruct,并为其新增了WebSearch功能。这一功能允许模型调用外部工具进行网页搜索,帮助用户获取最新的信息,从而解决了传统小模型知识储备不足的问题。WebSearch的智能切换机制确保了在适当的时机调用外部搜索,而不会影响推理速度或质量。
无问芯穹在推理加速和硬件优化方面具有显著优势。Megrez-3B-Omni模型在端侧设备上的高效表现,离不开软硬件协同优化策略。通过深入理解硬件特性并进行定制优化,Megrez-3B-Omni能够最大化利用设备的硬件性能,确保在资源受限的情况下仍能快速运行。无问芯穹的技术团队已与多家知名智能设备和终端芯片厂商展开合作,力求推动端侧智能设备在大模型时代的突破。
该公司还计划推出端侧推理软件与LPU IP等,通过跨越软硬件层次的系统优化,进一步提升端设备的智能性能,推动大模型在端侧设备上的广泛应用。无问芯穹的端侧智能一体化解决方案正在逐步落地,预计在未来几年将为智能设备带来革命性的变化。
无问芯穹成立于2023年5月,由清华大学电子工程系教授汪玉及其博士毕业生夏立雪联合创办。公司致力于成为大模型时代的“算力运营商”,通过提供端侧智能一体化解决方案,推动AGI(通用人工智能)在端设备上的实现。该公司获得了百度、智谱AI、联想、小米等知名企业的投资支持,未来将在算力销售和硬件解决方案上进一步扩大市场份额。
无问芯穹的端侧大模型推理处理器LPU计划于明年与合作伙伴共同发布,预计将为智能硬件产业提供更高效、更节能的推理计算解决方案。根据公司内部的预测,预计在3到5年内实现盈利。
无问芯穹的Megrez-3B-Omni模型代表了端侧智能的一次重要突破,凭借其高效的多模态理解能力、软硬件协同优化策略和强大的计算性能,将为智能设备提供更加精准、高效的智能化服务。随着端侧设备在智能化应用中的不断普及,Megrez-3B-Omni及其后续版本将为未来的AGI系统和端侧智能设备的发展奠定基础,推动大模型在移动设备和日常硬件中的普及应用。
相关文章
清北应届生撑起DeepSeek天:年轻团队背后的中国版OpenAI
iPad也能跑GPT-4o级别模型,国产小钢炮的新突破让AI硬件不再鸡肋
AI终端爆发前夜:资本热捧电子产业链 机构扎堆掘金硬科技新蓝海