新一代语言模型ModernBERT发布：速度快四倍、成本更低，开启AI语言处理新纪元

2024-12-23 10:09:17 369 大屏时代

2024年12月23日——由Answer.AI与LightOn联合推出的开源语言模型ModernBERT，已正式发布。这一全新的语言模型是对谷歌BERT的重大升级，具备了更高的处理速度、更低的成本和更强的处理效率，在多个任务中表现出色，尤其是在处理速度和内存使用方面大幅提升。

ModernBERT：速度、效率和质量的突破

ModernBERT的设计采用了全新的技术架构，使其在处理速度、内存使用和质量上都得到了显著提升。与前身BERT相比，ModernBERT在执行相同任务时速度提高了四倍，同时内存消耗大幅减少，提升了计算资源的利用效率。

特别值得注意的是，ModernBERT支持长达8192个标记的文本处理，这是当前大多数编码模型的16倍。例如，BERT的典型限制为512标记，而ModernBERT则可以处理更长文本，从而在需要处理大量数据或长文本的任务中展现出优势。

此外，ModernBERT还是第一个经过广泛训练的编程代码编码模型，其在StackOverflow问答数据集上的表现令人瞩目，得分超过80，创下了编码模型的新纪录。

卓越表现：GLUE和成本优势

在通用语言理解评估（GLUE）中，ModernBERT-Large展现了出色的处理速度与准确性平衡，每个标记的处理时间约为20毫秒，得分达到90，展现了高效且可靠的性能。开发团队将其比作一辆经过调校的本田思域，强调其在日常应用中的可靠性与效率。

与当前领先的大型语言模型，如GPT-4相比，ModernBERT在大规模文本处理方面的优势尤为突出。在成本方面，ModernBERT在处理大规模数据时相较于GPT-4能够大幅降低成本。例如，FineWeb Edu项目在过滤150亿个标记时，使用BERT模型的成本为6万美元，而使用谷歌的Gemini Flash解码器则需要超过100万美元。通过使用ModernBERT，开发者可以显著减少每次查询的费用，从而降低了整体运营成本。

广泛应用：从RAG到代码搜索

ModernBERT的设计使其适用于多种实际应用，尤其在检索增强生成（RAG）系统、代码搜索和内容审查等领域表现尤为出色。与需要专门硬件的GPT-4不同，ModernBERT能够在普通消费级游戏GPU上高效运行，为广大开发者带来更具成本效益的选择。

目前，ModernBERT提供两个版本：基础模型包含1.39亿个参数，另一个大型版本包含3.95亿个参数。两个版本已在Hugging Face平台发布，用户可以直接用它们替换现有的BERT模型。开发团队计划在明年推出更大版本，但目前并未考虑加入多模态能力。

推动AI应用创新：挑战与激励

为了激励更多开发者使用ModernBERT，开发团队还发起了一项比赛，旨在促进新应用的开发。比赛将向五个最佳演示者奖励100美元和六个月的Hugging Face专业订阅。此举不仅鼓励了开发者对该模型的创新使用，也为AI应用的进一步普及奠定了基础。

结语：语言模型的未来

自2018年谷歌推出BERT以来，该模型一直是最受欢迎的语言模型之一，尤其在自然语言处理领域具有广泛应用。如今，ModernBERT的发布标志着AI语言处理技术的又一次突破。凭借其高效的处理能力、出色的成本效益和广泛的应用潜力，ModernBERT无疑将在AI领域产生深远的影响，推动更多创新应用的诞生。

随着语言模型的不断发展，未来的AI将更加智能化、个性化，能够更好地理解和处理复杂的语言任务，为各行各业提供更加精准、高效的解决方案。

相关文章

MiniMax-01：引领下一代大模型技术，开启“Transformer时刻”

AI编程：前世今生，编程助手的发展历程

阿里云通义灵码AI程序员：革新编程方式，10分钟完成网页开发与美化

人工智能编码助手 Cursor 挑战传统：拒绝代写代码，激发程序员自主编程热情

罗森布拉特发布2025年上半年科技股投资前景：AMD与美光领航AI算力革命

苹果坚守8GB内存阵地！安卓旗舰全面突破12GB，谁在引领智能手机内存大战？

上一篇： OpenAI推出全新ChatGPT记忆功能：打造个性化对话体验

下一篇： SandboxAQ完成3亿美元融资，推动大型量化模型(LQM)的创新

本文地址：https://www.dapingtime.com/article/370.html