2024年12月23日——由Answer.AI与LightOn联合推出的开源语言模型ModernBERT,已正式发布。这一全新的语言模型是对谷歌BERT的重大升级,具备了更高的处理速度、更低的成本和更强的处理效率,在多个任务中表现出色,尤其是在处理速度和内存使用方面大幅提升。
ModernBERT的设计采用了全新的技术架构,使其在处理速度、内存使用和质量上都得到了显著提升。与前身BERT相比,ModernBERT在执行相同任务时速度提高了四倍,同时内存消耗大幅减少,提升了计算资源的利用效率。
特别值得注意的是,ModernBERT支持长达8192个标记的文本处理,这是当前大多数编码模型的16倍。例如,BERT的典型限制为512标记,而ModernBERT则可以处理更长文本,从而在需要处理大量数据或长文本的任务中展现出优势。
此外,ModernBERT还是第一个经过广泛训练的编程代码编码模型,其在StackOverflow问答数据集上的表现令人瞩目,得分超过80,创下了编码模型的新纪录。
在通用语言理解评估(GLUE)中,ModernBERT-Large展现了出色的处理速度与准确性平衡,每个标记的处理时间约为20毫秒,得分达到90,展现了高效且可靠的性能。开发团队将其比作一辆经过调校的本田思域,强调其在日常应用中的可靠性与效率。
与当前领先的大型语言模型,如GPT-4相比,ModernBERT在大规模文本处理方面的优势尤为突出。在成本方面,ModernBERT在处理大规模数据时相较于GPT-4能够大幅降低成本。例如,FineWeb Edu项目在过滤150亿个标记时,使用BERT模型的成本为6万美元,而使用谷歌的Gemini Flash解码器则需要超过100万美元。通过使用ModernBERT,开发者可以显著减少每次查询的费用,从而降低了整体运营成本。
ModernBERT的设计使其适用于多种实际应用,尤其在检索增强生成(RAG)系统、代码搜索和内容审查等领域表现尤为出色。与需要专门硬件的GPT-4不同,ModernBERT能够在普通消费级游戏GPU上高效运行,为广大开发者带来更具成本效益的选择。
目前,ModernBERT提供两个版本:基础模型包含1.39亿个参数,另一个大型版本包含3.95亿个参数。两个版本已在Hugging Face平台发布,用户可以直接用它们替换现有的BERT模型。开发团队计划在明年推出更大版本,但目前并未考虑加入多模态能力。
为了激励更多开发者使用ModernBERT,开发团队还发起了一项比赛,旨在促进新应用的开发。比赛将向五个最佳演示者奖励100美元和六个月的Hugging Face专业订阅。此举不仅鼓励了开发者对该模型的创新使用,也为AI应用的进一步普及奠定了基础。
自2018年谷歌推出BERT以来,该模型一直是最受欢迎的语言模型之一,尤其在自然语言处理领域具有广泛应用。如今,ModernBERT的发布标志着AI语言处理技术的又一次突破。凭借其高效的处理能力、出色的成本效益和广泛的应用潜力,ModernBERT无疑将在AI领域产生深远的影响,推动更多创新应用的诞生。
随着语言模型的不断发展,未来的AI将更加智能化、个性化,能够更好地理解和处理复杂的语言任务,为各行各业提供更加精准、高效的解决方案。