注意力_3D标签 - 大屏时代

MiniMax-01：引领下一代大模型技术，开启“Transformer时刻”

在大模型领域，几乎每一次创新都意味着技术的飞跃。从Transformer的崛起到GPT系列的壮大，每一次进展都让人工智能朝着更强大的方向前进。而今天，MiniMax公司推出的MiniMax-01，再次让人看到了大模型架构和技术突破的巨大潜力。它不仅代表着国内在大模型领域的技术前沿，也标志着一个新的“大模型时代”的开始。400万Token上下文：大模型的突破1月15日，MiniMax正式发布了预告已...

DeepSeek发布NSA，革新长上下文训练与推理速度，打破性能瓶颈

2025年2月18日，人工智能领域又迎来了一项重磅技术突破。DeepSeek宣布推出其全新的技术——NSA（稀疏注意力机制），该技术专为超快速的长上下文训练和推理设计。NSA不仅与现代硬件高度兼容，并且能够在保持高性能的同时显著加速推理过程，同时降低了预训练成本。NSA的核心创新：高效的稀疏注意力机制随着AI模型对计算能力和内存需求的不断增长，长上下文任务的训练和推理一直是人工智能发展的瓶颈之一。...

首页 1 尾页