在大模型领域,几乎每一次创新都意味着技术的飞跃。从Transformer的崛起到GPT系列的壮大,每一次进展都让人工智能朝着更强大的方向前进。而今天,MiniMax公司推出的MiniMax-01,再次让人看到了大模型架构和技术突破的巨大潜力。它不仅代表着国内在大模型领域的技术前沿,也标志着一个新的“大模型时代”的开始。400万Token上下文:大模型的突破1月15日,MiniMax正式发布了预告已...
2025年2月18日,人工智能领域又迎来了一项重磅技术突破。DeepSeek宣布推出其全新的技术——NSA(稀疏注意力机制),该技术专为超快速的长上下文训练和推理设计。NSA不仅与现代硬件高度兼容,并且能够在保持高性能的同时显著加速推理过程,同时降低了预训练成本。NSA的核心创新:高效的稀疏注意力机制随着AI模型对计算能力和内存需求的不断增长,长上下文任务的训练和推理一直是人工智能发展的瓶颈之一。...