1.1.2 自注意力机制与多头注意力机制_DeepSeek原理与项目实战：大模型部署、微调与应用开发-QQ阅读女生中文现言网

自注意力（Self-Attention）机制是Transformer模型的关键机制，用于捕获输入序列中不同元素的相关性。它的作用是让每个输入元素（如一个单词）根据其他元素的信息动态调整自身表示，这种能力使大模型能够更深入地理解序列中的上下文关系。

其基本工作流程包括3个步骤。

（1）计算相关性：将每个输入元素与序列中所有其他元素进行比较，得到一组相关性分数。

（2）权重分配：根据相关性分数，为输入元素分配不同的权重，表示其他元素对该元素的影响程度。

（3）信息聚合：将所有输入元素的加权信息进行汇总，为每个元素生成一个新的表示。

这种机制不仅可以捕获序列中的局部依赖关系，还能够处理全局的信息传递，这对长文本或复杂序列的建模尤为重要。

多头注意力机制是在自注意力的基础上进行的扩展，用于提升模型的表达能力。它通过多个“头”并行计算不同维度的注意力信息，使模型可以从多种角度理解序列。多头注意力机制结构示意图如图1-2所示。

图1-2　多头注意力机制结构示意图

（1）单个注意力头的局限性：如果只有一个注意力头，模型只能关注序列中某一特定方面的关系，可能忽略其他重要信息。

（2）多头的优势：多个注意力头可以在不同的子空间中独立学习，即使是对于同一个输入序列，不同的头也能捕捉到不同层次的特征。最终，这些特征会被整合到一起，形成更全面的表示。

例如，在处理一句话时，一个头可能关注语法关系，另一个头可能关注语义，第三个头可能关注全局上下文。通过多头机制，模型能够同时捕获多种不同层次的信息，提高对输入序列的理解能力。

在DeepSeek-V3中，自注意力机制和多头注意力机制得到了进一步优化，以提升性能和效率。其优化集中在以下方面。

（1）多头潜在注意力机制：DeepSeek-V3引入了多头潜在注意力架构，通过低秩压缩的方法降低注意力计算过程中对内存的需求，显著提升了推理效率。

（2）压缩后的Key-Value缓存：在生成过程中，DeepSeek-V3使用压缩技术减小了Key（键）和Value（值）缓存的大小，同时保持了计算性能，这对于处理长序列任务非常重要。

（3）旋转位置嵌入：通过改进的旋转位置嵌入（Rotary Position Embedding，简称RoPE）技术，DeepSeek-V3能够更好地建模长上下文之间的依赖关系，在长文本任务中的表现有大幅提升。

这些改进使DeepSeek-V3在保持高性能的同时，显著降低了内存占用和计算开销。

自注意力机制解决了传统循环神经网络（RNN）无法并行处理序列的缺陷，同时突破了其在长序列处理上的局限，而多头注意力机制进一步增强了模型的表达能力。这两者的结合构成了Transformer模型的核心，使其能够灵活应对多种自然语言处理任务。

DeepSeek-V3通过在自注意力机制和多头注意力机制上的创新，进一步优化了注意力计算的效率和性能，不仅在语言生成任务中表现出色，还在代码生成、数学推理等复杂任务中展现了强大的泛化能力。