什么是 Transformer?
LLM 发展的飞快,现在每天都在使用基于 Transformer 的模型——ChatGPT、Claude、GitHub Copilot 等。
那么 Transformer 是什么?当我们输入一段文字后,这些模型是如何”理解”并生成回复的?
元旦放假,趁着有时间对 Transformer 进行了学习,这篇文章是学习过程中的笔记。我重点将从工程师的视角,来学习 Transformer 在推理阶段的工作原理。对于做工程来说,复杂的数学证明和训练算法是没有必要的,但通过代码类比和直观图解,可以让我们更加深入的理解 LLM 是如何运转的。下次再听到 混合专家模型(MoE) 等等,就不会只从形式上理解,而是有更加深入的算法对应关系了。
