LLM 发展的飞快,现在每天都在使用基于 Transformer 的模型——ChatGPT、Claude、GitHub Copilot 等。
那么 Transformer 是什么?当我们输入一段文字后,这些模型是如何”理解”并生成回复的?

元旦放假,趁着有时间对 Transformer 进行了学习,这篇文章是学习过程中的笔记。我重点将从工程师的视角,来学习 Transformer 在推理阶段的工作原理。对于做工程来说,复杂的数学证明和训练算法是没有必要的,但通过代码类比和直观图解,可以让我们更加深入的理解 LLM 是如何运转的。下次再听到 混合专家模型(MoE) 等等,就不会只从形式上理解,而是有更加深入的算法对应关系了。

阅读全文 »

近期 quickjs 的作者发布了 mquickjs,在保持性能接近的情况下,内存占用大幅缩小,运行时整体内存占用只需要 100kb。

由于好奇 mquickjs 在内存和执行速度上到底怎样,我跑了一些跟 Node.js 和 QuickJS 的对比。

阅读全文 »
0%