为什么我还是无法理解transformer?

2025-06-24 17:20:13

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。

反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。

总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。

为什么我还是无法理解transformer?
广告位810*200
相关阅读
特斯拉宣布将于 6 月 22 日开始 Robotaxi 公开试运营,这将对自动驾驶行业带来哪些影响?

特斯拉宣布将于 6 月 22 日开始 Robotaxi 公开试运营,这将对自动驾驶行业带来哪些影响?

稳定性很差,特斯拉Robotaxi首秀,第一天就翻车了。 ...

2025-06-24
为什么程序员的电脑永远没有弹窗广告?

为什么程序员的电脑永远没有弹窗广告?

说明:该篇幅会超级长,包含普通用户和会用PC的人的操作习惯差...

2025-06-24
如何评价华为鸿蒙电脑?

如何评价华为鸿蒙电脑?

6月19号更新: Debian 12 ARM虚拟机:上午的时...

2025-06-24
如何正确使用Obsidian记录笔记?

如何正确使用Obsidian记录笔记?

最近一年尝试了各种笔记软件,私有云存储方案; 目前定下来这套...

2025-06-24
导师给了1.4W要我给工作室买个主机,是整机还是自己配?

导师给了1.4W要我给工作室买个主机,是整机还是自己配?

如果这台电脑是导师私库给你的钱,放在工作室也只有你用,那你就...

2025-06-24