Coding mistake #54

hlxs-c · 2025-01-11T10:14:45Z

File: Codes/ch03/01_main-chapter-code/ch03.ipynb

CausalAttention 类中的forward方法，对注意力分数进行softmax的部分有问题：

这里如果设置为dim=1，就不能处理批次情况了。在输入的形状为[batch_size, num_tokens, d_in] 时，attn_scores的形状为[batch_size, num_tokens, num_tokens]，此时应该是在dim=2上进行softmax才是正确吧，所以应该为dim=-1。

HeiBoWang · 2025-01-11T10:15:19Z

你好，我已经收到您的邮件，稍后尽快给你回复。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Coding mistake #54

Coding mistake #54

hlxs-c commented Jan 11, 2025

HeiBoWang commented Jan 11, 2025 via email

Coding mistake #54

Coding mistake #54

Comments

hlxs-c commented Jan 11, 2025

HeiBoWang commented Jan 11, 2025 via email