Notes on LLMs, agents, and things I'm learning
从直觉到数学,深入理解 Self-Attention 的工作原理
Group Relative Policy Optimization 如何简化 RLHF 流程