Mar 19, 2026
为什么GPT采用纯Decoder结构?
为什么只需要保留Decoder?如果加上Encoder会如何?逆向诅咒?
为什么需要Embedding?
Embedding是啥?
从零训练一个LLM的全流程
三个主要阶段