笔记 | Tranformer拆解:add & norm, Linear和Softmax_深度学习_Sher10ck_InfoQ写作社区