2025年2月16日
摘要: 关注公众号回复1 获取一线、总监、高管《管理秘籍》 结合近期对DeepSeek的探索,对之前文章的内容做一些更新,主要是两个方面:训练过程的优化策略GRPO,以及架构侧的一个创新MLA。 MLA MLA,被认为是实现DeepSeek高效推理和低成本训练的核心技术。 MHA(多头注意力)通过多个注意力 阅读全文
posted @ 2025-02-16 10:27 叶小钗 阅读(652) 评论(0) 推荐(1)