训练时间短、成本低、综合性能好,主要擅长逻辑推理,信息搜索效果不佳。
蒸馏distillation:
通过模仿教师模型的输出,训练一个较小的学生模型,实现知识的传递,模型参数更少,推理速度更快,内存占用更低。Deepseek利用教师模型优化数据实现数据蒸馏。



DeepSeek的使用场景与技巧总结:
### **主要使用场景**
1. **文本生成**
- 创作(文章/剧本/诗歌)、营销文案、摘要改写、多语言翻译。
2. **代码相关**
- 生成/调试代码、技术文档处理、API开发。
3. **数据分析与推理**
- 数学证明、逻辑分析、知识推理(如因果分析)。
4. **商业应用**
- 品牌故事、营销策划、年终总结、公众号/微博/小红书/抖音内容创作。
5. **多模态处理**
- 图表生成(流程图/数据可视化)、图文整合、文件内容提取。
---
### **关键使用技巧**
1. **模型选择原则**
- **推理模型**(如DeepSeek-R1):用于数学/代码/逻辑任务,指令需简洁(例:“证明勾股定理”)。
- **通用模型**:用于创意写作/对话,需分步引导(例:“分三步推导勾股定理”)。
2. **提示语设计公式**
- **决策需求**:`目标+选项+评估标准`
(例:对比物流方案ROI)。
- **分析需求**:`问题+数据+分析方法`
- **创意需求**:`主题+约束+创新方向`
3. **进阶策略**
- **复杂任务分解**:用SPECTRA模型分割、排序子任务。
- **防AI幻觉**:要求区分事实与推测,验证数据来源。
- **跨平台适配**:
- 公众号:深度结构+互动节点;
- 抖音:3秒吸睛开头+情绪化脚本;
- 小红书:场景化种草+真实体验。
4. **伦理规避**
- 避免主观引导(如“你认为哪种对?”),禁用违法/偏见请求。
---
**核心结论**:
• 任务决定模型类型,需求表达需结构化;
• 商业场景重ROI计算与情感共鸣;
• 平台内容需匹配特性(公众号重深度,抖音重节奏)。
**附**:完整提示框架见教材TASTE(任务-受众-结构-语气-示例)及ALIGN(目标-难度-输入-规则-创新)。
参考链接:
超越ChatGPT?AI大模型DeepSeek优缺点分析,DeepSeek对AI行业会有什么影响?|GPT-4o|Llama 3.1|Claude
4000字!深度解析 DeepSeek 的蒸馏技术 - 知乎
DeepSeek R1 论文中的蒸馏技术超详细解析_deepseek的蒸馏方法-CSDN博客
【大模型蒸馏】DeepSeek R1秒变行业“小钢炮”_哔哩哔哩_bilibili