Deepseek 简述

Deepseek-R1:

训练时间短、成本低、综合性能好,主要擅长逻辑推理,信息搜索效果不佳。

蒸馏distillation:

通过模仿教师模型的输出,训练一个较小的学生模型,实现知识的传递,模型参数更少,推理速度更快,内存占用更低。Deepseek利用教师模型优化数据实现数据蒸馏。

蒸馏示意图
蒸馏示意图
蒸馏示意图

DeepSeek的使用场景与技巧总结:

### **主要使用场景**
1. **文本生成**  
   - 创作(文章/剧本/诗歌)、营销文案、摘要改写、多语言翻译。
2. **代码相关**  
   - 生成/调试代码、技术文档处理、API开发。
3. **数据分析与推理**  
   - 数学证明、逻辑分析、知识推理(如因果分析)。
4. **商业应用**  
   - 品牌故事、营销策划、年终总结、公众号/微博/小红书/抖音内容创作。
5. **多模态处理**  
   - 图表生成(流程图/数据可视化)、图文整合、文件内容提取。

---

### **关键使用技巧**
1. **模型选择原则**  
   - **推理模型**(如DeepSeek-R1):用于数学/代码/逻辑任务,指令需简洁(例:“证明勾股定理”)。  
   - **通用模型**:用于创意写作/对话,需分步引导(例:“分三步推导勾股定理”)。

2. **提示语设计公式**  
   - **决策需求**:`目标+选项+评估标准`  
     (例:对比物流方案ROI)。  
   - **分析需求**:`问题+数据+分析方法`  
   - **创意需求**:`主题+约束+创新方向`  

3. **进阶策略**  
   - **复杂任务分解**:用SPECTRA模型分割、排序子任务。  
   - **防AI幻觉**:要求区分事实与推测,验证数据来源。  
   - **跨平台适配**:  
     - 公众号:深度结构+互动节点;  
     - 抖音:3秒吸睛开头+情绪化脚本;  
     - 小红书:场景化种草+真实体验。  

4. **伦理规避**  
   - 避免主观引导(如“你认为哪种对?”),禁用违法/偏见请求。

---

**核心结论**:  
• 任务决定模型类型,需求表达需结构化;  
• 商业场景重ROI计算与情感共鸣;  
• 平台内容需匹配特性(公众号重深度,抖音重节奏)。  
**附**:完整提示框架见教材TASTE(任务-受众-结构-语气-示例)及ALIGN(目标-难度-输入-规则-创新)。

参考链接:

超越ChatGPT?AI大模型DeepSeek优缺点分析,DeepSeek对AI行业会有什么影响?|GPT-4o|Llama 3.1|Claude

4000字!深度解析 DeepSeek 的蒸馏技术 - 知乎

DeepSeek R1 论文中的蒸馏技术超详细解析_deepseek的蒸馏方法-CSDN博客
【大模型蒸馏】DeepSeek R1秒变行业“小钢炮”_哔哩哔哩_bilibili
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值