deepseek 微调训练
时间: 2025-02-20 08:39:41 浏览: 71
### 对 DeepSeek 模型进行微调训练
为了对 DeepSeek 模型进行微调训练,需遵循特定流程设置环境并执行相应脚本。进入 `DeepSeek-coder` 下的 `Training` 文件夹准备配置和启动微调过程。
创建一个新的 shell 脚本文件用于定义必要的变量以及指定运行参数:
```bash
#!/bin/bash
export MODEL_NAME="deepseek-1.3b"
export DATA_PATH="./data/fine_tune_data.jsonl" # 数据集路径
export OUTPUT_DIR="./output_finetuned_model/"
export CUDA_VISIBLE_DEVICES=0,1
```
随后,在同一文件内添加命令来启动实际的微调程序:
```bash
python finetune.py \
--model_name_or_path "deepseek-ai/$MODEL_NAME" \
--train_file $DATA_PATH \
--per_device_train_batch_size 8 \
--learning_rate 5e-5 \
--num_train_epochs 3 \
--save_steps 500 \
--output_dir $OUTPUT_DIR \
--overwrite_output_dir
```
上述代码片段展示了如何通过调整超参数如批量大小、学习率等来进行有效的模型优化[^1]。
对于评估部分,则按照之前提到的方法新建 `eval_ins.sh` 并填入对应内容以便后续验证效果。
阅读全文
相关推荐


















