在autodl服务器上从huggingface上下载模型,踩了很多坑

并1. 科学上网,一直连接超时

之前没连远程服务器的时候,科学上网是可以直接下载的,不知道为什么连了autodl上的服务器后一直显示连接超时

2. 换国内镜像

没有用py文件下载,而是直接用的下面的指令,然后再离线加载

这么做的原因:需要用GPU才能跑到下载模型的代码,下载又浪费时间,没办法用无卡模式

pip install -U huggingface_hub

export HF_ENDPOINT=https://hf-mirror.com

huggingface-cli download Salesforce/instructblip-flan-t5-xl \
--local-dir /root/autodl-tmp \
--local-dir-use-symlinks False
注:--resume-download 在较新版本中已默认启用,无需显式指定。

刚开始下载的还行,后面就很慢,干脆想着换个网络,就暂定了,继续用上面的指令时发现出现这样的问题

先用rm -rf /root/autodl-tmp/.cache/huggingface/download/*.lock

rm -rf /root/autodl-tmp/.cache/huggingface/download/*.incomplete

这两个命令删除锁文件和未完成的分片

再用

huggingface-cli download Salesforce/instructblip-flan-t5-xl \
--local-dir /root/autodl-tmp \
--local-dir-use-symlinks False
(可以断点续传)

3. 离线加载总是显示找不到XX文件(真的不知道为什么,明明都是同一个名字),只能在线下载

 self.rel_mapper = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True, cache_dir="/root/autodl-tmp/jinaai",  # 强制指定下载路径

    local_files_only=False).cuda()

要记得将缓存地址改为数据盘不然会自动下载到系统盘里面并且不要py文件里面写

os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"  # 全局生效[1,3,8](@ref)

并没用,直接终端写 export HF_ENDPOINT=https://hf-mirror.com,关闭科学上网,在终端运行指令即可

我还尝试了单独写个py文件

from transformers import AutoModel

model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True, cache_dir="/root/autodl-tmp/jinaai")

print(model)

只要没有GPU就出现下面的问题,也是麻了.....

虽然我设置了cache_dir="/root/autodl-tmp/jinaai"但是不知道为什么还是会被下载到默认缓存地址下,只能在终端设置了一下

export TRANSFORMERS_CACHE="/root/autodl-tmp/jinaai"
export HF_HOME="/root/autodl-tmp/jinaai"

也可以写在bashrc文件中,就不用每次启动终端都写了

这样写:

echo 'export TRANSFORMERS_CACHE="/root/autodl-tmp/jinaai"' >> ~/.bashrc
echo 'export HF_HOME="/root/autodl-tmp/jinaai"' >> ~/.bashrc
source ~/.bashrc

执行后可以用 echo $TRANSFORMERS_CACHEecho $HF_HOME 来验证是否设置成功。

### 如何在 Hugging Face 上下载数据集 要在 Hugging Face 平台上成功下载数据集,可以按照以下方法操作: #### 配置环境 如果网络连接速度较慢或者无法正常访问国外服务器,建议先配置 Git 的代理设置。可以通过如下命令完成全局代理配置[^4]: ```bash git config --global https.proxy http://127.0.0.1:1080 ``` #### 登录认证 为了确保能够顺利获取受保护的数据集或模型,在执行下载前可能需要重新登录并验证身份。这一步骤尤其适用于那些刚刚获得特定资源访问权限的情况。使用 `huggingface-cli` 工具来完成登录过程[^2]: ```bash huggingface-cli login ``` 此命令会提示输入个人令牌 (Token),该 Token 可以从 Hugging Face 账户的安全选项页面生成。 #### 执行下载 一旦完成了必要的准备工作之后,就可以利用下面这条命令来进行实际的数据集下载工作了。这里以一个具体的例子说明如何定义参数以及它们的作用[^3][^1]: - **`--repo-type dataset`**: 表明所请求的是数据集而非其他类型的项目; - **`--repo-id 数据集名称`**: 替换为所需的目标数据集ID; - **`--local-dir 文件存储路径`**: 设定目标文件夹地址用于存放已下载的内容; - **`--resume-download`**(可选): 支持断点续传功能以便应对可能出现的中断情况。 完整的命令形式如下所示: ```bash huggingface-cli download \ --repo-type dataset \ --repo-id jingyaogong/minimind_dataset \ --local-dir /path/to/save/directory \ --resume-download ``` 其中 `/path/to/save/directory` 应替换为你希望储存数据的实际磁盘位置,而 `jingyaogong/minimind_dataset` 则需改为对应的真实数据集标识符。 --- ### 注意事项 对于某些特殊场景下的需求调整,比如更换不同的数据源或是处理更大规模的任务时,则还需要额外考虑更多细节因素的影响。例如当面对非常庞大的资料库时候,除了基本指令之外还应该加入更多的优化措施来提升效率减少错误发生几率。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值