通过huggingface-cli下载Hugging Face上的公开数据集或模型至本地

1. 获取 Access Tokens

在使用huggingface-cli命令下载之前需要先去官网获取 Access Tokens:

在这里插入图片描述

  • 然后选择 write 权限:

在这里插入图片描述

  • 最后,这个 Access Tokens 一定要妥善保存,因为官网只会出现一次这个token,同时注意权限是 WEITE:

在这里插入图片描述

2. 使用huggingface-cli命令下载

在终端界面的命令行输入以下命令进行下载,其中 [blabla] 中的内容需要自定义:

# Shell
huggingface-cli download --repo-type dataset --token [你的token] --resume-download [数据集名称] --cache-dir [/本地路径] --local-dir-use-symlinks False

[数据集名称] 如下图所示为红框中的内容,点击即可复制

在这里插入图片描述

该方式最大的好处就是如果下载的时候因为网络等问题中断了,再次执行命令即可,会接着之前的内容下载。


创作不易,麻烦点点赞和关注咯!

<think>好的,我现在需要帮助用户解决如何使用huggingface-cli下载特定数据集的问题。首先,我得回想一下用户提供的引用内容。根据引用[1]和[2],用户提到了使用huggingface-cli下载数据的方法,包括登录认证和可能的国内镜像源。 首先,我应该先确认用户已经安装了huggingface-cli工具。如果没有安装的话,可能需要先指导他们安装。不过用户的问题直接是关于下载特定数据集,所以可能已经安装好了。但为了全面,我应该包含安装步骤,以防万一用户还没安装。 接下来,用户需要登录认证,引用[2]中提到使用huggingface-cli login命令。这一步很重要,特别是如果要下载私有数据集者需要权限的数据集的话。不过如果是公开数据集,可能不需要登录,但最好还是提一下,让用户知道如果需要的话怎么做。 然后,下载特定数据集的命令结构应该是huggingface-cli download [数据集名称] [文件路径]。例如,用户如果想下载数据集中的某个特定文件,需要指定路径。但有些用户可能只想下载整个数据集,这时候可能需要说明如何不指定路径直接下载整个仓库。 另外,引用[1]中提到国内镜像源的方法,用户可能在国内访问Hugging Face较慢,所以需要给出使用镜像的示例,比如在下载命令后添加--repo-type=dataset和--cache-dir参数,者替换URL为镜像地址。这部分需要详细说明,因为网络问题常是下载失败的原因。 还需要考虑用户可能遇到的问题,比如路径不存在、权限问题者网络连接问题。这时候在常见问题中给出一些解决方法会很有帮助,比如检查路径是否正确,确保网络连接,者使用代理等。 最后,生成相关的问题可以帮助用户进一步了解其他可能需要的操作,比如下载模型、处理下载中断查找数据集名称,这些扩展问题能提升回答的实用性。 总结一下,步骤应该是:安装工具、登录认证、执行下载命令(包括指定文件和镜像使用)、常见问题处理。同时要确保命令格式正确,比如使用$符号包裹行内代码,代码块用三个反引号包裹,并注明语言类型。另外,注意引用标记的位置,在相关步骤后添加[^1]和[^2]。</think>### 使用 `huggingface-cli` 下载特定数据集的方法 #### 1. **安装 `huggingface-hub` 库** 确保已安装 Hugging Face 官方工具库: ```bash pip install huggingface-hub ``` #### 2. **登录认证(可选)** 若需下载私有数据集提交模型,需先登录: ```bash huggingface-cli login ``` 输入账号和 Token(可在 Hugging Face 官网生成)[^2]。 #### 3. **下载数据集** 使用以下命令下载指定数据集(以 `squad` 数据集为例): ```bash huggingface-cli download datasets/squad --repo-type dataset --cache-dir ./data ``` - `datasets/squad`:数据集名称,格式为 `组织名/数据集名` - `--repo-type dataset`:指定类型为数据集(默认是模型- `--cache-dir`:自定义保存路径(可选) #### 4. **下载特定文件** 若只需下载数据集中的单个文件(如 `train.csv`): ```bash huggingface-cli download datasets/squad train.csv --repo-type dataset ``` #### 5. **使用国内镜像加速** 若下载速度慢,可通过镜像源替换 URL: ```bash HF_ENDPOINT=https://hf-mirror.com huggingface-cli download datasets/squad ``` 直接使用参数: ```bash huggingface-cli download --endpoint https://hf-mirror.com datasets/squad ``` #### 6. **验证下载** 检查目标目录(如 `./data`)是否包含文件,通过代码加载数据集: ```python from datasets import load_dataset dataset = load_dataset("squad", cache_dir="./data") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值