使用wget下载https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?mode=raw&is_datatable=true&acc=GPL6480&id=9577&db=GeoDb_blob78资源文件的时候提示重定向至 “wget-log”。

### 使用 `wget` 下载并解决重定向导致的日志问题 #### 1. 理解日志中的重定向错误当使用 `wget` 下载来自 `https://www.ncbi.nlm.nih.gov` 的资源时，可能会因为目标 URL 实际指向另一个位置而发生重定向。这种情况下，默认的 `wget` 日志 (`wget-log`) 中会出现类似以下的提示： ``` HTTP request sent, awaiting response... 302 Found Location: <new_url> [following] ``` 这表明服务器返回了一个状态码 `302` 并指定了新的地址 `<new_url>`。如果未正确处理此重定向，可能导致下载失败或不完整[^1]。 --- #### 2. 正确配置 `wget` 来应对重定向为了确保能够成功跟踪和完成重定向后的下载操作，可以采取以下措施： ##### (1) 启用自动重定向支持默认情况下，`wget` 已经具备一定的重定向能力，但对于复杂或多级跳转的情况，建议显式设置最大允许的重定向次数： ```bash wget --max-redirect=10 https://www.ncbi.nlm.nih.gov/path/to/resource -O output_file -a wget-log ``` - `--max-redirect=10`: 允许最多执行 10 次重定向。 - `-O output_file`: 将下载内容保存至指定文件名。 - `-a wget-log`: 把整个过程记录到名为 `wget-log` 的日志文件中以便后续分析。 --- ##### (2) 增加请求头以匹配服务端预期有时，远程服务器会对客户端发出的具体请求有特殊要求（比如需要特定的 User-Agent 或 Cookie）。如果不满足这些条件，即使启用了重定向也可能无法获取所需的数据。因此可尝试添加必要的 HTTP Header： ```bash wget --header="User-Agent: Mozilla/5.0" \ --header="Accept: text/html,application/xhtml+xml" \ --load-cookies cookies.txt \ --save-cookies updated_cookies.txt \ --keep-session-cookies \ --max-redirect=10 \ https://www.ncbi.nlm.nih.gov/path/to/resource \ -O output_file -a wget-log ``` - `--header="..."`: 定义额外的 HTTP 请求头部字段。 - `--load-cookies cookies.txt`: 加载已有的 cookie 文件用于维持登录态或其他认证信息。 - `--save-cookies updated_cookies.txt`: 在会话结束后更新存储的新 cookie 数据。 - `--keep-session-cookies`: 确保临时性的 session 类型 cookie 得以保留下来参与交互。 --- ##### (3) 利用镜像模式优化批量抓取对于涉及多个子页面或关联资源的大规模项目来说，启用镜像模式可能是更好的选择。它不仅简化了跨域访问逻辑还能有效管理缓存策略减少重复劳动量： ```bash wget --mirror --convert-links --adjust-extension \ --page-requisites --no-parent \ --max-redirect=10 \ https://www.ncbi.nlm.nih.gov/base/url/ ``` - `--mirror`: 开启站点镜像功能，相当于设置了递归级别无穷大以及时间戳检查等功能组合。 - `--convert-links`: 修改本地副本内的超链接使其继续可用。 - `--adjust-extension`: 给 HTML/CSS 文件附加合适的扩展名方便识别分类。 - `--page-requisites`: 收集构成网页显示所必需的一切组件（图片、样式表等）。 - `--no-parent`: 局限于当前目录层次结构之下不做越界探索。 --- #### 3. 替代方法——借助 SRA Toolkit 考虑到 NCBI 提供专门针对其数据库设计开发出来的工具包—SRA Toolkit[^2] ，可以直接通过该程序高效稳定地提取序列档案资料而无需担心繁琐的手动调整参数等问题。具体步骤如下所示： 1. **安装 SRA Toolkit** 根据官方指引完成对应平台版本软件部署工作。 2. **运行预置脚本命令** ```bash prefetch SRR6791470 fastq-dump --split-files SRR6791470 ``` 这样既规避掉了单纯依赖通用爬虫手段带来的不确定性同时也保障了数据质量的一致性标准。 --- ###

阅读全文

使用wget下载https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?mode=raw&is_datatable=true&acc=GPL6480&id=9577&db=GeoDb_blob78资源文件的时候提示重定向至 “wget-log”。

相关推荐

从根源上解决libc.so.6版本问题 /lib64/libc.so.6:version ‘GLIBC_XXX’ not found

简单分享：nvm.docx

ubuntu vps安装docker报错：Cannot connect to the Docker daemon at unix:///var/run/docker.sock.问题解决

wget https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.15.0+-x64-linux.tar.gz显示连接超时

wget https://ftp.ncbi.nlm.nih.gov/geo/series/GSE176nnn/GSE176078/suppl/GSE176078%5FWu%5Fetal%5F2021%5FBRCA%5FscRNASeq.tar.gz tar -xzf UDB-421_2.tar.gzs是什么意思

linux用for 把https://ftp.ncbi.nlm.nih.gov/blast/db/链接中的00--99链接复制下来

linux用for和echo批量抓取https://ftp.ncbi.nlm.nih.gov/blast/db/中包含01 02 03 04 05..数值的链接

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_genomic.gff.gz

ncbi_acc2gtdb_acc:将NCBI Genbank加入映射到GTDB加入

NCBI SRA数据库使用详解

root@nbk:/home/hz# cd /usr/local/lib/python3.6/site-packages bash: cd: /usr/local/lib/python3.6/site-packages: 没有那个文件或目录

wget下载ncbi数据

Windows下wget下载NCBI

Linux下载GEO数据,教你3种方法下载NCBI GEO数据

如何用wget命令下载ncbi中的基因组数据到linux

怎么使用wget

NCBI数据下载到硬盘

ncbi基因组下载文件

大家在看

lingo语法例子。。PPT

国家/地区：国家/地区信息应用

zemax安装包

HFSS学习教程

OpenWrt-x86-64-22.03纯净版本固件

最新推荐

基于多串变压器LLC控制技术的高功率LED照明驱动解决方案设计：提高效率与降低成本

ASP.NET新闻管理系统：用户管理与内容发布功能

【实战派量化投资秘籍】：Pair Trading策略全方位解析

fpga中保持时间建立时间时序约束

Notepad2: 高效替代XP系统记事本的多功能文本编辑器

【mPower1203驱动故障全攻略】：排除新手疑难杂症，提升部署效率

keil5打不开

远程进程注入技术详解：DLL注入的实现步骤

【驱动安装背后的故事】：mPower1203机制深度剖析及优化技巧

tensorflow2.5.0 linux-aarch64.whl