爬虫遇到url地址中文字转码问题

最新推荐文章于 2024-08-08 02:27:36 发布

从前重前

最新推荐文章于 2024-08-08 02:27:36 发布

阅读量2.2k

点赞数 7

CC 4.0 BY-SA版权

分类专栏：个人随笔文章标签： python

本文链接：https://blog.csdn.net/weixin_41586984/article/details/81329755

个人随笔专栏收录该内容

5 篇文章

订阅专栏

本文介绍Python中URL编码与解码的方法，包括urlencode函数用于将键值对转换为URL格式，quote函数用于对单个字符串进行编码，以及unquote函数用于解码已编码的URL。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

当url地址含有中文，或者参数有中文的时候，把这样的url作为参数传递的时候，需要把一些中文甚至'/'做一下编码转换。

所以对于一些中文或者字符，url不识别，就需要我们进行转换。

python中的urlencode与urldecode

一、urlencode

urllib库里有一个urlencode函数，它可以把key-value键值对直接转换成我们想要的格式

举个例子：

import urllib.parse

datas = {}

datas['name'] = '小张'

datas['age'] = '18?'

datas['level'] = 'Dd'

data = urllib.parse.urlencode(datas)

print(data)

结果如下：

name=%E5%B0%8F%E5%BC%A0&age=18%3F&level=Dd

urllib还有一个quote(),是直接对一个字符串进行转换

import urllib.parse

data = '小张'

data = urllib.parse.quote(data)

print(data)

结果为：

%E5%B0%8F%E5%BC%A0

二、urldecode

有些时候url地址上的中文字已经被转码，所以我们爬取多个相同链接时需要对其传入的汉字进行转换，在urllib中有个unquote()函数对其进行转换

import urllib.parse

data = '%E5%B0%8F%E5%BC%A0'

data = urllib.parse.unquote(data)

print(data)

结果是：

小张

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

从前重前

关注关注

7
点赞
踩
14

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

（一）实现爬虫的简单思路

chanweiliang7439的博客

04-14

1374

(一)写爬虫的一些套路 1. 准备url 1.1 准备start_url （1） url地址规律不明显，或总数不确定时李毅贴吧，点击下一页时，对应的url地址的pn会增加50，但不确定李毅吧的总数是多少，故需要准备start_url start_url = https://tieba.baidu.com/f?kw={}&ie=utf-8&pn={} 使用 start_url.fo...

爬虫教程（ 6 ） --- 爬虫进阶、扩展

墨鱼菜鸡

07-11

7269

1. 前言 1. 先看一个最简单的爬虫。 import requests url = "http://www.cricode.com" r = requests.get(url) print(r.text) 2. 一个正常的爬虫程序上面那个最简单的爬虫，是一个不完整的残疾的爬虫。因为爬虫程序通常需要做的事情如下： 1)给定的种子 URLs，...

2 条评论您还未登录，请先登录后发表或查看评论

爬虫1-urlopen和汉字传参

Alex抱着爆米花的博客

12-18

271

http的请求方式 get请求优点：比较便捷缺点：不安全:明文参数的长度有限制 post请求 (1)比较安全 (2)数据整体没有限制 (3)上传文件 put(不完全的) delete(删除一些信息) head(请求头) 发送网络请求(需要带一定的数据给服务器，不带数据也可以) 请求头⾥面requestheader 返回数据:response 检查网页网页network里面的含义 (1)Accept:文本的格式 (2)Accept-Encoding:编码格式 (3)Conne

跟我一步一步学爬虫---传参篇（二）

韩俊的个人博客

03-06

846

今天我们来学习下用post方式请求后台。我设计的程序有两种： 1、给服务器传参，然后服务器打印出来，然后用PrintWriter类写出来（模拟ajax）。 2、请求服务器，然后跳转到其他网页。先做第1种（后台服务器用Servlet）： java代码 import java.io.IOException; import org.apache.commons.httpclie

[Python爬虫] 之十二：Selenium +phantomjs抓取中的url编码问题

weixin_34189116的博客

04-13

181

　　最近在抓取活动树网站 (http://www.huodongshu.com/html/find.html) 上数据时发现，在用搜索框输入中文后，点击搜索，phantomjs抓取数据怎么也抓取不到，但是用IE驱动就可以找到，后来才发现了原因。　　例如URL: http://www.huodongshu.com/html/find_search.html?search_keyword=数字, ...

Java 地址中有中文转码

最新发布

weixin_36287059的博客

08-08

350

Java 地址中有中文转码在互联网时代，越来越多的应用程序需要处理包含中文字符的地址。由于URL对字符有严格的要求，中文字符必须进行转码才能确保它们在网络中正确传输。本文将介绍如何使用Java处理包含中文的地址转码，并提供相关代码示例。 1. URL编码基础 URL编码是将非ASCII字符转换为百分号（%）后跟随的二进制...

java实现url编码与中文的互相转换

渴望飞的鱼的博客

09-23

2万+

java实现url编码与中文的互相转换

爬虫进阶 -- 爬虫相关定义、反爬机制及其破解

_天涯__的博客

08-18

2107

经历了好几个小爬虫项目的“摧残”，我想着不能白做，于是有了这篇文章。什么是爬虫和反爬虫爬虫：使用任何技术手段，批量获取网站信息的一种方式。反爬虫：使用任何技术手段，阻止别人批量获取自己网站信息的一种方式。 Headers相关概念

python 爬虫餐饮行业数据分析_Python爬虫实战：爬取美团美食数据

weixin_39597987的博客

11-20

1453

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：Britain_King1.分析美团美食网页的url参数构成1）搜索要点美团美食，地址：北京，搜索关键词：火锅2）爬取的url3）说明url会有自动编码中文功能。所以火锅二字指的就是这一串我们不认识的代码%E7%81%AB%E9%94%85。通过关键词城市的url构造，解...

python爬虫免登录_爬虫使用cookie免登陆

weixin_35203943的博客

12-23

2091

由于前程无忧上岗位投递记录只保留两个月，想记录下。由于之前写过一个爬工作岗位的爬虫，所以这次我就拿之前的代码，改了下，发现爬不到东西。一番折腾后，发现。爬虫下载网页，获取登陆是不会记住你浏览器的登陆状态的，就相当于，在一个新的，从未登陆过该网站的浏览器上下载页面，而我需要的页面是登陆后的页面。程序代码放在Github对于怎么获取登陆后的页面，有两种思路使用账号，密码登陆，如果该网站登陆系统简单的话...

android urlencode解码,urlencode编码问题（以及urlparse）转

weixin_32017023的博客

06-03

1200

网址链接中的中文编码中文的gbk(GB2312)编码：一个汉字对应两组%xx，即%xx%xx中文的UTF-8编码：一个汉字对应三组%xx，即%xx%xx%xx可以利用百度进行URL编码解码默认gbkhttps://www.baidu.com/s?wd=%E4%B8%AD%E5%9B%BDpython3编码解码示例# -*- coding: utf-8 -*-# @File : urld...

URL地址中汉字的编码转换

wangshuang1631的博客

08-02

1万+

Web开发调试时，经常需要遇到URL中有汉字的问题，而一般汉字编码为ISO-8859-1，而Java中的编码多为UTF-8。开发时经常遇到URL地址明明正确，却得不到自己想要的结果。如果遇到这种情况，不妨试试下面的方法： public static String toUTF8(String s){if(isEmpty(s)){return s;}String ret = null ; try {

get方法地址栏传递中文数据的时候如何进行转码

Skye_H的博客

11-24

1409

前台jsp中： var param = document.getElementById(‘param’).value; param = encodeURI(encodeURI(param));//注意，是两次转码，我就被这个坑过后台java类中： String param = request.getParameter(“param”) groupBuyerName=URLDecod...

url地址中的中文乱码，转码问题解决

热门推荐

frankfan123的博客

04-16

4万+

python url中文转码_python实现中文转换url编码的方法

weixin_31869917的博客

01-13

5589

本文实例讲述了python实现中文转换url编码的方法。分享给大家供大家参考，具体如下：今天要处理百度贴吧的东西。想要做一个关键词的list，每次需要时，直接添加到list里面就可以了。但是添加到list里面是中文的情况(比如‘丽江')，url的地址编码却是'%E4%B8%BD%E6%B1%9F'，因此需要做一个转换。这里我们就用到了模块urllib。>>> import u...

关于java UTF-8中文与Unicode编码之间转换，以及将浏览器地址栏编码过的中文转换UTF-8形式

jkdev

07-01

5143

关于java UTF-8中文与Unicode编码之间转换，以及将浏览器地址栏编码过的中文转换UTF-8形式

url地址栏中中汉字解码转换代码

sommous1的博客

02-21

913

url地址栏中中汉字解码转换代码 var agr1 = decodeURIComponent(layui.router().search.genpurname);

URL中中文转码和解码

******* ▄︻┻┳═一 *******

11-30

1万+

在爬取数据是时候很多搜索的词语中在浏览器上显示的是中文，但是我们复制url到本地，中文就会出现我们看不懂的文字。如果我们需要爬虫的时候也是一样，我们需要给浏览器传过去的也是对url中的中文进行转码之后的url地址，否则在url中的关键字直接出现中文会有问题。在python3的环境中的urllib库中 quote模块提供了这一功能一、URL转码 #!/usr/bin/env python #-...

URL 地址含汉字无法解析问题

技术交流，一起进步

12-29

2380

最近升级第三方jar包后，导致许多问题，原来url 地址含有汉字问题，window和linux都可以正常解析，fastjson升级后，window可以正常应用，LInux无法解析，没有响应返回，直接导致系统退出。 ...

网络爬虫中URL的自定义编解码技术

例如，当爬虫程序需要通过HTTP请求访问中文页面时，需要将URL中的中文字符通过编码转换为HTTP协议能够理解的格式；当服务器响应包含非ASCII字符的HTML内容时，爬虫程序需要正确解码这些字符，以保证能够正确解析网页...