Python
文章平均质量分 61
Python开发的爬虫,人工智能
月木.
追求至简
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python环境搭建
Windows系统:进入到家目录,创建pip文件夹,创建pip.ini文件 ,如:C:\Users\86150\pip\pip.ini=点击+,然后输入要安装的第三方库pymysql,再点击按钮Install Package,等待安装即可,几秒种后,即提示安装成功。linux系统:在根目录下创建或修改~/.pip/pip.confpip配置文件,pip配置文件中内容一样。安装模块时,会自动安装或更新所需要的依赖模块,以匹配当前安装模块的版本。格式化代码 【Ctrl + Alt + L】下载地址【清华镜像】原创 2023-09-27 23:26:06 · 258 阅读 · 0 评论 -
JsonPath详解
n/a 根据属性访问,Json不支持,因为Json是个Key-value递归结构,不需要。JsonPath是一种信息抽取类库,是从JSON文档中抽取指定信息的工具。注意:这里的json_data为python数据,如列表,字典。n/a 取父节点,Jsonpath未支持。n/a 分组,JsonPath不支持。* 通配符,匹配任意属性或数组元素。. 选择当前层级的属性或数组元素。[,] 支持迭代器中做多选。() 支持过滤操作.() 支持表达式计算。原创 2023-09-22 21:54:54 · 683 阅读 · 0 评论 -
json模块详解
json.dump()/json.dumps()默认使用ascii编码,需要添加参数 ensure_ascii=False来禁用ascii编码【按utf-8编码】如果 dataJsonStr通过encoding指定了合适的编码,但是其中又包含了其他编码的字符,json.loads()传入的字符串的编码不是UTF-8的话,需要指定字符编码的参数。作用:将python类型转化为json字符串,返回一个str对象。作用:将Python类型序列化为json对象,并写入文件。空值/布尔值/数值/字符串/数组。原创 2023-09-22 21:53:16 · 303 阅读 · 0 评论 -
requests爬虫详解
resp.json() 获取响应内容【python数据,可直接用jsonpath解析】resp.content 获取响应内容(以字节的方式)resp.request.headers 请求头内容。resp.text 获取响应内容 (以字符串)resp.status_code 获取状态码。resp.headers 获取响应头内容。resp.encoding 获取网页编码。resp.cookie 获取cookie。resp.url 获取访问地址。原创 2023-09-22 21:48:51 · 1579 阅读 · 0 评论 -
urllib详解
resp.read().decode('utf-8', errors='replace') 处理非法字符【设置 errors =ignore/replace 】Referer 客户机通过这个头告诉服务器,它是从哪个资源来访问服务器的。如:data1 = {'key1': 'value1','key2': 'value2'}If-Modified-Since 客户机通过这个头告诉服务器,资源的缓存时间。Content-Language 服务器通过这个头,告诉服务器的语言环境。原创 2023-09-22 21:46:36 · 450 阅读 · 0 评论 -
探索自动化网页交互的魔力:学习 Selenium 之旅【超详细】
"在数字时代中,网页自动化是不可忽视的关键技能。想象一下,您可以轻松地模拟用户在网页上的各种操作,从点击按钮到填写表单,甚至是抓取数据。本文将带您踏上学习 Selenium 的旅程,Selenium 是一个强大而受欢迎的工具,可用于自动化网页交互。探索如何使用 Selenium,以及如何编写高效、可靠的自动化脚本,无论是进行网页测试、数据采集还是自动化工作流程,都能让您事半功倍。准备好发现网页交互的魔力吗?跟随我们一起深入学习 Selenium,将您的技能提升到一个全新境界!"原创 2023-08-10 15:12:15 · 1972 阅读 · 0 评论 -
Python爬虫之JsonPath详解
JsonPath是一种信息抽取类库,是从JSON文档中抽取指定信息的工具。原创 2023-08-08 02:57:07 · 800 阅读 · 0 评论 -
python中的JSON模块详解
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。原创 2023-08-08 02:54:54 · 528 阅读 · 0 评论 -
python环境的搭建
是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具, 比如调试、 语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。Miniconda3-latest【windows选择-x86_64.exe】————next————agree————这俩选哪个都行,他选的第二个————安装路径。安装模块时,会自动安装或更新所需要的依赖模块,以匹配当前安装模块的版本。Package,等待安装即可,几秒种后,即提示安装成功。内存占用太高(3G左右)原创 2023-07-22 04:22:15 · 99 阅读 · 0 评论 -
python爬虫框架之Scrapy配置文件详解
日志的数据格式(默认: '%(asctime)s [%(name)s] %(levelname)s: %(message)s')可选的级别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG(默认: 'DEBUG')如果为 True ,进程所有的标准输出(及错误)将会被重定向到log中(默认: False)日志的日期格式(默认: '%Y-%m-%d %H:%M:%S')将对任何单个IP执行的最大并发请求数(默认: 0)下载器超时时间(单位: 秒)(默认: 180)原创 2023-07-06 10:55:17 · 1298 阅读 · 0 评论 -
xpath详解
XPath 是W3C XSLT 标准的主要元素,并且XQuery和XPointer都构建于 XPath 表达之上。XPath 是一门在XML文档中查找信息的语言。XPath 可用来在XML文档中对元素和属性进行遍历。浏览器-元素-Ctrl+F。原创 2023-07-05 19:50:36 · 1212 阅读 · 0 评论 -
urllib详解
data:请求数据,data是一个字典,里面要匹配键值对,如:data1 = {'key1': 'value1','key2': 'value2'}handler【可选】:创建特定功能的处理器对象,如代理处理器:handler = ProxyHandler({'xxx'})urlopen()是一个特殊的opener,传入的参数仅仅是url,data,timeout。SSL证书:https开头的网站,如果网站的SSL证书是经过CA认证的,则能够正常访问。data【可选】:传送的数据,默认为空None。原创 2023-07-04 17:59:18 · 410 阅读 · 0 评论 -
python的列表详解
start:表示起始数字【a = [x * 2 for x in range(5)] # [0, 2, 4, 6, 8]可选,默认是0】注意:python3中range()返回的是一个range对象,而不是列表,我们需要通过list()方法将其转换成列表对象。insert():任意位置插入元素【插入位置后面的所有的元素会进行移动,影响处理速度】除非必要,我们一般只在列表的尾部添加元素或删除元素,这会大大提高列表的操作效率。sum():对数值型列表的所有元素进行求和操作,对非数值型列表运算则会报错。原创 2023-07-03 00:48:49 · 940 阅读 · 0 评论 -
python字符串详解
但,可以将字符串的一部分复制到新创建的字符串,达到“看起来修改”的效果。is not is 判断两个对象是否同一个对象(比较的是对象的地址,即id(obj1)是否和id(obj2)相等)反向搜索:最右侧第一个字符,偏移量是-1,倒数第二个偏移量是-2,以此类推,直到-len(str)为止。正向搜索:最左侧第一个字符,偏移量是0,第二个偏移量是1,以此类推。通过lstrip()去除字符串左边指定信息,rstrip()去除字符串右边指定信息。:号后面带填充的字符,只能是一个字符,不指定的话默认是用空格填充。原创 2023-06-29 21:23:08 · 342 阅读 · 0 评论 -
python的风格
三个连续引号,其实就是定义了一个字符串。只不过,没有变量指向,会被当做垃圾回收(关于本句话的含义,后面讲完面向对象再看)使用三个连续单引号'''或三个双引号"""。当解释看到''',则会扫描到下一个''',然后忽略他们之间的内容。当我们调用print()函数时,解释器自动调用了str()将非字符串的对象转成了字符串。我们可以自己通过参数end = “任意字符串”。当解释器看到#,则忽略这一行#后面的内容。Python用缩进而不是{}表示程序块的层次关系。print()不换行打印。Python区分大小写。原创 2023-06-27 22:14:54 · 237 阅读 · 0 评论 -
Miniconda3
搭建python运行环境原创 2023-05-11 23:04:58 · 778 阅读 · 0 评论 -
sql注入问题
sql注入问题原创 2023-05-11 09:22:57 · 133 阅读 · 0 评论 -
Python操作mysql数据库
Python操作mysql数据库原创 2023-05-11 09:01:25 · 944 阅读 · 0 评论 -
Python爬虫入门
Python爬虫入门原创 2023-04-17 10:10:30 · 814 阅读 · 0 评论
分享