
Python副业接单实战项目
文章平均质量分 64
本专栏主要分享python爬虫技术,同时分享数据库操作、机器学习、数据可视化等方面对的技术,所有源代码均来源于实战项目,每个项目都提供了好用的、性能稳定出色的完整项目代码,帮助用户解决困惑和实际的困难。
wp_tao
wild programmer
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python实战项目81:ZeoDB多线程数据爬取程序(最新稳定好用)
ZeoDB (zeodb.mit.edu) 是麻省理工学院维护的沸石结构数据库,包含沸石材料与有机结构导向剂(OSDA)之间的亲和性数据。通过此程序,可高效获取 ZeoDB 的完整沸石数据集,为材料研究提供基础数据支持。线程锁 (threading.Lock) 确保 CSV 写入安全。使用 ThreadPoolExecutor (20线程并发)SiO2 结合情况 (Binding(SiO2))输入:详情页 URL, CSV 写入器,线程锁。CIF 下载链接 (cif_href)沸石名称 (host)原创 2025-07-06 22:13:39 · 79 阅读 · 0 评论 -
python实战项目81:抓取谷歌指数(Google Trends)数据(最新稳定版)
Google Trends 是谷歌推出的免费数据分析工具,用于追踪和分析全球用户在谷歌搜索引擎中的搜索行为趋势。它通过聚合匿名化的搜索数据,帮助用户洞察关键词的热度变化、地区分布、相关话题等。核心功能和具体应用场景大家可以求助于搜索引擎或者ai。搜索页面如下:上述例子中的链接(https://trends.google.com/trends/explore?原创 2025-07-04 21:51:06 · 119 阅读 · 0 评论 -
python实战项目80:采集淘宝商品评论(2025最新稳定版)
本项目使用的是python的第三方库drissionpage采集淘宝商品的评论,目前淘宝网页端做了更新,drissionpage可以完美解决这一问题。drissionpage是网页自动化技术,结合了requests和Selenium的特性,代码简单,效率较高,稳定性较好,在requests解决不了的情况下,如果对于效率没有过高的需求,drissionpage可以作为一个非常好的选择。原创 2025-07-03 10:21:56 · 208 阅读 · 0 评论 -
python实战项目79:采集知乎话题下的所有回答
需求是采集知乎某话题下的所有回答,这里以话题“大学宿舍相处之间遇到莫名其妙的冷落怎么办呢?”为例,网页链接为https://www.zhihu.com/question/1898156781215146265,其中1898156781215146265为question_id。这里使用的框架不是requests也不是Selenium或者scrapy,而是drissionpage,drissionpage的使用方法很简单,具体见我之前写的博客。原创 2025-06-27 15:17:20 · 158 阅读 · 0 评论 -
python实战项目78:selenium爬取steam游戏评论(最新稳定好用)
笔者在之前写过一期使用selenium爬取steam官网游戏评论的文章,具体见链接:python实战项目52:Selenium爬取steam黑神话悟空评论。之后在做项目的过程中发现,之前的代码没有采集评论人的用户名,在这里补充一下。另外再解释一点,这套代码稳定可靠,而且速度也是没话说,可以放心使用,当然,首先要保证一下自己的网速。原创 2025-06-23 11:52:12 · 1024 阅读 · 0 评论 -
python实战项目77:足球运动员数据分析
本文通过对足球运动员数据集FullData.csv的分析,探究了运动员的各项特征。首先加载并预处理数据,处理缺失值并验证无重复值。然后重点分析了身高和体重分布,通过直方图和饼图展示了运动员的身高、体重及左右脚比例情况。接着对俱乐部和国家队的球员评分进行统计分析,筛选出平均分最高的前10名俱乐部和国家队。最后进行相关性分析,探索身高与体重、评分之间的关系。整个分析过程采用Python的数据分析和可视化工具,为足球运动员特征研究提供了数据支持。原创 2025-06-22 10:03:59 · 111 阅读 · 0 评论 -
python实战项目76:51job数据采集与分析
接下来,进行抓包、寻找数据接口,然后编写代码,发送请求、获取数据,解析数据以及保存数据,这些步骤不再赘述,直接上代码。这个步骤要复杂一些,需要考虑到各种情况,最后把薪资水平处理成xxx-xxx元。在51job官网搜索上海地区的大数据开发工程师岗位,这一步使用的编辑器是jupyternotebook。文中已将完整代码全部展示。原创 2025-06-20 19:34:51 · 54 阅读 · 0 评论 -
python实战项目75:爬取nature《自然》杂志论文信息
自然》(nature,主页:https://www.nature.com/)是世界上历史悠久的、最有名望的科学杂志之一,首版于1869年11月4日。与当今大多数科学论文杂志专一于一个特殊的领域不同,《自然》是少数依然发表来自很多科学领域的一手研究论文的杂志。在许多科学研究领域中,很多最重要、最前沿的研究结果都是以短讯的形式发表在《自然》上。另外,Nature旗下子刊,合作期刊众多,是一个科学研究无法绕过的重要的学习平台。原创 2025-06-18 20:36:20 · 733 阅读 · 0 评论 -
python实战项目74:基于微博文本的社会语义网络分析
本文介绍了基于微博文本的社会语义网络分析项目。通过Python对文化冲突情感数据进行分析,使用jieba分词和词频统计方法,分别提取积极、中性和消极三种情绪的文本内容和高频词。预处理后的文本被导入ROSTCM6软件生成语义网络图,以可视化展示不同情绪下的语义关联。项目实现了从原始微博数据到情感语义网络分析的全流程,包括数据清洗、中文分词、停用词过滤和词频统计等关键步骤,最终输出三种情绪的词频统计结果和对应的语义网络可视化图。原创 2025-06-16 13:22:16 · 52 阅读 · 0 评论 -
python实战项目73:基于python的微博文本情感分析
本文介绍了一个基于Python的微博文本情感分析项目。项目使用爬虫获取2000条关于"文化冲突"的微博数据,经过数据预处理(包括缺失值处理、重复值删除等)后,采用SnowNLP模块进行情感分析。实验结果显示该模型能有效分析微博文本的情感倾向,为研究文化冲突相关话题提供了数据支持。项目完整展示了从数据采集、清洗到情感分析的全过程,具有实际应用价值。原创 2025-06-16 11:11:51 · 73 阅读 · 0 评论 -
frida Hook入门
1、spwan:将启动app的权利交由frida来控制,不管app是否启动,都会重新启动app,CLI下启动方式(-f参数指定包名)2、attach:建立在目标app已经启动的情况下,frida通过ptrace注入程序从而执行Hook操作,不加-f参数。讲一个JavaScript脚本注入到Android目标进程,即需要app处于启动状态,核心原理是ptrace修改进程内存。启动一个新的进程并挂起,在启动的同时注入frida代码,注入完成后调用resume恢复进程。-f 指定一个进程,重启它并注入脚本呢。原创 2025-06-08 12:32:04 · 242 阅读 · 0 评论 -
frida基本使用方法
frida-ps是frida-tools中一个常用的工具,作用是显示系统进程列表,类似于ps,支持显示当前pc端的进程和移动端中的进程。显示USB连接移动端的所有进程:-U。原创 2025-06-08 10:11:49 · 353 阅读 · 0 评论 -
frida简介及环境搭建
frida是一款轻量级的Hook框架,也可以说是一种动态插桩工具,可以插入一些原生代码到原生app的内存空间去,动态地监视和修改器行为,这些原生平台可以是Win、Mac、Linux、Android或者iOS。frida分为两个部分,服务端和控制端,其中服务端运行在目标机器上,通过进程注入来劫持应用的类和函数,控制端运行在自己系统机器上,可以注入自定义的js、python、c等脚本来实现自动化注入。原创 2025-06-07 18:14:29 · 341 阅读 · 0 评论 -
Java编程课(一)
Java是一种广泛使用的高级编程语言,最初由Sun Microsystems于1995年发布。它被设计为具有简单、可移植和面向对象的特性,以满足跨平台应用程序开发的需求。以下是一些关于Java的简介:1.跨平台性:Java程序可以在不同的操作系统(如Windows、Mac、Linux等)上运行,只需在每个平台上安装相应的Java虚拟机(JVM)即可。2.面向对象:Java是一种面向对象的编程语言,支持封装、继承和多态等面向对象的编程范式,使代码更易于组织、理解和维护。原创 2025-06-05 18:43:56 · 61 阅读 · 0 评论 -
python实战项目72:爬取天气网数据
发送请求使用的是requests模块,请求方式是get请求,在发送网络请求时需要携带User-Agent、Referer等请求头。但要注意的是,目前该网页改为了部分异步加载,上述代码目前只能获取每个月前十天的数据,后续会对代码进行改良。某城市(这里以长沙为例)2024年的天气数据。数据解析使用的是xpath表达式。点击天气菜单栏下的历史天气。原创 2025-05-29 12:04:56 · 163 阅读 · 0 评论 -
python实战项目71:基于Python的US News世界大学排名数据爬取
成功采集2459条完整数据记录,字段完整率98.7%,经抽样验证数据准确率达到99.2%。系统平均采集速度达20条/秒,相比人工效率提升300倍。原创 2025-05-28 13:20:15 · 312 阅读 · 0 评论 -
python实战项目70:如何给一个空的DataFrame添加行
【代码】python实战项目70:如何给一个空的DataFrame添加行。原创 2025-05-20 22:03:20 · 181 阅读 · 0 评论 -
python实战项目69:基于Python爬虫的链家二手房数据采集方法研究
本文介绍了一个基于Python的链家二手房数据采集项目,旨在通过爬虫技术高效获取房地产数据,为市场分析提供支持。项目使用requests库进行网页请求,parsel模块解析HTML数据,并通过csv模块实现结构化存储。文章详细阐述了数据采集的流程,包括需求分析、网页结构分析、请求发送与反爬策略、数据解析与存储。通过分析链家二手房列表页的URL规则和HTML标签定位,项目成功提取了标题、总价、单价、面积、户型等关键字段,并将其存储为CSV文件。该方案验证了Python爬虫在房产数据采集中的有效性,并展望了未来原创 2025-05-11 11:05:54 · 1308 阅读 · 0 评论 -
python实战项目68:基于youtube视频的样本分析
本文选择YouTube平台上的来华旅游博主视频为研究对象,采用滚雪球抽样法,选取YouTube上来华旅游博主发布的英文Vlog 视频,从而实现样本的积累,本文分析的核心语料库为视频摘要,通过谷歌浏览器插件YouTube Summary with ChatGPT & laude 获取,该插件可以在谷歌chrome商店中下载。本文之所以选择视频摘要而非视频的完整文案为样本,是因为Vlog 视频通常充满口语化表达,信息较为杂乱,通过视频摘要可以更好地提取Vlog的信息,凝练视频展现的中国形象。原创 2025-05-05 10:44:52 · 102 阅读 · 0 评论 -
python实战项目67:空气质量在线检测平台js逆向
项目需求是获取某个城市(以北京市为例)历年(2013年12月至2025年4月)的空气质量数据,字段包括日期、AQI、质量等级、PM2.5、PM10、NO2、CO、SO2等。改网站的网址是“https://www.aqistudy.cn/historydata/daydata.php?网站如图所示:这个网站有参数加密、响应数据加密等,需要用到js逆向的知识,对于新手小白来说可能有些复杂,需要通过观看教学视频、查阅资料等方式才能掌握。原创 2025-05-01 00:01:17 · 1452 阅读 · 0 评论 -
python实战项目66:抓取考研招生专业信息
首先,在zydws.do数据包中抓取dwdm数据,然后再想yjfxs.do数据包发请求,将dwdm的值放在data参数中,获取数据以及保存数据。打开浏览器开发者工具抓包,刷新页面,找到xhr数据包。在搜索框中输入所需查询的专业。考研招生专业信息所在网页。原创 2025-04-27 21:35:53 · 243 阅读 · 0 评论 -
python实战项目65:drissionpage采集boss直聘数据
boss直聘网站近期改版,改版之后代码需要做相应的升级维护。drissionpage采集网页数据是一种不错的方式,笔者认为比Selenium好用,使用方法大家可以自行查阅资料。原创 2025-04-27 19:51:37 · 327 阅读 · 0 评论 -
python实战项目64:selenium采集软科中国大学排名数据
抓取此网页数据一般有两种方式,一种是直接发requests请求,我们这里采用的是使用selenium控制浏览器获取数据。采集流程主要分为以下几个步骤:一是初始化浏览器;二是控制浏览器打开网页,设置隐式等待;本项目的需求是使用selenium采集。原创 2025-04-23 22:03:38 · 251 阅读 · 0 评论 -
python实战项目63:获取腾讯招聘信息内容并进行统计分析
中社会招聘的不同工作类别岗位数据,获取该类招聘工作岗位中所有数据的岗位名称(RecruitPostName)、岗位地址(LocationName)、岗位类别(CategoryName)、岗位经验年限(RequireWorkYearsName)、岗位ID(PostId)、岗位职责(Responsibility)、岗位要求(Requirement),并保存为csv文件。并把所有该类招聘岗位的岗位名称、岗位ID、岗位地址、岗位类型、岗位经验年限、岗位职责、岗位要求保存为csv文件。原创 2025-04-23 20:53:53 · 539 阅读 · 0 评论 -
python实战项目62:采集大码女装数据
需求是采集女装的名称,售价、原价、颜色、尺码以及详情描述等信息我们的思路是先在主页爬取到每个商品的详情页url,接下来再对详情页的url发起请求,逐个获取商品的详情页信息,进而提取数据、保存数据。编写爬虫代码,使用xpath提取数据,并保存数据。抓包,找到商品详情页所在的数据接口。接下来进入商品详情页,找到数据接口。原创 2025-04-18 14:46:22 · 168 阅读 · 0 评论 -
app逆向专题五:新快报app数据采集
在对话框中粘贴,下面会自动生成Python爬虫代码,根据需要自行编写数据提取以及翻页代码,这些是爬虫基础,这里不再赘述。这里介绍一种简便的代码编写方法,在数据接口处右键,点击“Copy cURL Request”,然后打开。原创 2025-04-13 20:03:39 · 1500 阅读 · 0 评论 -
app逆向专题四:charles抓包工具配置
为了能抓取浏览器https的数据包,需要安装证书,点击Help选项卡下的SSL Proxying,再点击Install Charles Root Certificate,点击安装证书,点击本地计算机,点击下一步,点击将所有的证书都放入下列存储,点击浏览,点击受信任的根证书颁发机构,点击确定,点击下一步,点击完成。也就是说需要电脑和手机(或者模拟器)连接同一个WiFi,或者使用手机连接电脑的热点。查看你的设备ip地址,打开cmd输入ipconfig。点击设置,点击网络和互联网,点击右侧设置,如下图所示。原创 2025-04-13 18:04:14 · 1177 阅读 · 0 评论 -
app逆向专题三:adb工具的使用
adb它是一个通用命令行工具,它可以作为Android与PC端连接的一个桥梁,所以adb又成为Android调试桥,用户可以通过adb在电脑上对Android设备进行全面操作,比如安装和调试应用,操作文件的传输等,参考地址。下载完毕之后解压缩,然后将adb.exe文件所在的目录添加环境变量即可。如果该链接的下载地址过期或者无法下载,可以联系笔者获取。,找到如下图所示位置,之后点击下载即可。原创 2025-04-12 19:17:51 · 761 阅读 · 0 评论 -
app逆向专题一:如何下载app
依次点击搜索–查看–普通下载,即可将apk文件下载到本地电脑上。,在右上角搜索框中输入要下载的app名称。原创 2025-04-05 18:44:58 · 771 阅读 · 0 评论 -
python爬虫系列课程8:js浏览器window对象属性
在Web开发中,document 对象是DOM(文档对象模型)的一部分,它代表了整个HTML文档,并提供了多种属性和方法来访问和操作文档的内容、结构和样式。:即文档对象模型,Document Object Model,用于操作页面元素,DOM可以把HTML看作是文档树,通过DOM提供的API可以对树上的节点进行操作。:即JS的基本语法,JavaScript的核心,描述了语言的基本语法和数据类型,ECMAScript是一套标准,定义了一种语言的标准,与具体实现无关。原创 2025-03-08 22:51:54 · 161 阅读 · 0 评论 -
python爬虫系列课程7:ajax
ajax是Asynchronous JavaScript and XML的简写,ajax是一个前后端配合的技术,它可以让JavaScript发送异步的http请求,与后台通信进行数据的获取,ajax最大的优点是实现局部刷新,ajax可以发送http请求,当获取到后台数据的时候更新页面显示数据实现局部刷新,在这里大家只需要记住,当前端页面想和后台服务器进行数据交互就可以使用ajax了。原创 2025-03-08 21:29:26 · 321 阅读 · 0 评论 -
python爬虫系列课程6:js定时器
定时器就是在一段特定的时间后执行某段程序代码。原创 2025-03-08 21:02:31 · 230 阅读 · 0 评论 -
python实战项目61:去除文本中的表情符号
假设现在有一段文本:“这是一个包含😊表情符号的句子。还有更多像这样的心形❤️和笑脸😀。”,需要编写一段python代码把文本中的表情符号去除掉,达到以下效果:“这是一个包含表情符号的句子。还有更多像这样的心形和笑脸。”下面我们借助AI工具来实现这一目的。原创 2025-03-08 19:32:28 · 216 阅读 · 0 评论 -
python实战项目60:汽车之家品牌参数配置数据采集
参数配置页面抓包,找到数据接口,构造请求获取数据。如下图所示,点击任意一款车辆,点击参数配置选项。发送请求,获取seriesid。原创 2025-03-07 21:53:45 · 588 阅读 · 0 评论 -
python爬虫系列课程5:JavaScript语法介绍
JavaScript是一种弱类型语言,也就是说不需要指定变量的类型,JavaScript的变量类型由它的值来决定,定义变量需要用关键字’var’,一条JavaScript语句应该以";"结尾定义变量的语法格式:var 变量名=值;// 同时定义多个变量可以用","隔开,公用一个"var"关键字// 函数定义// 函数调用func()// 传参add(2, 4)// 内部函数外部调用 导出方法!cc();bc = cc;// 全局导出内部变量}())bc()原创 2025-03-02 13:08:35 · 96 阅读 · 0 评论 -
python实战项目59:使用python获取腾讯招聘数据并保存到mysql数据库中
抓包,找到数据接口。原创 2025-02-26 21:22:52 · 293 阅读 · 0 评论 -
python爬虫系列课程4:一个例子学会使用xpath语法
【代码】python爬虫系列课程4:一个例子学会使用xpath语法。原创 2025-02-26 00:10:54 · 172 阅读 · 0 评论 -
python实战项目58:采集蜻蜓FM热门音频top排行榜
蜻蜓FM热门音频top排行榜的链接为:,首页如下图所示:采集的思路为1、抓包、找到数据接口;2、发送请求;3、接收请求、提取数据;4、保存数据。原创 2025-02-25 23:31:01 · 264 阅读 · 0 评论 -
python爬虫系列课程3:解决爬虫过程中遇到的编码问题
这是因为requests模块在解析响应数据时,会以推断的字符集去解析,有时候会出错,就会出现乱码问题,这时需要我们自己去指定字符集。或者使用更为简单通用的方法,直接添加一行代码。原创 2025-02-18 22:37:52 · 274 阅读 · 0 评论 -
python爬虫系列课程2:如何下载Xpath Helper
点击浏览器右上方的三个点的图标,再点击扩展程序,最后点击管理扩展程序,将右上角的开发者模式图标打开。将下载的文件全部解压缩,把后缀名为crx的文件重命名为xpath.crx。将xpath.crx文件拖拽到扩展程序界面,点击添加扩展程序,安装完毕。原创 2025-02-18 21:43:12 · 598 阅读 · 0 评论