
爬虫实战
文章平均质量分 79
本专栏将通过项目实战的方式来介绍如何进行爬虫,爬虫过程中的一些技术
斯曦巍峨
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫实战系列(十三):新浪热搜榜微博评论爬取及可视化
关于新浪微博的爬虫实战。原创 2022-08-15 20:57:15 · 5027 阅读 · 0 评论 -
关于爬虫系列博客迁移的声明
由于CSDN各种奇怪的政策,这个系列的博客可能会突然消失,为此我直接将该专栏迁移到了知乎:爬虫实战专栏。以后若是还有爬虫系列的博客,会直接发在知乎,不会在这里发布了,有需求的小伙伴可以去关注收藏一下。...原创 2022-05-22 10:10:31 · 221 阅读 · 0 评论 -
爬虫库分享(一):requests常见用法总结
一.前言requests是Python中一个用来发出HTTP请求的库,它将复杂的网络请求封装为一个简单的API以供用户调用,对于一般比较简单的爬虫程序而言,requests库足矣,今天博主分享一下requests库的常见用法,本文主要针对有志爬虫的新人。二.常见用法2.1 安装与引用当然,在使用前需要在Python环境中安装requests库:pip install requests安装完成后便可以通过import命令即可引用该库:import requests2.2 GET请求HTT原创 2022-03-05 18:07:19 · 2680 阅读 · 0 评论 -
爬虫实战系列(十四):中国大学软科排名数据爬取及可视化分析
说明:之前发在CSDN对应的博客因为其审核标准改了,我改了下权限就不让发了,补一下我个人网站对应的博客地址:爬虫实战系列(十四):中国大学软科排名数据爬取及可视化分析。欢迎大家访问我的个人网站,以后会在CSDN和个人博客网站上同步更新内容。...原创 2022-02-22 15:41:23 · 2997 阅读 · 0 评论 -
爬虫实战系列(十一):Win10下手机爬虫工具appium的安装与测试
一.前言之前介绍的都是关于网页爬虫的相关内容,今天博主想跟大家分享一个非常牛的手机爬虫工具Appium,首先我会介绍它的安装方法,然后给出一个Appium连接手机app例程。二.详细安装过程2.1 Node.js的安装进入Node.js官网下载相应的软件,我选择的是左侧的更稳定的版本14.15.4,下载完成后点击安装,在安装过程中所有的步骤全部按默认即可。2.2 JDK8的安装首先需要选择对合适的JDK版本,我之前安装的是JDK11,结果在安装SDK工具的时候被识别JDK版本过低而安装失败,经原创 2021-02-08 12:44:08 · 2320 阅读 · 2 评论 -
爬虫实战系列(十):用多线程看《信条》影评数据
声明:本博客只是简单的爬虫示范,并不涉及任何商业用途。一.前言最近好久没写爬虫了,一直在想爬虫写到后面到底要写啥,之前的文章都注重于对爬虫网站的分析和数据的处理及可视化,当然这很重要,但是对爬虫来说速度也是很重要的,于是我便萌生了写多线程爬虫的想法,尽管python的多线程有GIL的限制,但是多线程对IO密集型任务还是很有用的,因此多线程是可以起到加快爬虫速度的作用的。于是我便对豆瓣上诺兰大神的新作《信条》的影评进行了尝试,下面是爬虫过程的具体记录。二.爬虫具体过程2.1 网页URL分析首先进入《原创 2020-11-13 18:04:54 · 923 阅读 · 0 评论 -
爬虫实战系列(九):知乎热榜全爬取及词云制作
声明:本博客只是简单的爬虫示范,并不涉及任何商业用途。一.前言今天正值国庆中秋双节,但作为一个技术宅的我仍然是在寝室度过,在下午我还是像日常一样打开知乎,在浏览热榜的时候我发现《姜子牙》冲到了知乎热榜第一,而我最近也有意向去看看这部国产动漫。于是不清楚风评的我准备利用爬虫+词云图对《姜子牙》的评价进行可视化,然后决定一波到底要不要去看,顺带了我也把热榜其他问题和对应的全部回答也扒了下来,下面是具体的过程介绍。二.爬虫过程2.1 所有问题对应回答页面链接获取2.2 获取三.结果展示四.结语.原创 2020-10-02 00:40:34 · 2567 阅读 · 1 评论 -
爬虫实战系列(八):淘宝店铺各品牌手机售卖信息爬取及可视化
声明:本博客只是简单的爬虫示范,并不涉及任何商业用途。一.前言最近博主在浏览淘宝时突然萌发了一个想爬它的念头,于是说干就干,我便开始向淘宝“下毒手”了。由于本人平时经常喜欢在淘宝上浏览各种手机的信息,于是我便以“手机”为关键词进行搜索,最后我利用爬虫获取了所有相关的手机信息,并对各种厂家生成手机的销量进行了一波可视化,下面是完整的记录过程。二.爬虫过程2.1 解决淘宝的登录问题首先,我在浏览器中打开淘宝,然后登录后以手机为关键词进行搜索,得到如下链接:https://s.taobao.com/s原创 2020-09-11 10:27:58 · 9061 阅读 · 8 评论 -
爬虫实战系列(七):scrapy获取高清桌面壁纸
声明:本博客只是简单的爬虫示范,并不涉及任何商业用途。一.前言电脑壁纸可谓是程序猿的第二张脸,网上高质量的壁纸网站不少,而我个人比较偏爱的是WallpaperCraft,下面就将介绍如何利用scrapy框架来爬取壁纸。二.爬取过程2.1 项目生成首先,生成一个scrapy项目,步骤是打开windows命令行,切换到要生成项目的地址,然后输入命令:scrapy startproject wallpapers生成的项目目录如下如所示:2.2 生成spider进入生成的项目目录,然后即可生成原创 2020-08-14 22:41:26 · 1069 阅读 · 3 评论 -
爬虫实战系列(六):selenium获取网抑云《无滤镜》评论
声明:本博客只是简单的爬虫示范,并不涉及任何商业用途。一.前言网易云可以说是国内一个较流行的音乐平台了,作为一名云村老用户,今天还是忍不住向它下手了。由于QQ音乐评论爬虫的经验,我很快就在开发者工具界面的xhr文件中找到了评论数据。但是一个问题摆在面前,网易云对评论数据做了混淆加密处理,如果使用requests来爬的话还需要搞懂它的加密原理,这样过于麻烦,于是我便想到了Selenium,即通过模拟用户操作浏览器的方式来进行页面跳转和评论获取,这样一来就容易多了。二.爬虫过程2.1 如何进行翻页操作原创 2020-08-10 17:28:36 · 1017 阅读 · 0 评论 -
爬虫实战系列(四):周董新歌Mojito评论爬取及可视化
一.网页分析二.词云生成三.完整示例程序四.结语原创 2020-07-31 10:52:42 · 2228 阅读 · 0 评论 -
爬虫实战系列(三):验证码的识别
在爬虫过程中,我们可能会遇到需要输入验证码的情况,因此验证码也是爬虫的一个壁垒。下面我将介绍如何利用pytesseract模块来进行简单图形验证码的识别。一.验证码图片说明首先,我在某高校爬取了若干的图形验证码(提取码:4jw0)并“手工”先给图片“打标签”(这样主要是为了后面测试识别准确率),标记结果如下图所示:二.pytesseract模块的安装要安装该模块首先要安装tesseract-ocr(安装教程请点我),在该模块安装好后下一步再安装pytesseract模块,可以直接使用pip命令,即原创 2020-07-29 20:50:56 · 5692 阅读 · 4 评论 -
爬虫实战系列(二):利用Selenium自动获取B站建国同志视频信息
声明:本博客只是简单的爬虫示范,并不涉及任何商业用途。一.Selenium简介最近博主在学习爬虫的过程中遇到了一个强无敌的工具—Selenium,通过它使得我们的爬虫过程可以像真正的用户在手工操作一般十分有趣,下面我将给大家一些干货,有兴趣的童鞋可以取学习学习:Selenium的安装:可以直接使用pip命令官方教程某大佬的中文教程另一大佬的学习笔记在本文中只是简单涉及到了获取以及操作网页中的某些元素等一些基本用法,因此文中不做详细说明。二.爬取网页分析三.爬虫过程四.源代码五.成果原创 2020-11-28 21:04:33 · 2322 阅读 · 2 评论 -
爬虫实战系列(一):超详细的某瓣250部经典高分电影信息爬取
前言为什么选取豆瓣电影Top 250来进行爬取呢?原因是它的网页结构相当规整,比较适合爬虫新手练习。下面我将详细展示爬虫的整个过程。爬虫过程网页链接分析爬虫起点网页为豆瓣电影 Top 250,整个250部电影一共分10页,每页对应的链接如下:https://movie.douban.com/top250?start=0&filter=https://movie.douban.c...原创 2020-05-05 20:22:40 · 5442 阅读 · 6 评论