python学习之----爬取数据

最新推荐文章于 2021-04-25 22:40:59 发布

原创最新推荐文章于 2021-04-25 22:40:59 发布 · 246 阅读

0 ·

CC 4.0 BY-SA版权

数据结构与Python 专栏收录该内容

42 篇文章

订阅专栏

本文介绍了Python爬虫的基础知识，包括网页结构、正则表达式与BeautifulSoup结合解析网页、Request库的GET和POST方法。讨论了User-Agent在防止被反爬中的作用，并探讨了提高爬取速度的多进程与异步方法，如gevent。最后，提到了使用Selenium进行更智能的反爬策略，模拟用户行为避免被检测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

网页基本了解

-- 参考链接：https://morvanzhou.github.io/tutorials/data-manipulation/scraping/1-01-understand-website/

网页的基本了解

1.html格式，配合CSS和javascript显示出来，所以我们主要从html提取网页。
2.head + body = html
3.head 不显示，是在里面，所以我们一般都是爬取body的信息
4.没有css的话网页是很丑陋的，css的class用来同意修改格式的文字，更加方便，不同的class样式不同。

正则表达+beautiful soup

1.这两个结合可以让我们更好的筛选从网页上爬到的信息，beautiful soup一般都会有tag，我们通过tag来阅读，而正则的出现则是我们更好的筛选出我们想要的信息

Request的使用更好的进入网站

参考链接

1.post的使用，一般都是来和网站交互的使用，一般会提交一些数据给我们的服务器的网站。所以比如我们登陆账号等一般都会用到post这类的。个性化信息，自己发到服务器，然后服务器根据信息返回结果给你，比如你登陆知乎，就是专门属于你的名称和图标。-
2.get的使用，一般则是只有浏览的功能，但是没有任何的数据交互。

3.关于user-agent的问题：
参考链接

爬虫是自动的爬取网站信息，实质上我们也只是一段代码，并不是真正的浏览器用户，加上User-Agent（用户代理，简称UA）信息，只是让我们伪装成一个浏览器用户去访问网站，然而一个用户频繁的访问一个网站很容易被察觉，既然我们可以伪装成浏览器，那么也同样可以通过UA信息来变换我们的身份。