爬取糗事百科段子文字，爬取不到信息，求各位老板指点，谢谢

import re
import requests
import time
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) '
                 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
info_lists=[]
f = open('C:/Users/xyh/Desktop/baike.txt', 'a+')#创文件
def judgment_sex(class_name):#判别性别
    if class_name =='womenIcon':
        return '女'
    else:
        return '男'
def get_info(url):#详细信息
    res=requests.get(url)
    ids=re.findall('<h2>(.*?)<h2>',res.text,re.S)
    levels=re.findall('<div class="articleGender \D+Icon">(.*?)</div>',res.text,re.S)
    sexs=re.findall('<div class="articleGender (.*?)">',res.text,re.S)
    contents=re.findall('<div classs="content">.*?<span>(.*?)</span>',res.text,re.S)
    laughs=re.findall('<span class="stats-vote"><i class=""number>(\d+)</i>',res.text,re.S)
    comments=re.findall('<span class="stats-comments"><i class=""number>(\d+)</i>',res.text,re.S)
    for id,level,sex,content,laugh,comment in zip(ids,levels,sexs,contents,laughs,comments,):
        info={
            'id':id,
            'level':level,
            'sex':judgment_sex(sex),
            'content':content,
            'laugh':laugh,
            'comment':comment
        }
        info_lists.append(info)
if __name__ == '__main__':
    urls=['https://www.qiushibaike.com/text/page/{}/'.format(number) for
          number in range(1,11)]
    for url in urls:
        get_info(url)
        time.sleep(1)

    for info_list in info_lists:#写入到文件

            try:
                f.write(info_list['id']+'\n')
                f.write(info_list['level']+'\n')
                f.write(info_list['sex']+'\n')
                f.write(info_list['content']+'\n')
                f.write(info_list['laugh']+'\n')
                f.write(info_list['comment']+'\n')
                f.close()
            except UnicodeError:
                pass

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-江小黑 2021-04-12 11:48
关注
ids=re.findall('<h2>(.*?)<h2>',res.text,re.S) levels=re.findall('<div class="articleGender \D+Icon">(.*?)</div>',res.text,re.S) sexs=re.findall('<div class="articleGender (.*?)">',res.text,re.S) contents=re.findall('<div classs="content">.*?<span>(.*?)</span>',res.text,re.S) laughs=re.findall('<span class="stats-vote"><i class=""number>(\d+)</i>',res.text,re.S) comments=re.findall('<span class="stats-comments"><i class=""number>(\d+)</i>',res.text,re.S)

打印了下这几个变量都有内容了，你是后面的处理逻辑有问题。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

玩转python爬虫之爬取糗事百科段子
2020-09-21 18:13

【Python爬虫实战：爬取糗事百科段子】 Python爬虫是一种强大的工具，用于自动抓取网页数据。在这个教程中，我们将学习如何使用Python爬取糗事百科上的热门段子，包括发布日期、发布人、段子内容和点赞数，并过滤掉...
Python多线程爬虫实战_爬取糗事百科段子的实例
2020-09-20 23:51

本实例将详细讲解如何使用Python实现多线程爬虫，以爬取糗事百科上的段子作为具体应用。首先，我们需要了解普通爬虫的工作方式。在给定的代码片段中，一个简单的Python爬虫被用来获取糗事百科8小时热榜的段子。它...
Python爬虫爬取糗事百科段子实例分享
2020-09-16 11:05

在本篇关于Python爬虫爬取糗事百科段子的实例中，我们将学习如何使用Python进行网络数据抓取，特别是针对网页结构简单的站点，如糗事百科。首先，我们需要了解爬虫的基本工作原理：通过发送HTTP请求到指定的URL获取...
基于python爬虫爬取“糗事百科”网站段子
2024-09-19 15:13

简单爬取段子代码如下： url = "http://jandan.net/duan/page-93#comments" headers = {"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/...
爬取糗事百科段子.py
2024-01-23 17:43

python
利用Python爬取糗事百科段子信息
2021-03-04 20:35

sereasuesue的博客要求：用户ID，用户等级，用户性别，发表段子文字信息，好笑数量和评论数量，如下图所示：用户ID user = re.findall('<h2.*?>(.*?)</h2>', text, flags=re.DOTALL) 文字 text = re.findall('&...
Python爬取糗事百科段子（scrapy+beautifulsoup）
2017-03-13 11:03

本教程将深入探讨如何使用Scrapy与BeautifulSoup来爬取糗事百科上的段子。首先，我们需要了解Scrapy的基本结构。Scrapy项目通常包含几个关键组件：spiders、items、pipelines、settings和 middlewares。Spiders是...
Python爬取糗事百科段子
2021-03-05 14:01

北山啦的博客糗事百科是一个原创的糗事笑话分享社区,糗百网友分享的搞笑段子，使用Python爬取段子存入txt文件 import requests import re from fake_useragent import UserAgent headers= {'User-Agent':str(UserAgent()....
Python爬虫实战之爬取糗事百科段子
2019-09-04 11:40

华为云开发者联盟的博客糗事百科在前一段时间进行了改版，导致之前的代码没法用了，会导致无法输出和CPU占用过高的情况，是因为正则表达式没有匹配到的缘故。现在，博主已经对程序进行了重新修改，代码亲测可用，包括截图和说明，之前...
用Python爬取糗事百科段子，可视化后结果发现
2021-01-26 13:00

朱小五是凹凸君呀的博客大家好，我是小五????生活真是太苦了，需要找点快乐的精神食粮支撑社畜生活，听说糗事百科段子挺多，今天就来看一看！糗事百科的段子栏目声称：幽默笑话大全__爆笑笑话__笑破你的肚子的搞笑段...
python爬虫实战入门爬取糗事百科
2019-08-10 07:43

在这个"python爬虫实战入门爬取糗事百科"项目中，我们将学习如何使用Python来爬取网络上的数据，并将其存储到MySQL数据库中。首先，我们需要了解Python中的几个核心库，它们是实现爬虫的关键工具。requests库用于...
python_爬虫——爬取糗事百科
2017-03-10 20:19

亲测有效，不管是windows 还是Linux都...使用python 爬取糗事百科的段子，通过回车键控制，一次一个，同时可以把看过的内容保存到本地查看具体实现可以参照 http://blog.csdn.net/qiqiyingse/article/details/60583129
爬取糗事百科的段子然后进行汇总统计和分析
2019-08-10 07:46

标题中的“爬取糗事百科的段子然后进行汇总统计和分析”涉及到的是网络数据爬取、数据分析以及可能的数据可视化技术。在这个项目中，我们主要关注的是如何利用Python的Web爬虫技术从糗事百科网站获取热门段子，并对...
以下是一个示例代码，它使用爬取糗事百科的段子作为示例
2023-07-31 20:13

上述代码首先使用requests库发送GET请求获取糗事百科的首页内容。然后，使用BeautifulSoup库将网页内容解析成一个可操作的对象soup。接下来，通过使用soup对象的查找方法，我们提取页面中所有的段子内容，并打印输出...
爬虫实战1：爬取糗事百科段子
2019-04-24 18:43

一不小心写起了代码的博客本文主要展示利用python3.8+urllib实现一个简单无需登录爬取糗事百科段子实例。如何获取网页源代码对网页源码进行正则分析，爬取段子对爬取数据进行再次替换&删除处理易于阅读 0、全部源码展示 ...
python如何爬取糗事百科
2021-12-26 03:04

xiaofeng103的博客所需要引入的库，python版本号不同，加入#coding=gbk，避免正文中出现中文时报错。爬取的内容，跟路径在开发者模式中选择包裹的内容。现在我们想获取发布人，发布日期，段子内容，以及点赞的个数。不过另外...
Python爬虫实例爬取网站搞笑段子
2020-09-21 02:18

Python爬虫技术是一种用于自动化获取网页内容的工具，它能够帮助开发者从互联网上抓取大量信息，例如在这个实例中，作者使用Python爬虫从“http://ishuo.cn/”这个网站上爬取了搞笑段子。Python之所以常被用于爬虫...
没有解决我的问题, 去提问

爬取糗事百科段子文字，爬取不到信息，求各位老板指点，谢谢

2条回答 默认 最新

2条回答默认最新