(base) PS D:\2025\internship\pachong\py\my12306> scrapy crawl train 2025-07-15 16:31:48 [scrapy.utils.log] INFO: Scrapy 2.11.1 started (bot: my12306) 2025-07-15 16:31:48 [scrapy.utils.log] INFO: Versions: lxml 5.2.1.0, libxml2 2.13 .1, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 23.10.0, Python 3.12.7 | packaged by Anaconda, Inc. | (main, Oct 4 2024, 13:17:27) [MSC v.1929 64 bit (AM D64)], pyOpenSSL 24.2.1 (OpenSSL 3.0.15 3 Sep 2024), cryptography 43.0.0, Platform Windows-11-10.0.26100-SP0 2025-07-15 16:31:48 [scrapy.addons] INFO: Enabled addons: [] 2025-07-15 16:31:48 [py.warnings] WARNING: D:\anaconda\Lib\site-packages\scrapy\u tils\request.py:254: ScrapyDeprecationWarning: '2.6' is a deprecated value for the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting. It is also the default value. In other words, it is normal to get this warning if you have not defined a value for the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' sett ing. This is so for backward compatibility reasons, but it will change in a future version of Scrapy. See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation. return cls(crawler) 2025-07-15 16:31:48 [scrapy.extensions.telnet] INFO: Telnet Password: b500c51afa127fa5 2025-07-15 16:31:48 [scrapy.middleware] INFO: Enabled extensions: ['scrapy.extensions.corestats.CoreStats', 'scrapy.extensions.telnet.TelnetConsole', 'scrapy.extensions.logstats.LogStats', 'scrapy.extensions.throttle.AutoThrottle'] 2025-07-15 16:31:48 [scrapy.crawler] INFO: Overridden settings: {'AUTOTHROTTLE_ENABLED': True, 'AUTOTHROTTLE_START_DELAY': 10, 'BOT_NAME': 'my12306', 'DOWNLOADER_CLIENT_TLS_METHOD': 'TLSv1.2', 'DOWNLOAD_DELAY': 5, 'DOWNLOAD_TIMEOUT': 15, 'LOG_LEVEL': 'INFO', 'NEWSPIDER_MODULE': 'my12306.spiders', 'RETRY_HTTP_CODES': [302, 403, 404, 500, 502, 503, 504], 'RETRY_TIMES': 5, 'SPIDER_MODULES': ['my12306.spiders']} 2025-07-15 16:31:49 [scrapy.middleware] INFO: Enabled downloader middlewares: ['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware', 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware', 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware', 'my12306.middlewares.RandomUserAgentMiddleware', 'scrapy.downloadermiddlewares.retry.RetryMiddleware', 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware', 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware', 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware', 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware', 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware', 'scrapy.downloadermiddlewares.stats.DownloaderStats'] 2025-07-15 16:31:49 [scrapy.middleware] INFO: Enabled spider middlewares: ['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware', 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware', 'scrapy.spidermiddlewares.referer.RefererMiddleware', 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware', 'scrapy.spidermiddlewares.depth.DepthMiddleware'] 2025-07-15 16:31:49 [scrapy.middleware] INFO: Enabled item pipelines: ['my12306.pipelines.JsonWriterPipeline'] 2025-07-15 16:31:49 [scrapy.core.engine] INFO: Spider opened 2025-07-15 16:31:49 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2025-07-15 16:31:49 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023 2025-07-15 16:31:55 [scrapy.core.scraper] ERROR: Spider error processing <GET htt ps://kyfw.12306.cn/otn/login/init> (referer: https://kyfw.12306.cn/otn/index/init) Traceback (most recent call last): File "D:\2025\internship\pachong\py\my12306\my12306\spiders\train_spider.py", line 16, in safe_selector return Selector(response) ^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\scrapy\selector\unified.py", line 97, in __init__ super().__init__(text=text, type=st, **kwargs) File "D:\anaconda\Lib\site-packages\parsel\selector.py", line 496, in __init__ root, type = _get_root_and_type_from_text( ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\parsel\selector.py", line 377, in _get_root_and_type_from_text root = _get_root_from_text(text, type=type, **lxml_kwargs) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\parsel\selector.py", line 329, in _get_root_from_text return create_root_node(text, _ctgroup[type]["_parser"], **lxml_kwargs) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\parsel\selector.py", line 110, in create_root_node parser = parser_cls(recover=True, encoding=encoding, huge_tree=True) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\lxml\html\__init__.py", line 1887, in __init__ super().__init__(**kwargs) File "src\\lxml\\parser.pxi", line 1806, in lxml.etree.HTMLParser.__init__ File "src\\lxml\\parser.pxi", line 858, in lxml.etree._BaseParser.__init__ LookupError: unknown encoding: 'b'utf8'' During handling of the above exception, another exception occurred: Traceback (most recent call last): File "D:\anaconda\Lib\site-packages\scrapy\utils\defer.py", line 279, in iter_errback yield next(it) ^^^^^^^^ File "D:\anaconda\Lib\site-packages\scrapy\utils\python.py", line 350, in __next__ return next(self.data) ^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\scrapy\utils\python.py", line 350, in __next__ return next(self.data) ^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\scrapy\core\spidermw.py", line 106, in process_sync for r in iterable: File "D:\anaconda\Lib\site-packages\scrapy\spidermiddlewares\offsite.py", line 28, in <genexpr> return (r for r in result or () if self._filter(r, spider)) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\scrapy\core\spidermw.py", line 106, in process_sync for r in iterable: File "D:\anaconda\Lib\site-packages\scrapy\spidermiddlewares\referer.py", line 352, in <genexpr> return (self._set_referer(r, response) for r in result or ()) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\scrapy\core\spidermw.py", line 106, in process_sync for r in iterable: File "D:\anaconda\Lib\site-packages\scrapy\spidermiddlewares\urllength.py", line 27, in <genexpr> return (r for r in result or () if self._filter(r, spider)) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\scrapy\core\spidermw.py", line 106, in process_sync for r in iterable: File "D:\anaconda\Lib\site-packages\scrapy\spidermiddlewares\depth.py", line 31, in <genexpr> return (r for r in result or () if self._filter(r, response, spider)) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\scrapy\core\spidermw.py", line 106, in process_sync for r in iterable: File "D:\2025\internship\pachong\py\my12306\my12306\spiders\train_spider.py", line 241, in login_page sel = safe_selector(response) ^^^^^^^^^^^^^^^^^^^^^^^ File "D:\2025\internship\pachong\py\my12306\my12306\spiders\train_spider.py", line 31, in safe_selector return ParselSelector(text=text, type='html', encoding=encoding) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\parsel\selector.py", line 496, in __init__ root, type = _get_root_and_type_from_text( ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\parsel\selector.py", line 377, in _get_root_and_type_from_text root = _get_root_from_text(text, type=type, **lxml_kwargs) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\parsel\selector.py", line 329, in _get_root_from_text return create_root_node(text, _ctgroup[type]["_parser"], **lxml_kwargs) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\parsel\selector.py", line 110, in create_root_node parser = parser_cls(recover=True, encoding=encoding, huge_tree=True) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "D:\anaconda\Lib\site-packages\lxml\html\__init__.py", line 1887, in __init__ super().__init__(**kwargs) File "src\\lxml\\parser.pxi", line 1806, in lxml.etree.HTMLParser.__init__ File "src\\lxml\\parser.pxi", line 858, in lxml.etree._BaseParser.__init__ LookupError: unknown encoding: 'b'utf8'' 2025-07-15 16:32:02 [train] INFO: 成功加载 3399 个车站信息 2025-07-15 16:32:02 [train] INFO: 部分车站示例: [('北京北', 'VAP'), ('北京东', 'BOP'), ('北京', 'BJP'), ('北京南', 'VNP'), ('北京大兴', 'IPP')] 请输入出发站: 北京 请输入到达站: 北京北 请输入日期(格式: yyyymmdd): 20250720 2025-07-15 16:33:01 [scrapy.extensions.logstats] INFO: Crawled 3 pages (at 3 pages/min), scraped 0 items (at 0 items/min) 2025-07-15 16:33:38 [scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying <GET https://www.12306.cn/mormhweb/logFiles/error.html> (failed 6 times): [<twist ed.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion: Connection lost.>] 2025-07-15 16:33:38 [scrapy.core.scraper] ERROR: Error downloading <GET https://www.12306.cn/mormhweb/logFiles/error.html> Traceback (most recent call last): File "D:\anaconda\Lib\site-packages\scrapy\core\downloader\middleware.py", line 54, in process_request return (yield download_func(request=request, spider=spider)) twisted.web._newclient.ResponseNeverReceived: [<twisted.python.failure.Failure tw isted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion: Connection lost.>] 2025-07-15 16:33:38 [scrapy.core.engine] INFO: Closing spider (finished) 2025-07-15 16:33:38 [scrapy.statscollectors] INFO: Dumping Scrapy stats: {'downloader/exception_count': 6, 'downloader/exception_type_count/twisted.web._newclient.ResponseNeverReceived': 6, 'downloader/request_bytes': 5916, 'downloader/request_count': 10, 'downloader/request_method_count/GET': 10, 'downloader/response_bytes': 86615, 'downloader/response_count': 4, 'downloader/response_status_count/200': 3, 'downloader/response_status_count/302': 1, 'elapsed_time_seconds': 109.671222, 'finish_reason': 'finished', 'finish_time': datetime.datetime(2025, 7, 15, 8, 33, 38, 966742, tzinfo=datetime.timezone.utc), 'httpcompression/response_bytes': 230430, 'httpcompression/response_count': 3, 'log_count/ERROR': 3, 'log_count/INFO': 13, 'log_count/WARNING': 1, 'request_depth_max': 2, 'response_received_count': 3, 'retry/count': 5, 'retry/max_reached': 1, 'retry/reason_count/twisted.web._newclient.ResponseNeverReceived': 5, 'scheduler/dequeued': 10, 'scheduler/dequeued/memory': 10, 'scheduler/enqueued': 10, 'scheduler/enqueued/memory': 10, 'spider_exceptions/LookupError': 1, 'start_time': datetime.datetime(2025, 7, 15, 8, 31, 49, 295520, tzinfo=datetime.timezone.utc)} 2025-07-15 16:33:38 [scrapy.core.engine] INFO: Spider closed (finished) (base) PS D:\2025\internship\pachong\py\my12306>
时间: 2025-07-15 18:14:51 浏览: 7
<think>我们面对的问题:Scrapy爬虫在解析12306页面时遇到错误 `LookupError: unknown encoding: 'b'utf8'`
这个错误通常发生在尝试使用一个不存在的编码名称时。错误信息中的编码名称为 `'b'utf8''`,这看起来像是编码名称被错误地加上了额外的引号或前缀,导致系统无法识别。
分析原因:
1. 可能是在某个地方将编码名称以字符串形式传递时,错误地包含了额外的字符(比如多余的引号或前缀'b')。
2. 在Scrapy中,编码问题通常出现在下载器中间件、响应处理或文本解析阶段。
观察错误信息:`unknown encoding: 'b'utf8'`,注意这里的编码名称是`'b'utf8'`(包括单引号内的内容),而不是`utf8`。因此,系统尝试使用`b'utf8'`作为编码名称,但这是一个无效的编码。
可能的原因:
- 在代码中手动设置了编码,但设置的值不正确,例如:`response.encoding = 'b'utf8''`(错误地设置了一个包含额外字符的字符串)。
- 在解析响应时,从某个地方(如HTTP头或meta)获取到的编码值被错误地处理,导致包含了额外的字符。
解决方案:
1. 检查Spider代码中是否有设置`response.encoding`的地方,确保设置的值是有效的编码名称(如'utf-8')。
2. 如果没有显式设置,那么可能是Scrapy的响应解析自动检测编码时出现了问题。我们可以通过覆盖响应处理逻辑来解决。
推荐做法:
使用Scrapy的下载器中间件,在响应到达Spider之前,对响应的编码进行修正。
步骤:
a. 创建一个下载器中间件,检查并修正响应的编码。
b. 在中间件中,如果发现响应的编码是无效的(例如包含多余的字符),则将其设置为正确的编码(如'utf-8')或者根据内容自动检测。
具体实现:
首先,我们需要在项目的middlewares.py文件中创建一个中间件类:
```python
# 在middlewares.py中添加以下类
from scrapy.http import HtmlResponse
from scrapy.utils.response import get_encoding
class FixEncodingMiddleware:
@classmethod
def from_crawler(cls, crawler):
return cls()
def process_response(self, request, response, spider):
# 如果响应是文本类型(如html),并且当前编码无效,则尝试修复
if isinstance(response, HtmlResponse):
# 检查当前响应的编码是否有效
try:
# 尝试获取当前编码,如果已经设置则检查是否有效
if response.encoding:
# 尝试使用该编码名称进行解码,如果失败则说明无效
'test'.encode(response.encoding)
except LookupError:
# 出现LookupError说明编码未知,我们需要修正
# 方法1:尝试从响应体中自动检测编码
# 方法2:直接指定为utf-8(如果确定目标网站是utf-8)
# 这里我们使用Scrapy内置的get_encoding函数来自动检测
new_encoding = get_encoding(response.body)
# 创建一个新的响应对象,使用新的编码
return response.replace(encoding=new_encoding)
return response
```
然后,在settings.py中启用这个中间件:
```python
DOWNLOADER_MIDDLEWARES = {
'your_project_name.middlewares.FixEncodingMiddleware': 100, # 选择一个合适的优先级,比如100
}
```
注意:中间件的优先级要适当,确保它在其他可能处理编码的中间件之前或之后正确运行。
另一种更直接的方案:如果确定12306网站使用UTF-8编码,我们可以在中间件中强制设置编码:
```python
class FixEncodingMiddleware:
def process_response(self, request, response, spider):
if isinstance(response, HtmlResponse):
# 检查当前编码是否有效,如果无效则强制设置为utf-8
try:
if response.encoding:
'test'.encode(response.encoding)
except LookupError:
# 强制设置为utf-8
return response.replace(encoding='utf-8')
return response
```
但是,强制设置为utf-8可能会在其他非utf-8编码的网站上出现问题,因此更通用的做法是自动检测。
然而,错误信息中出现了`'b'utf8'`这样的字符串,这很可能是由于在设置编码时错误地将一个bytes对象当成了字符串。例如,可能做了类似`response.encoding = b'utf-8'`的操作(注意:b'utf-8'是bytes,而编码名称应该是字符串)。因此,我们还需要检查在Spider或中间件中是否有这样的错误赋值。
因此,在Spider代码中检查是否有设置`response.encoding`的地方,并确保赋值为字符串(如'utf-8'),而不是bytes。
如果以上方法还不能解决问题,我们可以尝试在Spider的解析函数中,手动处理编码问题:
在parse方法中,我们可以忽略响应的编码,直接使用response.body重新解码:
```python
def parse(self, response):
# 直接使用response.body,并手动指定编码为utf-8,或者自动检测
# 这里使用chardet自动检测(需要安装chardet库)
import chardet
body = response.body
encoding = chardet.detect(body)['encoding'] or 'utf-8'
text = body.decode(encoding, errors='replace')
# 然后使用text进行解析
# 但这样会失去使用Selector的能力,因此我们可以重新构造一个响应
from scrapy.http import HtmlResponse
fixed_response = HtmlResponse(url=response.url, body=body, encoding=encoding)
# 然后使用fixed_response进行选择器操作
title = fixed_response.css('title::text').get()
# ... 其他解析
```
但是,这种方法比较重,而且需要重新构造响应。因此,优先推荐使用中间件的方法。
总结步骤:
1. 检查Spider代码中是否有设置`response.encoding`的地方,确保没有错误地设置为bytes。
2. 创建一个下载器中间件来修正无效的编码。
3. 在中间件中,当遇到无效编码时,使用自动检测的编码或强制设置为utf-8(如果确定目标网站编码)。
根据12306网站,我们可以确定其页面编码一般为UTF-8,因此强制设置为utf-8也是可行的。
最后,注意在Scrapy中,默认的编码自动检测机制(通过`scrapy.utils.response.get_encoding`)会考虑HTTP头、HTML meta标签等,所以通常情况下不需要手动设置。但出现这个错误说明在某个环节编码名称被污染了,因此我们的中间件可以作为一个安全措施。
另外,参考引用[1]中提到了使用ftfy修复编码的管道,但这里的问题发生在解析阶段,所以我们需要在响应到达解析函数之前修复编码(即使用中间件),而不是在管道中修复。管道中修复的是已经提取的文本,而这里的问题是无法将响应体解码为文本。
因此,我们采用中间件的方式。
实现示例:
在middlewares.py中:
```python
class FixEncodingMiddleware:
def process_response(self, request, response, spider):
# 只处理HtmlResponse
if not isinstance(response, HtmlResponse):
return response
# 如果当前响应的编码无效,则修复
try:
# 如果当前编码已经设置,尝试用它来编码一个字符串(只是检查编码是否存在)
if response.encoding:
'test'.encode(response.encoding)
except LookupError:
# 编码未知,进行修复
# 我们假设12306页面使用utf-8,所以直接设置为utf-8
# 但也可以使用自动检测:使用Scrapy的get_encoding函数
# new_enc = get_encoding(response.body)
new_enc = 'utf-8' # 根据12306网站,我们直接设置为utf-8
# 替换响应对象,使用新的编码
return response.replace(encoding=new_enc)
return response
```
在settings.py中启用:
```python
DOWNLOADER_MIDDLEWARES = {
'your_project_name.middlewares.FixEncodingMiddleware': 100,
}
```
请将`your_project_name`替换为你的项目名称。
这样,当遇到无效编码时,中间件会将响应的编码设置为utf-8,从而避免LookupError。
注意:这个中间件会处理所有HtmlResponse,所以如果其他网站也出现类似问题,也会被修复。但强制设置为utf-8可能不适用于所有网站,因此如果你爬取多个网站,建议使用自动检测(使用`get_encoding`函数)来替代。
修改后的中间件(使用自动检测):
```python
from scrapy.utils.response import get_encoding
class FixEncodingMiddleware:
def process_response(self, request, response, spider):
if not isinstance(response, HtmlResponse):
return response
try:
if response.encoding:
'test'.encode(response.encoding)
except LookupError:
# 自动检测编码
new_enc = get_encoding(response.body)
return response.replace(encoding=new_enc)
return response
```
这样更通用。
希望这个解决方案能够解决你的问题。</think>### Scrapy爬虫解决编码错误:`LookupError: unknown encoding: 'b'utf8'`
#### 问题分析
当Scrapy爬虫遇到`LookupError: unknown encoding: 'b'utf8'`错误时,通常是由于以下原因:
1. **响应头编码声明异常**:服务器返回的HTTP头中`Content-Type`包含无效的编码格式(如`b'utf8'`而非`utf-8`)[^1]
2. **编码探测机制失效**:Scrapy的自动编码检测被异常响应头干扰
3. **二进制前缀问题**:`b'utf8'`表示Python将编码名误识别为字节串而非字符串
#### 解决方案
##### 方法1:使用下载中间件强制覆盖编码(推荐)
在`middlewares.py`中添加中间件,忽略错误响应头:
```python
class ForceUtf8EncodingMiddleware:
def process_response(self, request, response, spider):
# 检测到异常编码时强制覆盖为utf-8
if "b'utf8" in str(response.headers.get('Content-Type', b'')):
return response.replace(
encoding='utf-8', # 显式指定正确编码
headers=response.headers # 保留原始头信息
)
return response
```
在`settings.py`启用中间件:
```python
DOWNLOADER_MIDDLEWARES = {
'your_project.middlewares.ForceUtf8EncodingMiddleware': 100,
}
```
##### 方法2:在Spider中手动修复响应
在解析函数中直接处理编码问题:
```python
def parse(self, response):
# 检测异常编码头
if "b'utf8" in str(response.headers.get('Content-Type', b'')):
# 重建响应对象并指定编码
fixed_response = response.replace(
encoding='utf-8',
body=response.body
)
else:
fixed_response = response
# 使用修复后的响应继续解析
title = fixed_response.css('title::text').get()
...
```
##### 方法3:全局编码后备方案
在`settings.py`设置默认编码:
```python
FEED_EXPORT_ENCODING = 'utf-8' # 强制所有输出为UTF-8
DEFAULT_RESPONSE_ENCODING = 'utf-8' # 设置默认响应编码
```
#### 预防性措施
1. **添加编码检测**:
```python
def detect_encoding_issue(self, text):
"""检测常见乱码模式"""
import re
pattern = re.compile(r'[
阅读全文
相关推荐

















