网络爬虫 - 字体反爬（十二）

俾翻个牛B我

于 2025-06-03 14:53:27 发布

阅读量1.9k

点赞数 10

CC 4.0 BY-SA版权

文章标签：爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28396923/article/details/148397373

字体反爬

一、认识字体
- 字体概述
二、处理字体
三、部分按理讲解
- 某小说网站字体解密

一、认识字体

在爬虫爬取页面的时候，页面中的代码是乱码，但是在人眼看到的是原文，这样的映射关系让爬虫无法顺利爬取到网站内容。

以下是在网页中能够正常显示的文本内容，但是在Elements元素面板显示的是看不懂的字符
在这里插入图片描述

基于以上的情况，首先在网页的页面我们是能够看到正常显示的字符信息的，但是一旦我们请求数据的时候我们看到的就是看不懂的字符，如下所示：
在这里插入图片描述

因此，我们可以想一想为什么导致这样的情况。为什么浏览器能够得到正常的数据，咱们请求下来就不行？难道浏览器背后做了什么转化？答案是：“yes”。

首先，网站使用的是自定义的字体文件，浏览器在渲染数据的时候会根据字体文件引用关系读取字体文件，然后按照每一个字体的映射关系，将每一个正确的字体在网页渲染出来，从而我们在网页中可以看到正常的字体。但是原本的数据并没有变，因此我们请求下来的内容是看不懂的字符。

字体概述

网页字体是一个字形集合，而每个字形是描述字母或符号的矢量形状。很多网站的数据肉眼看着很像，但是是由一些特殊文件渲染出来的，即使得到了数据，但是读取出来会有文件。

在字体加密的网站中用户也是无法直接进行复制网页内容的。

因此，特定字体文件的大小由两个简单变量决定：每个字形矢量路径的复杂程度和特定字体中字形的数量。

在这里插入图片描述
网页字体是一个字形集合，而每个字形是描述字母或符号的矢量形状。因此，特定字体文件的大小由两个简单变量决定：每个字形矢量路径的复杂程度和特定字体中字形的数量。

在这里插入图片描述
目前网络上使用的字体容器格式有以下几种： EOT、TTF2、WOFF。但是各个浏览器对字体的支持程度不一致。所以为了兼容性考虑，有的网站会给多个字体文件，哪个字体文件能解析，就是使用哪个。浏览器上使用网址通常是以 @font-face 引入使用类型。

二、处理字体

如果想要把自定义的字体文字变化为系统能够识别的内容，就需要获取自定义字体与通用字体的映射规则，经过转化后就能得到正常文字信息。

● 安装以下软件即可查看字体文件：FontCreator安装包

○ 安装方式：双击安装包，选择路径，一直点击下一步安装即可。
在这里插入图片描述
● 字体解密的大致流程：

先找到字体文件的位置，查看源码大概就是xxx.woff这样的文件
重复上面那个操作，将两个字体文件保存下来
用上面的软件或者网址打开，并且通过 Python fontTools 将字体文件解析为 xml 文件
根据字体文件解析出来的 xml 文件与类似上面的字体界面找出相同内容的映射规律（重点）
在 Python 代码中把找出的规律实现出来，让你的代码能够通过这个规律还原源代码与展示内容的映射

三、部分按理讲解

某小说网站字体解密

案例网址：

最低0.47元/天解锁文章

200万优质内容无限畅学

俾翻个牛B我

博客等级

码龄10年

21
原创

521
点赞

403
收藏

172
粉丝

关注

私信

热门文章

上一篇：: 网络爬虫 - App爬虫及代理的使用（十一）

下一篇：: 网络爬虫 - scrapy入门（十三）

最新评论

网络爬虫 - scrapy入门（十三）
北风之神c: 你这个scrapy爬虫总结的很全面很有条理，写得好赞，博主用心了！我也踩过 scrapy 的坑，后来无意中发现了个宝藏项目，必须推荐：但是scrapy来爬虫非常麻烦，写法难度高，国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，因为从根本理念上对scrapy api方式的框架造成巨大的降维打击。昔有Scrapy窃据神器，挟Twisted之技而令诸侯，然其框架繁苛，回调如狱，岁月更迭，其势已衰，其道已孤，弊病丛生，开发者苦之久矣！今有Funboost，顺天应人，聚函数神力，携`@boost`之雷霆，以大道至简之义，破枷锁，扫陈规，伐无道，正本清源，布告天下！此诚不可逆之大势也！依托于funboost的强大可视化管理，不登录机器可以轻松掌控分布式大规模爬虫运行状态，一目了然。可视化截图： https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html Scrapy十败如山崩，Funboost十胜如日升！ funboost剑锋所指，scrapy框架枷锁必将斩断！函数光辉，普照四海！ pip install funboost
网络爬虫 - scrapy分布式（十六）
北风之神c: 你这个scrapy爬虫总结的很全面很有条理，写得好赞，博主用心了！这篇关于 Scrapy 的技术总结确实到位，我也正好想聊聊分布式爬虫的新思路：但是scrapy来爬虫非常麻烦，写法难度高，国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，因为从根本理念上对scrapy api方式的框架造成巨大的降维打击。昔有Scrapy窃据神器，挟Twisted之技而令诸侯，然其框架繁苛，回调如狱，岁月更迭，其势已衰，其道已孤，弊病丛生，开发者苦之久矣！今有Funboost，顺天应人，聚函数神力，携`@boost`之雷霆，以大道至简之义，破枷锁，扫陈规，伐无道，正本清源，布告天下！此诚不可逆之大势也！依托于funboost的强大可视化管理，不登录机器可以轻松掌控分布式大规模爬虫运行状态，一目了然。可视化截图： https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html Scrapy十败如山崩，Funboost十胜如日升！ funboost剑锋所指，scrapy框架枷锁必将斩断！函数光辉，普照四海！ pip install funboost
网络爬虫 - scrapy深入（十五）
北风之神c: 你这个scrapy爬虫总结的很全面很有条理，写得好赞，博主用心了！我也踩过 scrapy 的坑，后来无意中发现了个宝藏项目，必须推荐：但是scrapy来爬虫非常麻烦，写法难度高，国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，因为从根本理念上对scrapy api方式的框架造成巨大的降维打击。昔有Scrapy窃据神器，挟Twisted之技而令诸侯，然其框架繁苛，回调如狱，岁月更迭，其势已衰，其道已孤，弊病丛生，开发者苦之久矣！今有Funboost，顺天应人，聚函数神力，携`@boost`之雷霆，以大道至简之义，破枷锁，扫陈规，伐无道，正本清源，布告天下！此诚不可逆之大势也！依托于funboost的强大可视化管理，不登录机器可以轻松掌控分布式大规模爬虫运行状态，一目了然。可视化截图： https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html Scrapy十败如山崩，Funboost十胜如日升！ funboost剑锋所指，scrapy框架枷锁必将斩断！函数光辉，普照四海！ pip install funboost
网络爬虫 - scrapy进阶（十四）
北风之神c: 你这个scrapy爬虫总结的很全面很有条理，写得好赞，博主用心了！ scrapy 写起来是不是觉得啰嗦？我试了个可以一行加速函数的方案，效果很不错：但是scrapy来爬虫非常麻烦，写法难度高，国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，因为从根本理念上对scrapy api方式的框架造成巨大的降维打击。昔有Scrapy窃据神器，挟Twisted之技而令诸侯，然其框架繁苛，回调如狱，岁月更迭，其势已衰，其道已孤，弊病丛生，开发者苦之久矣！今有Funboost，顺天应人，聚函数神力，携`@boost`之雷霆，以大道至简之义，破枷锁，扫陈规，伐无道，正本清源，布告天下！此诚不可逆之大势也！依托于funboost的强大可视化管理，不登录机器可以轻松掌控分布式大规模爬虫运行状态，一目了然。可视化截图： https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html Scrapy十败如山崩，Funboost十胜如日升！ funboost剑锋所指，scrapy框架枷锁必将斩断！函数光辉，普照四海！ pip install funboost
网络爬虫 - JavaScript解密Ⅰ（十七）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619763000。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

俾翻个牛B我 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。