前段时间视频刷到一个小说站点,其内容没啥营养,却使用了CSS反爬和OB混淆。于是我去读了一下它的算法。读懂并写出脚本后,感觉这个网站逆向难度较小,可以尝试解决,即:只需要给出小说某一章的html链接,就能获取其内容。
样本地址:aHR0cHM6Ly9nLmhvbmdzaHUuY29tL2NvbnRlbnQvMTIxMTAyLzI3NzM2MDkuaHRtbA==
技术栈:
ts-node
、typescript
。babel
处理AST。superagent
发起网络请求。cheerio
解析HTML文本。
算法分析
小说内容的HTML结构很简单,每段都是一个p
标签,文本中间有一些不和谐的span
标签:
<div class="rdtext"fsize="16">
<p><span class="context_kw6"></span>叫顾凡<span class="context_kw0"></span>顾<span class="context_kw7"></span>得<span class="context_kw4"></span>顾<span class="context_kw0"></span>平