爬虫项目笔记

爬虫数据从哪里来?
传统的数据库、web日志信息,转移到HDFS/Hive/HBase等等中进行存储。
百度,google等等这些搜索引擎公司中为用户提供搜索服务的数据从哪里来?
获取互联网中海量数据的过程或者行为就是爬虫。

爬虫分为垂直爬虫;全网爬虫两种;

垂直爬虫:爬取一个网站各个分类的数据。

全网爬虫:爬取多个网站的数据。

①爬虫的基础架构


数据下载:运用到httpclient下载技术,通过一个API接口来下载,模拟鼠标右键下载。

数据解析:数据解析技术分别有四种:

dom:最原始最基础需要将所有信息都加载到内存里对内存消耗比较大,如果XML文件比较大,容易影响解析的性能,可能会造成内存溢出。应用程序通过DOM接口,应用程序在任何时候都能访问XMLwendan文档中的任何数据,又称为随机访问机制; 

sax:也是XML简单应用程序接口,与DOM不同访问模式是一直种顺序模式,是一种快速读写XML数据方式,当时用SAX解析时会触发一系列的事件并激发一系列事件处理函数应用程式通过这些处理函数实现对XML 文档的访问,事件驱动接口。  

采用事件驱动模式对内存消耗比较小,只适用于处理XML文件。但是编码比较麻烦,很难同时访问XML 文件处的不同数据。

jdom :仅仅使用的是具体类而不是使用接口。API大量使用Collections类。

dom4j :JDOM的一种智能分支,合并了许多超出基本XML文档表现功能,使用接口和抽象基本类方法。具有性能优化,灵活性好,,功能强大和极端易用的,是一个开放源码文件。

xpath:使用正则的方式在网页上提取。

本爬虫运用的是xpath+htmlcleaner

数据存储:MySQL  HBASE es


②爬虫的升级架构




内容概要:本文提出了一种融合多尺度Wavelet模型的跨文化英语交际智能模型系统(FL-DP-Wavelet),旨在通过多模态数据融合、多尺度特征提取与跨文化适应性建模,提升智能系统的文化敏感性和语境理解能力。该模型通过结合小波变换与深度学习优化语言信号的时频特征提取,基于跨文化敏感性发展模型(DMIS)构建文化适应性评估模块,并设计多模态数据融合框架,增强跨文化场景下的语义解析鲁棒性。实验结果显示,系统在跨文化语境下的语义理解准确率提升12.7%,文化适应性评分优于基线模型15.3%。 适合人群:从事跨文化交流、国际商务、外语教育的研究人员和技术开发者,特别是对智能系统在跨文化场景中的应用感兴趣的学者和工程师。 使用场景及目标:①跨文化商务谈判、教育合作和公共外交等场景中,需要提升智能系统的文化敏感性和语境理解能力;②帮助系统实现实时文化适应,减少因文化差异引起的语义误判和非语言行为冲突;③通过多模态数据融合,增强智能系统在复杂跨文化环境中的语义解析能力。 其他说明:该研究不仅提出了新的理论框架和技术路径,还在实际应用中验证了其有效性和优越性。未来将聚焦于小波-Transformer耦合、联邦学习隐私保护和在线学习算法,进一步推动系统向自主文化融合演进。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值