- 博客(11)
- 收藏
- 关注
原创 【Python 网络爬虫技术】
1.1 爬虫的定义与工作原理网络爬虫,也被称为网络蜘蛛或网络机器人,是一种按照特定规则,自动抓取互联网信息的程序或脚本。其工作原理基于 HTTP 协议,大致流程为:首先,爬虫向目标网站发送 HTTP 请求,请求中包含了目标网页的 URL 地址;接着,网站服务器接收到请求后,将网页内容以 HTML、XML 或 JSON 等格式返回给爬虫;最后,爬虫对获取到的响应内容进行解析,提取出所需的数据,并进行存储或进一步处理。
2025-04-19 10:26:45
2164
原创 【Hadoop核心技术】
Hadoop 是一个开源的分布式计算平台,主要用于存储和处理大规模数据集。它的设计初衷是为了能够在由普通硬件构建的集群上高效运行,通过分布式存储和分布式处理来应对数据量的增长和复杂的数据处理需求。Hadoop 具有高可扩展性、高可靠性和高效性等特点,被广泛应用于大数据领域,如互联网公司的数据仓库建设、日志分析、机器学习数据预处理等场景。使用的软件是这两个。
2024-11-16 20:22:55
1090
原创 【数据可视化】
数据可视化是将数据以图形、图表、地图、信息图形等直观的视觉形式呈现出来。它把复杂的数据关系和抽象的信息变得形象化,从而帮助用户更好地理解数据,发现数据中的规律、趋势、模式以及异常情况。
2024-10-25 18:11:54
730
原创 【大数据分析与应用】
例如,在处理电商平台的用户行为数据时,可以构建推荐系统模型,根据用户的历史购买、浏览等行为数据,预测用户可能感兴趣的商品。1.交通流量预测:通过收集和分析交通传感器数据、GPS 数据、视频监控数据等,预测交通流量的变化趋势,为交通管理部门提供决策支持,优化交通信号控制、道路规划等,缓解交通拥堵。1.疾病预测与预防:收集和分析大量的医疗数据,包括患者的病历、症状、检查结果、基因数据等,可以建立疾病预测模型,提前预测疾病的发生风险,为疾病的预防和早期干预提供依据。2024 年 10 月 21。
2024-10-21 10:25:30
1331
原创 【探索 Python 数据分析在工业互联网中的基石】
首先,要掌握 Python 的基础知识,包括语法、数据结构和控制流。这是构建数据分析能力的根基。
2024-06-18 09:40:16
2111
原创 【标题:MySQL 基础知识】
假设有“students”表(包含学生 ID 和姓名)和“courses”表(包含课程 ID 和对应的学生 ID),查询选修了某课程的学生姓名。就像在一个购物系统中,用户下单时,需要同时更新商品库存和生成订单记录,这整个过程就是一个事务,确保要么全部成功,要么全部失败,保持数据的完整性。在实际应用中,根据具体的数据特点和需求来选择合适的数据类型,这对于数据库的性能和数据的准确性都非常重要。同时,在创建表时要充分考虑字段的定义、约束等,为后续的数据操作和维护打下良好的基础。
2024-06-18 09:39:49
618
原创 【Java 的基础内容】
Windows:下载 JDK:安装 JDK:设置环境变量:验证安装:Linux(以 Ubuntu 为例):Eclipse下载网址:https://www.eclipse.org/downloads设置环境变量(可选):如果你希望在任何位置都能直接运行 Java 命令,可以设置环境变量。打开终端,输入以下命令:在文件中添加以下行:验证安装:视频教学链接: link在 Java 中,数据类型主要分为两类:基本数据类型和引用数据类型。基本数据类型:引用数据类型:类(class):自
2024-06-18 09:39:09
1687
原创 【mongodb分片集群】
分片集群是 MongoDB 中用于处理大规模数据和高并发访问的一种架构。它将数据分布在多个分片服务器上,以提高数据的存储和查询性能。
2024-06-04 11:21:17
310
原创 【无标题】
副本集是 MongoDB 中的一种高可用性解决方案,它由多个节点组成,其中一个节点被指定为主节点,其他节点为从节点。主节点负责处理写操作,并将数据同步到从节点。副本集提供了数据冗余和自动故障转移功能,以确保系统的高可用性和数据的可靠性。
2024-05-28 11:28:14
397
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人