自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 网络爬虫技术

网络爬虫技术摘要:本文介绍了网络爬虫的基本概念、合法性边界及开发实践。主要内容包括:(1)爬虫技术原理与应用场景,如搜索引擎索引、数据采集等;(2)法律风险分析,强调遵守robots协议、避免干扰网站运行和侵犯隐私数据;(3)目标网站调研方法,包括检查robots.txt、分析sitemap、评估网站规模和技术架构;(4)三种爬取策略的实现:网站地图爬虫、ID遍历爬虫和链接爬虫;(5)实用开发技巧,如异常处理、用户代理设置、代理支持、下载限速及避免爬虫陷阱等。文章强调技术中立性,开发者需保持道德自律,合理控

2025-06-30 14:38:19 1203

原创 Spark SQL 笔记入库

本文介绍了使用Spark SQL进行数据分析并将结果导入MySQL数据库的完整流程。首先通过DataFrame API或SQL方式完成数据统计分析,获取最受欢迎的TopN课程访问数据。然后创建MySQL数据库表结构,并优化批量插入操作。核心代码包括:1) Spark SQL统计逻辑,2) MySQL连接工具类,3) 数据实体类定义,4) 批量写入数据库的实现。最终实现了将2017年5月11日的视频课程访问数据(包含日期、课程ID和访问次数)高效导入MySQL,并展示了查询结果。整个过程涉及Spark数据处理

2025-06-30 14:07:34 340

原创 Spark SQL 笔记

摘要:本文介绍了使用Spark进行日志数据分析的实现过程。首先通过DataFrame API和SQL API对清洗后的日志数据进行统计分析,查询20170511日最受欢迎的视频课程TopN。然后优化了分区字段数据类型推断的性能。接着在MySQL中创建结果表day_video_access_topn_stat,并通过批量操作将统计结果写入数据库。实现中封装了MySQLUtils工具类处理连接管理,使用foreachPartition和ListBuffer进行高效数据批量插入。最终成功将课程访问次数统计结果持久

2025-06-30 14:01:52 223

原创 Java项目开发全流程实践

摘要:本文介绍了一个基于UML设计的四则运算器开发过程。项目采用标准开发流程,从需求分析入手,划分了"输入算式"、"退出程序"和"查看帮助"三个主要用例。程序设计阶段合并了边界类和控制类,建立Arithmetic类实现核心功能。程序实现包括:1)语法扫描模块验证算式格式;2)计算模块处理单运算符表达式;3)循环交互界面支持重复计算。开发过程体现了从需求到设计再到编码的完整软件工程方法,最终实现了一个支持加减乘除运算、错误检测和帮助提示的命令行计算工

2025-06-30 13:43:37 840

原创 数据可视化(图形绘制)

Matplotlib通常与NumPy和pandas扩展包一起使用,最常见的使用方式是根据NumPy库的N维数组类型ndarray来绘制2D图像,使用简单、代码清晰易懂,深受广大技术爱好者的喜爱,是数据分析中不可或缺的重要工具之一。在Matplotlib中,我们可以使用plot()函数来绘制折线图,通过设置x轴和y轴的数据,以及图表的标题、坐标轴标签等参数,就可以生成一个基本的折线图。Python,作为数据分析领域的明星语言,凭借其强大的数据处理能力和丰富的库资源,正逐渐受到越来越多数据分析师的青睐。

2024-12-15 13:10:29 1093

原创 数据可视化入门指南

人类视觉系统对图形的处理能力远超对文字和数字的处理能力,通过可视化手段,我们能够迅速捕捉到数据中的关键信息,比如模式的识别、趋势的判断以及异常值的发现。数据可视化便是那把神奇的钥匙,它能够将枯燥的数据转化为生动直观的图形、图表等视觉元素,帮助我们轻松解读数据背后的奥秘,发现其中隐藏的规律、趋势和关系。散点图通过点的分布展示两个变量之间的关系,可根据数据特点调整点的大小,帮助我们观察数据的分布模式和相关性。xAxis.data:分类轴数据,如 ['周一', '周二', '周三', '周四', '周五']。

2024-12-15 12:57:41 636

原创 Hadoop核心技术知识总结

总的来说,Hadoop核心技术的课程不仅深入讲解了Hadoop的基本原理和核心技术,还通过实际案例和项目应用,使学员能够更好地理解和应用Hadoop进行大数据处理和分析。HDFS是一个可靠性高、可扩展性好的分布式文件系统,它将大规模数据集分散存储在多个计算节点上,实现了数据的冗余备份和高效的并行读写。此外,Hadoop生态系统还提供了许多与Hadoop集成的工具和框架,如Hive、Pig、HBase和Spark等,这些工具和框架扩展了Hadoop的功能,使得数据分析和处理更为方便。

2024-12-15 12:50:19 1088

原创 大数据分析与应用

目录数据挖掘概述算法和工具算法(有监督学习和无监督学习)流程应用与发展数据预处理数据抽样数据标准化和归一化数据质量和清洗关联规则应用场景:分类分析支持向量机决策树随机森林回归分析一元线性回归多元线性回归应用场景:总结数据挖掘概述定义:数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。特点:处理大量数据、自动发现模式、多学科融合、应用广泛、结果的不确定性、可解释性要求高。算法和工具算法(有监督学习和无监督学习)

2024-11-10 15:56:34 927

原创 python数据分析与可视化

数据清洗:填充缺失数据、消除噪声数据等,主要通过分析“脏数据”的产生原因和存在形式,利用现有的数据挖掘手段和方法去清洗“脏数据”,将“脏数据”转化为满足数据质量要求和应用要求的数据,从而提高数据集的质量,满足现阶段数据分析的需求。丰富的标准库和丰富的第三方库:Python 的标准库提供了大量的模块和函数,支持各种常见的任务,如文件 I/O、网络编程、数据库交互等。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。

2024-06-23 19:55:25 764

原创 MongoDB副本集、分片综合应用

分片主要是将数据进行划分后,将它们分别存放于不同机器上的过程。通过使用分片可以实现降低单个机器的压力和处理更大的数据负载功能。分片与副本集主要区别在于,分片是每个节点存储数据的不同片段,而副本集是每个节点存储数据的相同副本。

2024-06-04 22:57:10 1968

原创 爬取链家二手房房价数据存入mongodb并进行分析

实验环境。

2024-04-23 14:37:36 2181

原创 MongoDB副本集部署

将之前配置好的里的bin复制至mongodb1中,在mongodb1中新建db文件夹和log文件夹存在对应的数据库数据以及日志数据。

2024-04-16 15:48:12 1960

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除