阿迪力江040514-CSDN博客

原创网络爬虫技术

网络爬虫技术摘要：本文介绍了网络爬虫的基本概念、合法性边界及开发实践。主要内容包括：（1）爬虫技术原理与应用场景，如搜索引擎索引、数据采集等；（2）法律风险分析，强调遵守robots协议、避免干扰网站运行和侵犯隐私数据；（3）目标网站调研方法，包括检查robots.txt、分析sitemap、评估网站规模和技术架构；（4）三种爬取策略的实现：网站地图爬虫、ID遍历爬虫和链接爬虫；（5）实用开发技巧，如异常处理、用户代理设置、代理支持、下载限速及避免爬虫陷阱等。文章强调技术中立性，开发者需保持道德自律，合理控

2025-06-30 14:38:19 1203

原创 Spark SQL 笔记入库

本文介绍了使用Spark SQL进行数据分析并将结果导入MySQL数据库的完整流程。首先通过DataFrame API或SQL方式完成数据统计分析，获取最受欢迎的TopN课程访问数据。然后创建MySQL数据库表结构，并优化批量插入操作。核心代码包括：1) Spark SQL统计逻辑，2) MySQL连接工具类，3) 数据实体类定义，4) 批量写入数据库的实现。最终实现了将2017年5月11日的视频课程访问数据（包含日期、课程ID和访问次数）高效导入MySQL，并展示了查询结果。整个过程涉及Spark数据处理

2025-06-30 14:07:34 340

原创 Spark SQL 笔记

摘要：本文介绍了使用Spark进行日志数据分析的实现过程。首先通过DataFrame API和SQL API对清洗后的日志数据进行统计分析，查询20170511日最受欢迎的视频课程TopN。然后优化了分区字段数据类型推断的性能。接着在MySQL中创建结果表day_video_access_topn_stat，并通过批量操作将统计结果写入数据库。实现中封装了MySQLUtils工具类处理连接管理，使用foreachPartition和ListBuffer进行高效数据批量插入。最终成功将课程访问次数统计结果持久

2025-06-30 14:01:52 223

原创 Java项目开发全流程实践

摘要：本文介绍了一个基于UML设计的四则运算器开发过程。项目采用标准开发流程，从需求分析入手，划分了"输入算式"、"退出程序"和"查看帮助"三个主要用例。程序设计阶段合并了边界类和控制类，建立Arithmetic类实现核心功能。程序实现包括：1)语法扫描模块验证算式格式；2)计算模块处理单运算符表达式；3)循环交互界面支持重复计算。开发过程体现了从需求到设计再到编码的完整软件工程方法，最终实现了一个支持加减乘除运算、错误检测和帮助提示的命令行计算工

2025-06-30 13:43:37 840

原创数据可视化（图形绘制）

Matplotlib通常与NumPy和pandas扩展包一起使用，最常见的使用方式是根据NumPy库的N维数组类型ndarray来绘制2D图像，使用简单、代码清晰易懂，深受广大技术爱好者的喜爱，是数据分析中不可或缺的重要工具之一。在Matplotlib中，我们可以使用plot()函数来绘制折线图，通过设置x轴和y轴的数据，以及图表的标题、坐标轴标签等参数，就可以生成一个基本的折线图。Python，作为数据分析领域的明星语言，凭借其强大的数据处理能力和丰富的库资源，正逐渐受到越来越多数据分析师的青睐。

2024-12-15 13:10:29 1093

原创数据可视化入门指南

人类视觉系统对图形的处理能力远超对文字和数字的处理能力，通过可视化手段，我们能够迅速捕捉到数据中的关键信息，比如模式的识别、趋势的判断以及异常值的发现。数据可视化便是那把神奇的钥匙，它能够将枯燥的数据转化为生动直观的图形、图表等视觉元素，帮助我们轻松解读数据背后的奥秘，发现其中隐藏的规律、趋势和关系。散点图通过点的分布展示两个变量之间的关系，可根据数据特点调整点的大小，帮助我们观察数据的分布模式和相关性。xAxis.data：分类轴数据，如 ['周一', '周二', '周三', '周四', '周五']。

2024-12-15 12:57:41 636