
工具学习
文章平均质量分 87
1. 程序员常用工具学习分享
2. 程序员学习技巧分析
3. 程序员上分分享
算法驯化师
1. 多年面试官经验、欢迎咨询各类简历修改、面试经验、求职准备、项目包装、项目指导(算法代码方向);
2. 混迹多个大厂搜索、推荐、广告、内容、数据挖掘、数据分析等多个岗位工作,目前大模型算法驯化师;
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【openpyxl-驯化】一文搞懂python是如何将文本、图片写入到execl中的技巧
我们在进行图片的分类等处理过程中,经常需要将图片插入到execl中,并对其进行显示,这个时候我们需要用到openpyxl库来对其进行处理,openpyxl 是一个 Python 库,用于读写 Excel 2010 xlsx/xlsm/xltx/xltm 文件。它提供了丰富的功能,包括创建工作簿、操作工作表、添加图片等。本文将介绍如何使用 openpyxl 在 Excel 工作表中插入文本和图片。openpyxl 是一个功能强大的库,用于操作 Excel 文件。原创 2024-08-28 14:33:25 · 1241 阅读 · 0 评论 -
【Pyspark-驯化】一文搞懂Pyspark中的RDD的使用技巧
spark的运行基本由两部分组成:Transformnation(转换)和action,其中第一部分这类方法仅仅是定义逻辑,并不会立即执行,即lazy特性。目的是将一个RDD转为新的RDD。action不会产生新的RDD,而是直接运行,得到我们想要的结果RDD是PySpark中的核心数据结构,提供了丰富的操作来处理大规模数据集。通过本博客的代码示例,我们学习了如何创建RDD、执行转换和行动操作,以及使用高级功能如Pair RDD和聚合操作。原创 2024-08-06 14:24:34 · 722 阅读 · 0 评论 -
【Pyspark-驯化】一文搞懂PYspark中读取各类数据格式技巧:parquet、hdfs、json
hdfs、hive、本地CSVJSONParquetHive表JDBC等。通常我们将数据保存为parquet格式,这样可以将数据的存放大小缩小一个量级。PySpark提供了多种方式来读取不同类型的数据源。通过SparkSession,我们可以轻松地读取CSV、JSON、Parquet等格式的数据,并进行进一步的处理和分析。希望这篇博客能够帮助你更好地理解如何在PySpark中读取数据,并将其应用于处理大规模数据集。原创 2024-08-06 14:22:39 · 1108 阅读 · 0 评论 -
【Pyspark-驯化】一文搞定spark的代码执行原理和使用技巧
Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的。Spark SQL:提供通过Apache Hive的SQL变体Hive查询语言(HiveQL)与Spark进行交互的API。每个数据库表被当做一个RDD,Spark SQL查询被转换为Spark操作。原创 2024-08-05 14:09:50 · 1211 阅读 · 0 评论 -
【Hadoop-驯化】一文学会hadoop访问hdfs中常用命令使用技巧
Hadoop分布式文件系统(HDFS)是一个分布式文件系统,允许跨多个机器存储和处理大量数据。HDFS的命令行工具hdfs提供了多种命令,用于文件和目录的管理、访问权限的设置以及数据的复制和恢复等。Hadoop的HDFS命令行工具提供了丰富的功能,用于管理分布式文件系统中的文件和目录。通过本博客的代码示例,我们学习了如何使用这些命令来执行基本和高级的文件操作。希望这篇博客能够帮助你更好地理解Hadoop HDFS命令的用法,提高你在Hadoop集群中管理数据的效率。原创 2024-08-04 11:32:19 · 828 阅读 · 0 评论 -
【Hadoop-驯化】一文教你轻松搞懂hadoop的基本原理
hadoop是一个大规模的集群处理框架,可以用来对大规模的数据进行并行处理,用来处理大规模的日志信息很方便,目前用的比较多的基本就是hdfs和MR计算框架了,Hadoop的生态架构如下所示:目前对于上述的生态组件的话,hive,hdfs,hbase以及flume和sqoop用的比较多,机器学习库mahout现在基本不用了,但是随着spark的得绝对优势,目前hadoop的使用基本都很少了,对于非大数据开发工程师来说,基本了解上层的数据挖掘、分析的使用即可,平时基本接触不到底层的原理。原创 2024-08-03 11:10:01 · 1073 阅读 · 0 评论 -
【Python正则-驯化】最全面干净的通过python将文本中的异常符号进行处理技巧
string = "123我123456abcdefgABCVDFF?/ ,。,.:;:''';Python的re模块为处理文本提供了强大的正则表达式功能。通过本博客的代码示例,我们学习了如何使用正则表达式进行搜索、查找、替换和分割操作。希望这篇博客能够帮助你更好地利用正则表达式来清洗和处理文本数据。原创 2024-08-01 15:49:54 · 870 阅读 · 0 评论 -
【Python正则-驯化】一文学会通过Python中的正则表达式提取文本中的日期
在处理文本数据时,经常需要从大量非结构化数据中提取日期信息。正则表达式提供了一种强大的文本匹配工具,可以用来识别和提取符合特定格式的日期字符串,例如 MM/DD/YYYY。\b:单词边界,确保我们匹配的是独立的日期字符串。(0[1-9]|1[0-2]):匹配月份,可以是 01 到 09 或 10 到 12。/:字面意义上的斜杠。(0[1-9]|[12][0-9]|3[01]):匹配日期,可以是 01 到 09,10 到 29,或者 30 和 31。/:字面意义上的斜杠。原创 2024-08-01 13:20:31 · 583 阅读 · 0 评论 -
【正则表达式-驯化】Python中网页提取神器使用正则表达式以及基础语法介绍
正则表达式(Regular Expression,简称Regex)是一种用于匹配字符串中字符组合的模式。在Python中,正则表达式通过re模块提供,它是一个用于处理字符串的强大工具,可以用于搜索、替换、分割和验证文本格式等任务。元字符描述匹配行的开始匹配行的结束匹配除换行符以外的任意字符。[ ]字符类,匹配方括号中包含的任意字符,[amk] 匹配 ‘a’,‘m’或’k’[^ ]不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。匹配前面的子表达式零次或多次。原创 2024-07-30 11:01:05 · 992 阅读 · 0 评论 -
【Bug-驯化】成功解决Some module may need to rebuild instead e.g. with ‘pybind11>=2.12‘.
我们在安装pytroch版本2.20时,使用的是python3.10版本,这个时候会自动给安装商numpy=2.0.0,这个版本目前来说在运行导入torch时会出现如下问题:💡 2. 解决方法 导致上述的问题的根源就是安装了numpy的高版本,但是目前来说该版本不是支持的特别好,因此,建议使用低版本,这样也不会影响torch的使用,具体的操作如下所示: 将上述的包安装成功后,导入torch,即可正常,具体的命令如下所示:原创 2024-07-16 11:00:26 · 1937 阅读 · 0 评论 -
【Pyspark-驯化】spark中高效保存数据到hive表中:stored as PARQUET
在PySpark中,数据可以以不同的文件格式存储,其中最常见的是TEXTFILE和PARQUET。这两种格式在存储效率、查询性能以及使用场景上有着显著的差异。STORED AS TEXTFILE:这是一种简单的存储方式,将数据以文本形式存储,通常用于非结构化数据。它不需要特定的序列化机制,易于阅读但不适合高效的数据查询。STORED AS PARQUET:Parquet是一种列式存储格式,被优化用于分析型查询。它支持复杂的嵌套数据结构,并且与Hadoop和Spark等大数据平台紧密集成。原创 2024-06-28 17:31:40 · 1419 阅读 · 0 评论 -
【vscode使用】一文帮你解决vscode打开文件不覆盖问题
vscode软件是目前在数据分析、数据挖掘、算法工程师中使用最为广泛的代码编辑器,由于它轻量好用而得到广泛的使用我们在使用vscode过程中,有时候需要将多个代码文件打开进行对比,但是总是会出现打开文件就被覆盖了的情况,这个对于查看代码是一个挺烦人的情况,下面给出如果配置vscode打开文件每次都是打开新的界面。原创 2024-06-26 13:28:01 · 1388 阅读 · 0 评论 -
【大模型驯化-gradio】成功解决gradio出现httpcore.ReadTimeout: timed out问题
【大模型驯化-gradio】成功解决gradio出现httpcore.ReadTimeout: timed out问题 本次修炼方法请往下查看 在实际的工作中,我们经常会启用一个docker来管理自己的环境隔离问题,在使用对大模型进行可视化接口调用时,我们使用如下命令安装gradio: 从上述的结果可以看出我们已经在一个conda环境中安装成功了gradio,我们通过gra原创 2024-06-21 11:05:25 · 2884 阅读 · 0 评论 -
使用conda处理docker崩溃导致的conda环境得重新配置
目前大公司基本都通过docker的方式管理开发机器,如果docker一旦重新启动很有可能conda环境就全部得重新配置了,之前安装的tensorflow和pytroch环境也需要重新配置比较麻烦,可以使用conda pack方式来处理这个问题。原创 2023-09-28 17:17:06 · 299 阅读 · 0 评论 -
mac中使用idea搭建java开发环境
目前大部分的大公司基本都使用java语言(1.8)作为后端的开发语言,除百度用c++,大部分的公司都使用java语言,目前有在转go的趋势,下面为java开发环境的搭建流程总体的工具为:idea+java+maven。原创 2023-09-28 16:02:47 · 798 阅读 · 0 评论