
数据科学
文章平均质量分 87
数据科学相关概念和在实际中的应用
python慕遥
Python创作与分享
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型应用开发平台Dify推出1.0版本,基于向量数据库Milvus实现RAG
大家好,在生成式人工智能(GenAI)的应用领域,检索增强生成RAG是当之无愧的热门技术。RAG 能够赋能企业充分挖掘大语言模型(LLM)的潜力,依托企业内部的知识库,如各类文档、报告和手册等,精准且高效地解答用户的各种问题。不过,搭建 RAG 系统并非易事,颇具挑战性,相关技术知识储备是绕不开的 “门槛”。正因如此,很多技术爱好者和企业都在寻找更简便的搭建方法。本文将介绍使用开源平台 Dify 和向量数据库 Milvus 来构建 RAG 系统。Dify 作为编排平台,能快速启动系统;原创 2025-04-14 15:31:21 · 1245 阅读 · 0 评论 -
Python pandas离散化方法优化与应用实例
用户可以通过指定bins# 自定义区间print("自定义区间离散化后的DataFrame:\n", df)通过这种方式,可以灵活定义区间边界。原创 2024-12-10 23:37:01 · 1130 阅读 · 0 评论 -
Python实现8个概率分布公式及可视化
大家好,概率和统计知识是数据科学和机器学习的核心,我们需要统计和概率知识来有效地收集、审查、分析数据。现实世界中有几个现象实例被认为是统计性质的(即天气数据、销售数据、财务数据等)。这意味着在某些情况下,我们已经能够开发出方法来帮助我们通过可以描述数据特征的数学函数来模拟自然。了解数据的分布有助于更好地模拟周围的世界,它可以帮助我们确定各种结果的可能性,或估计事件的可变性,这使得概率分布在数据科学和机器学习中非常有价值。原创 2024-12-03 15:34:30 · 944 阅读 · 0 评论 -
5个数据科学中不可不知的数据结构
大家好,Python是一种多功能的编程语言,由于其丰富的数据结构,广泛应用于数据科学领域,这些数据结构在有效组织和处理数据方面发挥着至关重要的作用。本文将介绍每个数据工作者都应该了解的五种重要Python数据结构,理解这些数据结构能够帮助大家高效地处理、分析和加工数据科学项目中的数据。原创 2024-11-17 15:16:53 · 307 阅读 · 0 评论 -
Python数据分析中的Pandas去重操作详解
默认情况下,函数会保留第一次出现的重复记录,如果希望保留最后一次出现的记录,可以使用参数。# 保留最后一次出现的重复记录姓名 年龄 性别1 李四 21 女3 王五 22 男4 张三 20 男在这个示例中,使用了参数,保留了最后一条出现的“张三”记录。原创 2024-11-10 23:51:25 · 2640 阅读 · 0 评论 -
35个NumPy数据科学核心方法,从入门到精通
NumPy数组支持丰富的元素级数学运算,这些运算可以对数组中的每个元素单独进行。创建一个填充零的NumPy数组是很常见的,可以通过使用NumPy中的。使用NumPy库之前,首先需要进行导入,在Python中,通常将。重塑是指在不改变其数据的情况下给NumPy数组一个新的形状。如果想从NumPy数组中移除长度为一的轴,请用。类似地,如果想返回沿轴的最小值的索引,请使用。要确定NumPy数组中非零元素的索引,请使用。要计算NumPy数组的标准差沿指定数组,使用。要找到NumPy数组中值的平均值沿轴,使用。原创 2024-07-24 23:27:06 · 2407 阅读 · 0 评论 -
一文介绍数据和模型漂移(Drift):漂移检测示例
大家好,漂移(Drift)是机器学习中用来描述模型在生产环境中随着时间推移而性能逐步下降的现象,由很多原因引起,主要原因是随着时间推移输入数据(x)分布的变化和期望目标(y)之间的关系发生了变化。在使用机器学习模型时,漂移是一个很大的挑战,因为数据通常是动态的,不断变化的。机器学习模型是基于过去的数据进行学习的,但在实际使用时,由于环境的变化,这些模型可能会渐渐失去准确性,就像是“过气”一样,这种现象被称为“漂移”。数据漂移可以被看作是导致模型漂移的原因之一,而模型漂移则是由数据漂移的影响而产生的结果。原创 2024-05-21 17:44:10 · 4479 阅读 · 0 评论 -
数据科学:使用Optuna进行特征选择
大家好,特征选择是机器学习流程中的关键步骤,在实践中通常有大量的变量可用作模型的预测变量,但其中只有少数与目标相关。特征选择包括找到这些特征的子集,主要用于改善泛化能力、助力推断预测、提高训练效率。有许多技术可用于执行特征选择,每种技术的复杂性不同。本文将介绍一种使用强大的开源优化工具Optuna来执行特征选择任务的创新方法,主要思想是通过有效地测试不同的特征组合(例如,不是逐个尝试它们)来处理各种任务的特征选择的灵活工具。下面,将通过一个实际示例来实施这种方法,并将其与其他常见的特征选择策略进行比较。原创 2024-05-13 17:06:59 · 1468 阅读 · 0 评论 -
5个数据科学中常用的高级SQL操作
大家好,在数据科学领域,SQL(结构化查询语言)发挥着重要作用,不仅是数据管理的基石,更是深入挖掘和分析数据中宝贵信息的强有力工具。虽然基础的SQL命令对于数据查询不可或缺,但精通高级SQL技巧则能显著提升数据科学家的分析能力。本文将介绍一系列高级SQL操作,同时提供一些实用的代码示例,以助于更好地理解和应用这些高级技巧。原创 2024-05-01 18:00:00 · 357 阅读 · 0 评论 -
一篇文章简单介绍YOLOv1到v8的演变
本文测试了从2016年到2023年制作的几乎所有YOLO模型,多年来流行的数据科学工具和库演变是很有趣的,从低级代码到高级方法的趋势,这些方法可以做任何事情。YOLO模型是使用COCO(Common Objects in Context,知识共享署名4.0许可)数据集进行训练的,为了简化起见,直接将所有80个标签名称放入了代码中,还使用了OpenCV的`NMSBoxes`方法将嵌套的矩形组合在一起。最后,可以运行正向传播,使用“forward”方法将运行计算并返回所请求的层输出:。原创 2024-03-10 18:23:46 · 1726 阅读 · 0 评论 -
在PyCharm中使用Jupyter Notebooks实现高效开发
大家好,在数据科学领域,Jupyter Notebooks已成为一种流行的工具,许多专业人士都在使用它来进行数据分析、机器学习等任务。有时,我们希望在更加强大、功能齐全的IDE环境中运行Jupyter笔记本,以提高工作效率和开发体验。PyCharm就是个不错的选择。PyCharm 可以与 Jupyter Notebooks 集成,帮助更好地运行和开发Jupyter Notebooks,以便更轻松、高效地处理数据科学和机器学习任务。原创 2024-03-07 19:44:36 · 2577 阅读 · 0 评论 -
解密数据清洗,SQL中的数据分析
大家好,数据库表中的数据经常会很杂乱。数据可能包含缺失值、重复记录、异常值、不一致的数据输入等,在使用SQL进行分析之前清洗数据是非常重要的。当学习SQL时,可以随意地创建数据库表,更改它们,根据需要更新和删除记录。但在实际操作中,几乎从不会这样,因为可能没有权限更改表、更新和删除记录。但如果有数据库的读取权限,可以运行大量的SELECT查询。本文将创建一个数据库表,在其中填充记录,并了解如何使用SQL清洗数据。创建一个名为employees。原创 2024-01-30 23:53:51 · 2436 阅读 · 1 评论 -
提高代码效率的5个Python内存优化技巧
大家好,当项目变得越来越大时,有效地管理计算资源是一个不可避免的需求。Python与C或c++等低级语言相比,似乎不够节省内存。但是其实有许多方法可以显著优化Python程序的内存使用,这些方法可能在实际应用中并没有人注意,所以本文将重点介绍Python的内置机制,掌握它们将大大提高Python编程技能。首先在进行内存优化之前,我们首先要查看内存的使用情况。原创 2024-01-26 14:31:45 · 1018 阅读 · 0 评论 -
数据科学必备的Python前端库
大家好,Python中有许多前端库,每个库都有其独特的优势和缺点。无论是数据工程师、机器学习工程师还是Python开发者,都必须至少了解一个前端库。它可以在许多方面提供帮助,比如创建个人项目、成为全栈开发者、创建仪表板,甚至在日常生活中提供帮助。本文将介绍5种不同的前端库,每种库都具有独特的功能、优势和缺点。原创 2024-01-17 22:36:40 · 1461 阅读 · 0 评论 -
7个必知必会的Python技巧
大家好,Python是数据科学领域最广泛使用的编程语言之一,其受欢迎程度与日俱增。近年来,数据科学领域本身已经得到了迅猛的发展,因此学习Python和机器学习是必要的。本文将介绍一些隐藏的Python技巧。下面与大家分享七个Python技巧,这些技巧不仅可以加强Python技能,还可以提高工作效率,发现合适的Python库简化开发过程。原创 2024-01-11 23:38:31 · 1208 阅读 · 0 评论 -
10个数据科学不可或缺的Python库
大家好,在快速发展的数据科学领域,Python已经成为通用语言,得益于其简洁性、易读性和多功能的库生态系统。然而,在像NumPy、Pandas和Scikit-Learn这样广受欢迎的库之外,还存在着一批鲜为人知但能够显著提升数据科学能力的Python宝藏库。本文旨在揭示这些隐藏的宝藏库,重点介绍实际应用和行业最佳实践。这些库在简化工作流程和增强分析能力方面起到了重要作用,探索一下这些被低估但非常强大的Python库。原创 2024-01-13 23:43:45 · 951 阅读 · 0 评论 -
用Pandas轻松进行7项基本数据检查
【数据集】:本文使用Scikit-learn数据集模块中的California Housing数据集,该数据集包含20000多条记录,涵盖了八个数值特征和一个目标房价中值。接下来,将数据集读取到一个名为。原创 2023-12-07 22:47:43 · 467 阅读 · 0 评论 -
Vaex助力高效处理大规模数据集
Vaex与NumPy、Pandas和Dask无缝集成,使用户能够利用它们的功能,并从Vaex的高性能操作中受益。无论处理的是结构化数据还是非结构化数据,Vaex都提供了一种可扩展和高效的解决方案,帮助用户有效处理大型数据集。借助其惰性计算的方法、高性能运算和交互式可视化功能,Vaex能够高效地操作、分析和可视化可能无法装入内存的大型数据集。这个示例使用Vaex打开一个存储在CSV文件中的大型数据集,没有将数据集全部加载到内存中,而是以惰性计算的方式定义新的列和对数据集进行计算,而不实际评估表达式。原创 2023-11-25 23:33:06 · 380 阅读 · 0 评论 -
学会使用Pandas进行数据清洗
大家好,如果你对数据科学感兴趣,那么数据清洗可能对你来说是一个熟悉的术语,本文将向你介绍使用Pandas进行数据清洗的过程。我们的数据通常来自多个资源,而且并不干净,它可能包含缺失值、重复值、错误或不需要的格式等,在这种混乱的数据上运行实验会导致错误的结果。因此,在将数据输入模型之前,有必要对数据进行准备,这种通过识别和解决潜在的错误、不准确性和不一致性来准备数据的做法被称为数据清洗。输出的结果显示,数据集是平衡的,每个品种的代表数量相等,这为所有3个类别进行公平评估和比较奠定了基础。原创 2023-10-21 01:37:11 · 223 阅读 · 0 评论 -
超越NumPy和Pandas的Python库
大家好,Python是世界上使用最广泛的编程语言之一,并为开发人员提供了大量的库。然而,当涉及到数据处理和科学计算时,用户通常会想到诸如NumpyPandas或SciPy等库。本文将介绍3个你可能感兴趣的Python库。Dask是一个灵活的并行计算库,可实现大规模数据处理的分布式计算和并行计算。Python已经发展成为数据分析和通用编程中的主流语言。这种增长得益于像NumPy、Pandas和scikit-learn等计算库。然而,这些包并不适用于超越单台机器的规模。原创 2023-09-22 23:37:54 · 667 阅读 · 0 评论 -
数据科学家需要掌握的Docker要点
然而Python中的依赖性管理是一项挑战,在进行数据科学项目时,需要花费大量时间安装各种库,并跟踪正在使用的库的版本。如果其他开发人员想要运行您的代码并为项目做出贡献,他们首先需要在他们的机器上设置项目环境,然后才能继续运行代码,即使是如不同的库版本之间的微小差异也可能对代码产生破坏性的影响。因此,可以为应用程序在各种主机机器上定义一个隔离的、可复现的和一致的环境。例如在数据科学项目中,需要在开发环境(最好是虚拟环境)中安装所有必需的库,还需要确保使用的Python是库支持的最新版本。原创 2023-08-17 16:45:23 · 168 阅读 · 0 评论 -
数据科学:带你选择完美机器学习算法
大家好,在解决数据科学问题时,需要做出的关键决定之一就是使用哪种机器学习算法。有数百种机器学习算法可供选择,每种算法都有自己的优缺点。对于特定类型的问题或特定的数据集,某些算法可能比其他算法更有效。“No Free Lunch(没有免费的午餐)” (NFL)定理指出,没有一种算法适用于每个问题,换句话说,所有算法在所有可能问题上的平均表现都是一样的。本文将讨论在为问题选择模型时应考虑的要点,以及如何比较不同的机器学习算法。原创 2023-08-15 21:46:33 · 149 阅读 · 0 评论 -
精通GPU编程,高效处理Pandas
从CPU到GPU数据科学堆栈的转换从未如此简单:只需导入cuDF而不是pandas,就可以利用NVIDIA GPU的巨大威力,将工作负载速度提高10-100倍(低端),并享受更高的生产率,同时使用最喜爱的工具。ETL阶段的速度通常要快8-20倍,因此加载2GB数据集的时间只需几秒钟,而在CPU上需要几分钟,数据清理和转换的速度也快了很多,所有这一切只需一个熟悉的界面和最少的代码改动。此外,由于我们是人而不是机器,也会犯错,因此重新运行流程可能很快就会变成一整天的工作,这导致生产率下降,如下图所示。原创 2023-08-03 21:18:52 · 1190 阅读 · 0 评论 -
使用Streamlit快速搭建和共享交互式应用
大家好,在数据科学和机器学习领域,向他人展示见解和分享结果与分析本身同样重要,然而创建交互式和用户友好型的应用程序通常需要复杂的框架和耗时的开发过程。Streamlit是一个Python库,它简化了以数据为重点的网络应用程序的创建过程,使开发人员和数据科学家能够快速将他们的想法转化为交互式仪表盘和原型。综上,Streamlit是Python开发人员和数据科学家快速搭建和共享交互式应用程序的革命性工具,其简单性、易用性和快速开发能力使其成为原型设计、展示结果和创建引人入胜的数据体验的理想选择。原创 2023-07-29 22:43:56 · 691 阅读 · 0 评论 -
使用PyGWalker可视化分析表格型数据
它能获取用户的数据,并将其转化为一种特殊的表格,可以与之交互,就像使用Tableau一样。可以直观地探索数据,玩转数据,查看模式和洞察力,而不会迷失在复杂的代码中。该界面提供了各种拖放功能,可用于分析和探索数据,它提供了一种与数据交互的便捷互动方式,让你能够执行可视化数据、探索关系等任务。你还可以通过创建拼接视图来比较不同的测量值,通过将多个测量值添加到行或列,可以轻松地对它们进行并排分析和比较。有了PyGWalker,你现在就拥有了一个类似于Tableau的用户界面,可以对数据进行分析和可视化。原创 2023-07-28 20:31:02 · 2158 阅读 · 0 评论 -
简单易用的DuckDB数据库管理系统
现在有许多原因使公司开始在DuckDB上搭建产品,该数据库专为快速分析查询而设计,因此它针对大型数据集上的聚合、连接和复杂查询进行了优化,这些类型的查询通常在分析和报告中使用。简而言之,DuckDB将SQLite的简单易用性与专业列存储数据库的分析性能相结合,性能、简单性、功能和开源许可这些因素促使DuckDB在开发人员和数据分析师中越来越受欢迎。总之,DuckDB为需要快速和简单的数据分析能力的应用程序提供了易于使用的嵌入式分析数据库,它填补了分析处理领域的一个空白,而完整的数据库服务器则过于复杂。原创 2023-07-24 22:02:16 · 2453 阅读 · 0 评论 -
了解数据科学中的异常检测
另一种异常情况是背景异常,只有在特定的背景下才能遇到这种类型的异常情况。例如,美国的夏季热浪,可以注意到在1930年有一个巨大的“沙尘暴”峰值,这代表了发生在美国的一个极端事件,之所以这样称呼是因为这是一个破坏了美国中南部环境的尘暴时期。但也有一些情况,新项目与其余数据完全不同,并且需要适当的方法来识别这种类型的观察结果,识别这些观察结果对于在许多领域经营的公司做出决策非常有用,例如金融和制造业。另一个挑战是,在行业内工作时,大多数情况下没有标记的数据,在没有任何目标的情况下解释预测结果是很有挑战性的。原创 2023-07-17 10:00:00 · 273 阅读 · 0 评论