
数据挖掘
文章平均质量分 77
weixin_37763484
数据挖掘 图像\文本\结构化数据处理
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【milvus检索】milvus检索召回率
提升milvus检索的召回率原创 2025-07-20 17:29:48 · 864 阅读 · 0 评论 -
【重排模型】ColBert解读
ColBert原理解读原创 2025-06-16 11:47:14 · 600 阅读 · 0 评论 -
【特征工程】机器学习的特征构造和筛选
基于量化交易,利用Alpha因子发掘思路,进行机器学习中的特征构造与筛选。原创 2025-06-10 10:15:40 · 1181 阅读 · 0 评论 -
【RAG召回优化】rag召回阶段方法探讨
rag召回阶段优化方法,最新论文汇总解读原创 2025-06-04 17:59:06 · 1074 阅读 · 0 评论 -
【RAG优化】rag整体优化建议
rag整体流程优化原创 2025-06-04 17:53:05 · 1331 阅读 · 0 评论 -
【2025RAG最新进展】
2025年至今,RAG领域的核心创新可以概括为:向更智能、自适应、图增强和自我意识的检索范式转变;针对长篇内容、多模态信息和信息完整性的专业化处理;为RAG量身定制的LLM优化技术(如Transformer²、强化学习、知识感知微调);以及评估方法论和基准测试的日趋成熟。原创 2025-06-03 18:54:10 · 1463 阅读 · 0 评论 -
【RAG最新总结】检索增强生成最新进展2024-2025
检索增强生成(RAG)的最新进展与未来展望(2024-2025)1)分块策略创新,如语义分块和基于文档结构的分块,提升信息连贯性;2)嵌入与索引技术,向量数据库优化和图索引(如LightRAG)增强语义表达;3)高级检索机制,混合检索结合稠密/稀疏方法,重排序提高精度。前沿架构趋向模块化,支持复杂推理和多模态数据。未来RAG将更注重动态知识整合与上下文感知,推动可信AI发展。原创 2025-06-03 18:50:55 · 1195 阅读 · 0 评论 -
【大数据综述】大数据处理技术栈 大数据技术全面分析
对大数据技术栈进行分析,提供一个专家级的视角,清晰阐述各类技术栈的核心架构原创 2025-04-27 10:54:58 · 955 阅读 · 0 评论 -
【数据库技术全面综述】
本文全面介绍了现在数据库的种类、特性、提升方向等内容原创 2025-04-27 09:55:37 · 687 阅读 · 0 评论 -
【内容摘要】大模型内容摘要实战 会议摘要 提示词技巧
会议摘要 内容摘要原创 2025-04-21 21:13:39 · 857 阅读 · 0 评论 -
python 图像去噪
python 图像去噪 模糊图像处理原创 2024-08-30 12:57:12 · 609 阅读 · 0 评论 -
图像光照特效
图像增强,为图像增加光照效果。原创 2024-08-19 18:12:24 · 490 阅读 · 0 评论 -
python 阴暗图像 亮度增强 对比度增强 去雾
图像亮度增强、对比度增强,减轻阴暗图像对模型的干扰。原创 2024-08-19 15:06:20 · 1452 阅读 · 0 评论 -
改变图像中特定区域的颜色
改变图片中特定区域的颜色原创 2024-07-03 00:39:29 · 294 阅读 · 0 评论 -
利用PaddleNLP进行文本数据脱敏
敏感信息脱敏,借助paddlenlp工具,完成姓名、地名、金额、时间等信息的处理,保障数据安全。处理结果可读性高,指代关系明确,可以做到脱敏而不影响信息传递。原创 2024-02-19 19:34:26 · 1774 阅读 · 1 评论 -
python 去除图像中的框
需要图像中的人为画框,保证图像的质量。原创 2023-11-06 21:48:27 · 1462 阅读 · 4 评论 -
自动化深度学习工具AutoGluon
自动化深度学习工具,一键完成文本、图像、预测、语言处理相关任务原创 2023-03-09 09:45:23 · 1188 阅读 · 0 评论 -
《知识图谱:概念与技术》 读书笔记(上)
《知识图谱:概念与技术》读书笔记,主要涉及知识图谱的概念、基础知识、词汇挖掘、实体识别、关系抽取、知识图谱构建、质量控制、知识补全、错误发现与纠正等原创 2023-03-01 16:28:48 · 814 阅读 · 0 评论 -
《知识图谱:概念与技术》 读书笔记(下)
《知识图谱:概念与技术》 读书笔记(下),主要介绍了知识图谱的建模与存储、查询与检索,以及基于知识图谱的语言认知、实体理解、搜索推荐、KQBA、知识问答原创 2023-03-01 14:52:20 · 614 阅读 · 0 评论 -
MDL(最小描述长度)标签选择 用户标签 用户画像
标签选择 用户画像 推荐系统原创 2023-02-27 16:41:21 · 489 阅读 · 0 评论 -
EM算法 高斯混合模型 方差估计
EM算法 简明理解 高斯混合模型 方差估计原创 2023-02-24 17:40:49 · 624 阅读 · 0 评论 -
知识图谱 方法、实践与应用 王昊奋 读书笔记(下)
知识图谱 读书笔记 知识图谱推理 语义搜索 KQBA 知识图谱问答原创 2023-02-13 20:06:46 · 1012 阅读 · 0 评论 -
数据可视化 数据分析 常用图 seaborn
数据分析阶段常用的统计图,验证数据分布,发现数据之间的关系,进行异常值检测。原创 2022-12-13 11:12:56 · 632 阅读 · 0 评论 -
Titanic 泰坦尼克数据集 特征工程 机器学习建模
泰坦尼克数据集分析、建模过程,整体比较完整,分享出来,希望能帮助大家原创 2022-12-07 23:35:05 · 2779 阅读 · 0 评论 -
svd分解 复原 sklearn和numpy实现
svd分解和复原 sklearn和numpy实现原创 2022-12-07 22:44:42 · 1386 阅读 · 2 评论 -
pandas 类别转化为数字
pandas 类别转化为数字的三种方法原创 2022-12-07 18:21:37 · 2172 阅读 · 0 评论 -
概率论 马尔可夫 切比雪夫等定理的解释
这几天偶然看到了概率论的知识,对于几个定理,发现了一些更好的解释,能够帮助大家理解应用。详细请参考张敏老师的<PyTorch深度学习实战>。1.大数定理在实验条件不变的情况下,重复实验多次,那么随机事件出现的频率近似等于它的概率。例如,扔硬币实验中,扔1万次硬币,正面朝上的概率近似等于50002.中心极限定理样本的均值约等于总体的均值,任意一个总体的样本的均值都会围绕在总体的均值周围,并且呈现正态分布。例如,全国人口普查,抽取100万人进行统计,统计出来的身高、体重等指标的平均值原创 2021-01-31 21:06:29 · 870 阅读 · 0 评论 -
基于NMF的推荐系统实例
参考:https://blog.csdn.net/qq_26225295/article/details/51165858代码:py36import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltfrom sklearn.decomposition import NMFmpl.rcParams['...原创 2020-02-05 10:21:46 · 751 阅读 · 1 评论 -
卡方检验 F检验 T检验
学习概率论的时候,这三个没有得到太多的讲解,今天上研究生课程提到了这三个,所以找了些例子来帮助理解。卡方检验可以参照这个例子来理解卡方检验可以用来验证某个假设是否成立,例如链接中“减肥与晚饭的关系”。T检验可以参照这个例子来理解T检验有单总体和多总体两种情况,链接中举了单总体的例子,例如"比较两种不同种植方法对产量的影响"。F检验也成方差检验,这个相对来说例子比较分散,第一个列...原创 2019-11-13 15:55:18 · 586 阅读 · 1 评论 -
FP-Tree
之前一直不是很理解这个方法,最近发现可以按照下面的方式来解释,比较容易理解。1-数据首先选出出现频率大于0.2的,然后对原始数据进行剔除,只保留出现频率大于0.2的项(即A C E G B D F):2-构造树构造树的过程比较复杂,下面以插入第七和第八两条数据为例介绍。第七条数据插入后:第八条数据插入后(注意A C数值的变化,以及新增节点D和上一张图片的D节点的数值变化):全部...原创 2019-08-25 15:25:22 · 165 阅读 · 0 评论