- 博客(198)
- 资源 (13)
- 收藏
- 关注
原创 开发金融分析Agent,让AI写研报,你敢用吗?
能自动撰写三大类金融研报(宏观/策略、行业、公司)的智能Agent系统是一项复杂但极具价值的工程。这需要深度融合**金融专业知识、自然语言处理、数据科学、知识图谱和系统工程**。
2025-07-31 17:48:17
510
原创 重磅开源!Kimi K2:1T 参数的代码 & Agent 双料 SOTA 模型
Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型,总参数 1T,激活参数 32B。
2025-07-28 00:31:29
825
原创 强化学习:从试错中变聪明的AI魔法
强化学习可以理解为一种**从试错中学习**的智能方法——就像小孩学走路:一开始跌跌撞撞(随机尝试),摔倒了会疼(负面反馈),站稳了会开心(正面反馈),慢慢就摸索出“先迈哪只脚、怎么保持平衡”的最优姿势。
2025-07-14 15:04:11
520
原创 图神经网络GNN的适用场景以及案例说明(二)
用通俗语言解释图神经网络(GNN)及其在金融投资中的应用,包含数据准备、训练推理全流程说明,并附具体案例。
2025-07-14 14:20:13
533
原创 图神经网络GNN的适用场景以及案例说明(一)
图神经网络(GNN)听起来复杂,其实可以简单理解为:专门处理“关系型数据”的神经网络。就像人通过观察朋友的行为来了解一个人,GNN通过节点之间的“连接关系”来分析每个节点的特征,特别适合处理那些元素之间有明确关联的数据。
2025-07-14 14:09:59
827
原创 Java老兵的AI突围战:我的转型之路与两个AI Offer的启示
首先说明这里没有宣传内容,我是在写我自己过往,你要是认为我的这个实践可行,你也可以拿2个AI Offer。
2025-06-22 11:38:16
997
原创 如何评估大语言模型效果
评估大模型微调后的效果是一个系统化的过程,需要结合**客观指标**和**主观评估**,并根据任务类型(分类、生成、回归等)选择合适的评估方法。
2025-06-07 12:15:46
934
原创 什么是知识蒸馏?如何做模型蒸馏?结合案例说明
知识蒸馏是一种模型压缩技术,通过将大型教师模型的知识迁移到小型学生模型中,使其保持高性能的同时降低计算成本。
2025-05-30 10:36:14
1314
原创 One-shot和Zero-shot的区别以及使用场景
在机器学习和自然语言处理中,**Zero-Shot** 和 **One-Shot** 是两种不同的模型推理范式,它们的核心区别在于 **是否依赖任务相关示例(示例数量)**。
2025-05-22 23:56:21
1031
原创 MCP和 AI agent 有什么区别和联系
MCP是一种开源通信协议,旨在为大型语言模型(LLM)与外部数据源、工具或服务之间建立**标准化、安全且灵活的双向连接**。它类似于“AI 的 USB-C 接口”,通过统一的协议规范,简化了 LLM 与数据库、API、文件系统、硬件设备等资源的集成。
2025-05-21 23:21:43
848
原创 金融问答系统:如何用大语言模型打造高精度合规的金融知识引擎
本文探讨了如何开发一款基于大语言模型(LLM)的金融问答系统,以确保其输出的准确性和可信度。系统面临的主要挑战包括处理高频更新的基金交易数据和大量非结构化的金融文档,以及减少模型“幻觉”现象。
2025-05-16 23:00:17
1186
1
原创 Dify 快速构建和部署基于LLM的应用程序
如果你是第一次接触Dify,可以先创建一个简单的聊天助手,初步感觉一下,Dify在构建聊天问答类应用的过程。比如下面这个聊天助手,是基于知识库的,直接编辑一段提示词,然后在选择一个你自己的PDF 或者 word 文档,就可以实现一个简单的基于知识库的聊天助手。提示词不会写,影响不大,你写一点,可以使用自动生成提示词这个功能,帮你自动完善提示词。
2025-05-05 23:19:47
1064
原创 从召回、粗排到精排:揭秘推荐系统如何精准匹配用户需求
在推荐系统或搜索系统中,“**粗排**”和“**精排**”是排序(Ranking)流程中的两个关键阶段,主要用于从海量候选集中筛选出最符合用户需求的条目。两者的核心区别在于**计算效率与精度的权衡**。
2025-03-29 21:15:12
1299
原创 大模型全量微调和LoRA微调的区别与选择
模型微调(Fine-tuning)是指在已有预训练模型的基础上,针对特定任务或数据集进行进一步训练的过程。通过微调,可以在相对较小的数据集上取得较好的性能表现,同时减少从头开始训练模型所需的时间和计算资源。
2025-03-27 23:45:52
1122
原创 自然语言处理NLP-文本预处理
在自然语言处理(NLP)中,文本预处理是构建高效模型的关键步骤。原始文本通常包含噪声和不一致性,直接影响模型性能。通过预处理,可以提取结构化信息、减少计算复杂度,并提升模型对语义的理解能力。
2025-03-26 22:53:34
1190
1
原创 大语言模型应用提示工程Prompt Engineering
提示工程(Prompt Engineering)是指通过精心设计和优化输入提示(prompt),以引导人工智能模型(如大型语言模型)生成更符合预期的输出。
2025-03-23 20:54:53
925
原创 机器学习怎么做特征工程
**特征工程** 就像厨师做菜前的食材处理:原始数据是“生肉和蔬菜”,特征工程是“切块、腌制、调料搭配”,目的是让机器学习模型(食客)更容易消化吸收,做出更好预测(品尝美味)。
2025-03-22 11:37:41
1020
原创 有了大模型为何还需要Agent智能体
Agent(智能体)是一种能**感知环境、自主决策、执行动作**的智能实体,当它与大语言模型(如通义千问QWen、GPT)结合时,形成一种**“增强型AI系统”**
2025-03-17 23:05:32
955
原创 文本数据处理——最佳文本切分策略
在自然语言处理(NLP)中,数据切分(Chunking)是处理长文本的关键步骤,直接影响模型性能(如检索增强生成RAG、文本嵌入、机器阅读理解)。
2025-03-16 23:31:44
2599
原创 RAG的工作原理以及案例列举
**RAG** 是一种结合 **信息检索(Retrieval)** 和 **文本生成(Generation)** 的技术。其核心思想是:在生成答案前,先从外部知识库中检索相关数据作为上下文,再基于这些信息生成更准确、更可靠的回答。 简单来说,RAG让AI像“查阅资料后再回答问题”的人类专家一样工作。
2025-03-16 22:37:07
946
原创 向量数据库对比以及Chroma操作
向量数据库- **设计理念**:专门设计用于存储和查询高维向量数据,支持基于相似度的搜索,例如通过余弦相似度、欧氏距离等方式来查找最接近的向量。- **应用场景**:主要用于机器学习模型输出的向量表示的高效检索,如图像识别、推荐系统、自然语言处理中的文本相似性搜索等。
2025-03-15 23:18:00
1541
原创 深度学习模型Transformer 手写核心架构二(附代码)
实现 Transformer模型 的核心架构,包含编码器(Encoder)、解码器(Decoder)、多头注意力(MultiHeadedAttention)、位置编码(PositionalEncoding)等关键组件,支持动态掩码生成和序列到序列(Seq2Seq)任务。
2025-03-12 23:35:19
1115
原创 深度学习模型Transformer 手写核心架构一(附代码)
实现 **Transformer模型** 的核心架构,包含编码器(Encoder)、解码器(Decoder)、多头注意力(MultiHeadedAttention)、位置编码(PositionalEncoding)等关键组件,支持动态掩码生成和序列到序列(Seq2Seq)任务。
2025-03-12 23:31:29
959
原创 深度学习模型Transformer核心组件—前馈网络FFN
在Transformer模型中,前馈网络(Feed-Forward Network,FFN)是一个关键组件,其作用是对每个位置的表示进行非线性变换,增强模型的表达能力。
2025-03-09 23:13:38
984
原创 深度学习模型Transformer核心组件—位置编码
在Transformer模型中,位置编码的作用是为序列中的每个位置提供独特的位置信息,以弥补自注意力机制本身不具备的位置感知能力。
2025-03-09 21:27:00
573
原创 深度学习模型Transformer核心组件—残差连接与层归一化
在Transformer模型中,残差连接(Residual Connection)和层归一化(Layer Normalization)是两个关键设计,用于提升模型的训练稳定性和性能。
2025-03-09 00:21:14
1085
原创 理解梯度下降、链式法则、梯度消失/爆炸
求导是微积分中的一个基本操作,用于计算函数在某一点上的瞬时变化率。这里列出一些常见的求导公式和规则,这些对于理解链式法则以及深度学习中的梯度计算非常重要。
2025-03-08 23:49:10
524
原创 深度学习模型Transformer核心组件—自注意力机制
自注意力机制(Self-Attention),也称为内部注意力机制(Intra-Attention),是Transformer模型的核心组成部分。它允许模型在处理序列数据时,能够考虑到序列中不同位置之间的关系,从而有效地捕捉长距离依赖。
2025-03-08 00:15:29
506
原创 深度学习模型Transformer初步认识整体架构
Transformer 是 Google 在 2017 年提出的 **基于自注意力机制(Self-Attention)** 的深度学习模型,彻底摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),成为自然语言处理(NLP)领域的革命性架构。其核心思想是通过 **全局依赖建模** 和 **并行计算** 高效处理序列数据,广泛应用于机器翻译、文本生成、语音识别等任务。
2025-03-06 23:38:35
1154
原创 深度学习架构Seq2Seq-添加并理解注意力机制(二)
使用 **“我喜欢吃鱼”** 翻译为 **“I like eating fish”** 的简单例子,逐步推演 注意力机制 的实现步骤
2025-03-04 11:13:31
837
原创 深度学习架构Seq2Seq-添加并理解注意力机制(一)
本文主要是分析Seq2Seq 架构本身具有的缺点,并分析针对长序列输入时,导致信息丢失这一问题,造成这个问题的原因,以及针对这一问题,通过引入注意力机制,如何来解决这一问题。
2025-03-03 23:46:07
1342
原创 理解Seq2Seq的工作机制与应用场景中英互译(附代码)
Seq2Seq(Sequence-to-Sequence)模型是一种用于处理序列到序列转换任务的深度学习框架,特别适用于输入和输出均为变长序列的任务,如机器翻译、文本摘要、问答系统等。Seq2Seq模型通常由两个主要组件组成:编码器(Encoder)和解码器(Decoder),它们通常是基于循环神经网络(RNN)及其变体(如LSTM或GRU)构建的。
2025-03-02 17:03:58
581
原创 循环神经网络RNN、LSTM以及GRU 对比(附代码)
使用实际案例:生成酒店评论,对比 RNN、LSTM 以及 GRU,在生成效果、训练时长等方面
2025-02-28 23:15:28
1305
原创 循环神经网络RNN:理解 RNN的工作机制与应用场景(附代码)
循环神经网络是一种专门用于处理序列数据的神经网络。RNN能够利用数据中的时间顺序信息,因此在处理如文本、语音等序列数据时表现尤为出色。
2025-02-28 14:00:39
1364
原创 自然语言处理(NLP):文本向量化从文字到数字的原理
由于AI算法不能直接处理汉字或其他字符,因此必须通过特定的方法将这些字符转换为数字表示。这一过程通常涉及到两个主要步骤:**文本向量化**和**词向量生成**。
2025-02-25 00:13:00
1357
原创 人工智能之不同数据类型及其特点梳理
在机器学习和深度学习领域,理解不同类型的数据及其特点对于选择合适的模型至关重要。下面介绍三种主要的数据类型——表格类数据、图像/视频类数据和时序类数据,并探讨它们的特点以及适用的算法和技术。通过具体的案例代码,更直观地体验每一个概念。
2025-02-24 20:23:48
787
原创 计算机视觉:YOLOv11遥感图像目标检测(附代码)
计算机视觉领域,遥感图像中的目标检测,识别和定位不同类型的飞机是一个典型的应用场景。本文利用最新的YOLOv11模型来解决这一挑战,通过构建一个高效的飞机检测模型,实现对遥感图像中各类飞机的精准识别。
2025-02-24 00:12:07
1502
原创 计算机视觉:经典数据格式(VOC、YOLO、COCO)解析与转换(附代码)
在计算机视觉(CV)领域,无论是进行目标检测、图像分类还是其他任务,理解如何处理不同格式的数据集以及掌握训练过程中涉及的关键指标至关重要。本文将探讨三种经典的数据格式(VOC、YOLO、COCO)
2025-02-23 21:21:59
1414
1
机器学习案例:幸福感预测数据集
2025-02-12
机器学习算法大比拼Python版本
2025-02-10
kmip4j介绍
2014-05-10
apache-tomcat-7.0.6
2014-05-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人