- 博客(375)
- 资源 (16)
- 收藏
- 关注
原创 RAG(Retrieval - Augmented Generation,检索增强生成 )
简单说,RAG 就是给大模型装一个 “外接知识检索库”,让它回答问题时,能实时、精准 “查资料”,补上自身知识短板,尤其适合企业私有知识应用、需要新鲜信息 / 专业内容的场景。
2025-06-24 20:36:24
606
原创 基于 Python 的特殊方法(magic methods)机制和 PyTorch 的nn.Module基类设
标准 PyTorch 训练流程要实现这种用法,模型需要在forward()中包含损失计算逻辑。例如:python运行self.fc = nn.Linear(10, 1) # 假设输入维度为10,输出维度为1self.criterion = nn.MSELoss() # 均方误差损失output = self.fc(x) # 预测值if y is not None: # 训练模式:返回损失else: # 推理模式:返回预测值# 使用示例。
2025-06-23 11:06:08
979
原创 model.train model.eval只是为了可读性么?
是深度学习训练和推理流程中的关键步骤,直接影响模型行为和结果的正确性,绝非仅仅为了提高可读性。,直接影响训练和推理的结果。远不止是为了提高代码可读性,它们会。
2025-06-23 10:51:37
280
原创 当 BERT 默认 512 个位置编码长度不够时,可从编码方法替换、模型改造、策略优化三方面突破限制
当 BERT 默认 512 个位置编码长度不够时,可从。
2025-06-22 15:05:05
447
原创 BERT(Bidirectional Encoder Representations from Transformers )模型的 Embedding(嵌入)层 结构
BERT(Bidirectional Encoder Representations from Transformers )模型的。
2025-06-22 15:00:23
211
原创 在 BERT、GPT 里的 “12 层”,指 模型中 Transformer 模块的堆叠层数
12 层” 就是模型里 “提取语义的工具数量”,层数多能学更复杂的语言规律,但也更费电脑资源。BERT、GPT 用 12 层,是为了在 “能理解复杂文本” 和 “跑得动” 之间找平衡~
2025-06-22 14:57:21
103
原创 优先选基于 BERT 微调,而非从 0 到 1 搭建深度学习模型
但以下特殊情况可考虑从 0 到 1:任务场景极小众(如古文字、专业加密文本),BERT 预训练未覆盖相关语义;或硬件资源极端受限,BERT 参数量大难部署,需极简模型。实际工作里,90% 以上 NLP 任务(情感分析、文本分类、智能问答等 ),用 BERT 微调性价比、效果都远胜从 0 开发,是更务实的选择。在工作中做 NLP 任务,
2025-06-22 14:44:05
163
原创 cbow和bert
CBOW 是“初级语义学习机”:用局部上下文学固定词向量,适合基础任务;BERT 是“高级语义理解器”:用全句双向上下文学生成语义,能扛复杂 NLP 活儿。可以说,BERT 把 CBOW “上下文→语义” 的思路,用更强大的模型结构和训练方式,升级到了能处理真实复杂场景的级别~
2025-06-22 14:42:56
276
原创 BERT 和 GPT 的核心差异
BERT 是 “语文老师判题” :直接分析句子对是否有关联;GPT 是 “小说家续写” :用生成的下文自然体现句子该咋关联。本质是“双向理解” vs “单向生成”的设计差异,导致处理句子关系的方式完全不同~
2025-06-22 14:37:55
253
原创 BERT 的 TensorFlow(tf_model.h5 对应格式 )和 PyTorch(pytorch_model.bin 对应格式 )版本模型文件的区别
以下从核心特性、使用场景、生态等方面,对比 BERT 的 TensorFlow(对应格式 )和 PyTorch(
2025-06-22 14:29:52
682
原创 BERT 微调
BERT 微调对数据量的需求需结合任务类型、模型规模及微调策略等综合判断,不能简单用 “大量” 或 “少量” 概括。以下从不同维度具体分析:BERT 微调对数据量的需求并非绝对 “大量”,而是取决于任务复杂度、模型规模和优化策略:
2025-06-22 14:27:49
892
原创 ppl用于评价 程序概率
和程序本身概率计算无直接关联,仅在程序相关自然语言内容的语言模型处理中,可能被用到。PPL(Perplexity,困惑度 )主要用于。简单说:PPL 核心管。
2025-06-22 11:37:38
167
原创 在 BERT 模型的输出中,张量值的绝对值普遍小于 1
BERT 的参数初始化采用 Glorot 均匀分布,其范围为\([- \sqrt{\frac{6}{n_{\text{in}} + n_{\text{out}}}}, \sqrt{\frac{6}{n_{\text{in}} + n_{\text{out}}}}]\),其中\(n_{\text{in}}\)和\(n_{\text{out}}\)是神经元的输入和输出维度。在自注意力计算中,BERT 会对注意力分数除以\(\sqrt{d_k}\)(\(d_k\)为键向量维度,如 768),以避免梯度消失。
2025-06-22 09:08:16
459
原创 BERT 模型中 768 维词向量是否足够的问题
总之,768 维是 BERT-base 在 “性价比” 上的经典设计,足以应对大多数中文 NLP 场景,但复杂任务中仍需结合实际需求升级模型配置。关于 BERT 模型中 768 维词向量是否足够的问题,需要结合模型设计目标、任务复杂度和实际应用场景来综合分析。② 采用更高维度的模型(如 BERT-large)或集成模型;② 需要强推理或常识知识的任务(如复杂问答、逻辑判断);① 常规中文 NLP 任务(分类、分词、简单问答);① 超长篇文本理解(如法律文书、学术论文);② 数据充足且任务逻辑不复杂;
2025-06-21 20:52:16
416
原创 查看bert-base-chinese模型里 “猫” 字的向量维度
若要查看模型里 “猫” 字的向量维度以及具体的每个维度值,你可以借助 Hugging Face 的 Transformers 库来实现。
2025-06-21 20:50:18
118
原创 axis 0和1
在交叉熵计算中,必须使用axis=1axis=1计算每个样本的损失,反映模型对单个样本的预测质量。axis=0计算每类的 “损失总和”,无法用于评估模型整体性能,且可能导致梯度计算错误。按行(axis=1)求每个样本的损失,再平均;而非按列(axis=0)求每类的损失!'''手动实现交叉熵的计算'''#使用torch计算交叉熵#假设有3个样本,每个都在做3分类#正确的类别分别为1,2,0#实现softmax函数#手动实现交叉熵。
2025-06-21 19:27:57
328
原创 随机森林的实现代码py
self.n_features = n_features # 随机森林中使用,限制每次分裂时考虑的特征数量。return 0 # 默认返回0作为标签,或者可以根据需要修改。# 处理n_features参数,如果是字符串则转换为整数。print(f"单棵决策树准确率: {accuracy_dt:.4f}")# 如果没有设置n_features,则使用所有特征。# 自助采样(bootstrap)# 如果无法找到有效的分裂点,创建叶节点。# 计算加权平均子节点熵。# 随机选择特征子集。# 检查分裂是否有效。
2025-06-21 13:03:55
505
原创 决策树..
决策树就是把复杂的选择拆成一连串简单的 “选择题”,一步一步缩小范围,最后得到答案。就像你走在岔路口,每次选一个方向,最终到达终点 —— 这个过程画成图,就像一棵倒着的树(树根是第一个问题,树枝是选项,树叶是结果)。决策树,说白了就是一套 “用问题层层筛选,最后得出结论” 的逻辑套路,特别像咱们平时做选择题或者玩 “猜谜游戏”。
2025-06-21 12:55:46
248
原创 够移除指定路径下所有文件名中包含【海量资源:vipc.co】的部分
print(f"已重命名文件夹: {item} -> {new_name}")print(f"已重命名文件: {item} -> {new_name}")print(f"共重命名 {file_count} 个文件和 {folder_count} 个文件夹。print(f"处理路径 {root_path} 时出错: {e}")target_text (str): 要从名称中移除的特定文本。print(f"准备移除文本: {target_text}")print(f"开始处理路径: {root_path}")
2025-06-21 11:14:37
703
原创 Coze.
提升效率:自动化处理重复工作(如数据清洗、客服问答)。拓展能力边界:获取专业领域支持(如股票分析、学术研究)。降低开发成本:提供一站式开发环境,加速 AI 应用落地。无论是企业优化业务流程,还是个人完成创意任务,Coze 都旨在通过 AI Agent 让生产力提升变得更简单。编辑分享Coze平台的Agent技术有哪些独特优势?介绍一下Coze平台的收费标准如何在Coze平台上使用Agent技术?
2025-06-21 10:57:06
297
原创 python transformer报错问题
labels = torch.tensor([0, 1, 2]).to(device) # 对应3个类别的标签。num_labels=3 # 假设有3个分类类别。eps=1e-8 # 优化器的epsilon参数。for _ in range(3): # 3个训练步骤。"这是一个关于人力资源的问题",lr=2e-5, # 学习率。# 初始化tokenizer和模型。"财务报表需要审核","我们需要拓展新市场"# 初始化AdamW优化器。# 一个简单的训练循环示例。# 准备一些示例数据。
2025-06-21 10:49:07
280
原创 基于 BERT 的文本分类系统
需要一个基于历史标注数据的自动分类系统,将领导们的 issues 分配到三个预定义的类别中。这种场景非常适合使用自然语言处理(NLP)中的文本分类技术。
2025-06-21 10:44:44
191
原创 协同过滤算法
协同过滤(Collaborative Filtering)是电商推荐系统的核心算法之一,它基于用户行为数据(如购买历史、评分、浏览记录)来发现用户或物品之间的相似性,从而为用户推荐感兴趣的商品。下面我将从原理到代码实现,详细介绍协同过滤在电商推荐中的应用。
2025-06-21 10:41:59
767
原创 bert-base-chinese 相比 One-Hot、Word2Vec、GloVe 等传统词表示方法,在中文 NLP 任务中确实有显著优势
One-Hot:只能走直线(简单匹配),遇到转弯(语义理解)直接翻车。:能走小路(简单语义任务),但遇到山路(歧义、少样本、复杂推理)就很吃力。:直接走高速(适配全场景 + 效果天花板 + 开发效率高),不管是平路(文本分类)、山路(问答推理)、还是越野(生僻词 / 网络用语),都能轻松拿捏。所以,只要涉及中文语义理解的任务,bert-base-chinese 基本是 “降维打击”,这也是它在 NLP 领域普及度超高的核心原因~
2025-06-21 10:35:28
712
原创 bert-base-chinese
架构,能捕捉语句里每个词的前后依赖关系,更好理解中文文本语义。比如 “苹果” 在 “吃苹果”(水果含义 )和 “苹果手机”(品牌产品含义 )里,模型能结合上下文区分不同语义。是为中文 NLP 量身打造的 “基础工具”,让机器更好懂中文,还能快速用在各类任务里,帮企业 / 开发者高效搞中文语言处理应用,推动中文场景下人工智能服务发展~中文语义丰富,存在大量同义词、多义词,字词意思还依赖上下文,机器理解难度大。它是通用预训练模型,可通过。
2025-06-21 10:33:33
215
原创 使用 BERT 词嵌入技术构建一个简单的中文文本语义相似度检索系统
print(f"\n与 '{target_word}' 最相似的词语:")print(f"\n与 '{target_word}' 最相似的词语:")"手机", "电脑", "电视", "冰箱", "洗衣机","苹果", "香蕉", "橘子", "草莓", "西瓜","猫", "狗", "兔子", "鸟", "鱼""""主函数:演示BERT词嵌入的语义相似度分析"""plt.title('词语语义相似度矩阵')"""获取单个词语的BERT嵌入向量""""""初始化BERT模型和分词器"""
2025-06-21 10:32:38
872
原创 中文词转成几千维度张量(词向量),常用方法
简单说,就是这些方法通过不同的训练逻辑(统计共现、预测上下文等 ),把中文词转换成带着语义信息的高维(几千维 )张量,让计算机能 “理解” 词的含义和关联,方便做文本分类、推荐、语义分析这些事儿~
2025-06-21 10:28:59
378
原创 技术本质:大模型是机器学习的 “升级形态”,而非颠覆
大模型(如 GPT、LLaMA 等)与传统机器学习并非 “替代” 关系,而是技术发展过程中形成的互补与拓展。从本质来看,大模型属于机器学习的范畴(基于深度学习的大规模参数模型),但其能力边界和应用场景与传统单向任务的机器学习模型存在显著差异。
2025-06-18 02:29:04
224
原创 y = wx + b 扩展为包含多项式项(如 x²、x³)的形式
如果你想更明确地控制每个多项式项的权重,可以自定义参数而不使用nn.Linearpython运行# 为每个多项式项创建独立的权重])# 计算 y = w₁x + w₂x² + w₃x³ + ... + b# 测试模型print(f"输入 x={x.item()}")print(f"输出 y={model(x).item()}")
2025-06-18 01:46:48
183
原创 向量数据库
但要是有部电影叫 “蜘蛛人:英雄归来”,传统数据库就懵了,因为名字对不上,没法把这些 “差不多意思” 的内容关联起来,对图片、语音这些非文字的东西,更是处理不来。你搜 “蜘蛛侠” 相关,它会把所有转成向量后和 “蜘蛛侠” 向量接近的内容都找出来,不管名字是不是完全一样,也不管是文字、图片还是音频,这样就能挖到更多相关又不太一样的内容。向量数据库:找 “差不多像” 的,像找双胞胎兄弟,哪怕有点差别(名字、形式不同),也能关联上,尤其擅长处理图片、语音、语义这些 “不太好精准描述” 的数据。
2025-06-18 00:34:51
148
原创 transformer attention
输入部分:把文字→数字(Embedding)+ 位置信息(Positional Encoding),让电脑 “看得见” 内容和顺序。注意力机制:让电脑 “有重点地看”,通过 Q、K、V 找出句子里的关键信息,再整合结果(Add & Norm 保证稳定)。简单说,这张图就是 “让电脑像人一样,先把文字转成能懂的数字,再学会抓重点理解意思” 的过程,而注意力机制就是 “抓重点” 的核心!
2025-06-17 13:51:30
592
03.国赛辅导:数学规划模型.vep
2019-07-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人