
深度学习理论
文章平均质量分 83
深度学习
爱编程的喵喵
双985硕士毕业,现担任AI大模型全栈工程师一职,热衷于将数据思维应用到工作与生活中。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。官方认证“人工智能领域优质创作者”,入选2023年中国开发者影响力年度榜单,荣获付费内容优质创作者称号。代表专栏《Python基础课程》、《Linux解决方案》、《Windows实用技巧》、《机器学习理论与实战》、《从零开始学Java》等。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
textcnn(从cnn的迁移)
1. 前提说明本博客主要为了介绍textcnn,因此首先需要了解cnn的基本知识2. 卷积层2.1 cnn一般来讲输入都是[batch, height, weight, in_channles]卷积核由三部分组成:kernel_size(上图中一个2×2的小方块)in_channels(与输入的in_channel一样,因为要对应相乘)out_channels可以理解成输出的...原创 2020-03-29 12:08:13 · 375 阅读 · 6 评论 -
attention机制总结一
1. 机器翻译attention在seq2seq结构中,针对一个样本,decoder的每个输入(字向量)都是encoder的最后一个词的输出。attention机制企图达到以下目的:以将“机器学习”翻译成machine learning为例。decoder中第一次只想关注机器,从而翻译成machine;第二次只想关注学习,并翻译成learning。因此,decoder中每个输入(字向量)都是不一...原创 2019-10-30 09:26:23 · 652 阅读 · 5 评论 -
CNN(卷积神经网络)
1. 卷积神经网络(CNN)结构cnn网络结构一般为卷积层----池化层----卷积层----池化层----卷积层----池化层----…----全连接层----全连接层----…2. 卷积层卷积层的输入是是一个四维数组,如[batch, in_height, in_width, in_channels],如[128, 28, 28, 3],这里的3指channel(通道个数),28×28分...原创 2019-07-02 13:22:24 · 7567 阅读 · 4 评论 -
bert代码调试
1. 综述2. 输入3. attention等进一步处理4. transformer原创 2019-06-16 18:25:33 · 1376 阅读 · 5 评论 -
Neural Relation Extraction with Selective Attention over Instances 代码调试
本篇论文原始代码我c++语言,由于个人原因,根据公开资料,整理得到python语言代码。本篇代码在一个baseline的类中,定义多个函数。def pos_index为位置嵌入函数;def load_wordVec为加载词向量函数(前提是已经训练好词向量);def load_wordMap为词索引函数(即按照词频定义每个词的index),此函数为没有预先训练好wordvec时使用;def loa...原创 2019-06-02 19:31:24 · 490 阅读 · 4 评论 -
Neural Relation Extraction with Selective Attention over Instances阅读笔记
1. 概述关系提取(RE):是从纯文本生成关系数据的过程,是NLP中的一项重要任务。远程监督方法的句子中人物关系数据存在很多噪声(错误标记),因此,本文提出基于句子的注意力CNN模型,在多个实例上构建句子级别的注意,力这有望在动态地减少那些噪声实例的权重。Knowledge base(简称kb):数据库。如freebase、DBpedia、YAGO2. 相关研究(Zeng et al。,...原创 2019-05-29 20:48:51 · 1071 阅读 · 4 评论 -
ERNIE-Enhanced Language Representation with Informative Entities 阅读笔记
2019年清华在ACL提出ERNIE模型,同年,百度也提出一个ERNIE模型。本篇论文主要针对的是清华的模型。BERT模型在很多NLP任务中取得很好的效果,但是BERT模型只是就事论事,缺乏对知识的理解。因此ERINE模型在输入上加入了sentence存在于知识图谱中的实体信息。比如’Bob is a writer.’,在bert中原始的输入为[‘Bob’, ‘is’, ‘a’, ‘writer...原创 2019-06-06 17:57:23 · 1432 阅读 · 5 评论 -
BERT论文解读
1. 概述通过预训练语言表征完成NLP任务主要分为两大类:feature-base、fine-tuning。前者如ELMo,它将学习的表征作为feature提供给下面的任务,下游任务提供模型;后者如Open GPI、ULMFiT,它们在fine tune预训练中学习到参数,不需要下游提供task-specific的模型。这两类在预训练时都使用了同样的目标函数,同时也都使用了单向的语言模型。这些...原创 2019-06-12 17:01:19 · 780 阅读 · 3 评论 -
attention is all your need 代码调试
attention is all your need是谷歌首次提出的,其摒弃了RNN与CNN,改用transformer模型,网路结构如下所示:本次代码调试使用pytorch,要求python3环境,python文件共有三个,具体步骤为:下载数据、数据预处理、训练模型、测试模型。数据预处理阶段,需要加载数据,构建词汇的索引,词转化等。分别定义read_instances_from_file、...原创 2019-05-26 21:23:05 · 1117 阅读 · 4 评论 -
《Attention Is All You Need 》研读
1.简介本篇论文是谷歌提出的基于注意力机制的transformer模型,主要解决机器翻译问题。之前的研究大多使用RNN和encoder-decoder结构,RNN的下一个输入依赖于上一层输出,串行结构导致运行很慢,transformer摒弃了递归结构,引入注意力机制,使得其可以并行计算,加快训练时间。2. 背景机器翻译领域,以前经常采用RNN,但是RNN不能并行运算,所以提出了一些使用CNN...原创 2019-05-22 17:09:10 · 545 阅读 · 4 评论 -
Relation Classification via Convolutional Deep Neural Network代码调试
本次代码共分为5部分,即分成五个python文件。第一个文件为configure:目的是解析参数,代码如下:import argparseimport sysdef parse_args(): """ Parse input arguments """ parser = argparse.ArgumentParser() # Data lo...原创 2019-05-12 20:40:34 · 683 阅读 · 6 评论 -
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification解读
1. 概述本篇论文模型框架共有五部分:第一:输入层,输入的为每个句子第二:嵌入层,将句子中的字转换为向量第三:lstm层第四:attention层,通过乘以权重向量,产生新的权重向量,并将每个时间步长的词级特征合并为句子级特征向量;第五:输出层2. 词嵌入词嵌入的基本原理为其中eie_iei即词的向量,他是通过一个矩阵W与一个单位矩阵相乘得到。bi-lstm本文使用双向...原创 2019-05-16 10:33:36 · 1003 阅读 · 4 评论 -
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification代码调试
1. 对数据进行预处理2. 定义网络结构3. 数据分割及训练网络4. 代码展示原创 2019-05-19 16:55:27 · 3015 阅读 · 4 评论 -
Relation Classification via Convolutional Deep Neural Network
1. 综述该篇论文解决的实际问题为:关系抽取(给定两个名词,代表不同的实体即不同的人名,以及包含这两个实体的句子,通过句子得出两个实体的关系,如夫妻、同事等),通过词向量、词特征、句子特征等构造输入向量,使用CNN(卷积神经网络)预测结果(结果被送入softmax分类器,因此预测结果为每一种关系的置信度)。2.摘要、绪论摘要等绪论部分主要介绍了关系抽取方面已经取得的成果,以及相关文献。关系抽...原创 2019-05-08 18:37:12 · 479 阅读 · 5 评论