
NLP
文章平均质量分 86
nlp相关知识
一直小小菜鸟
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
langchain中RecursiveCharacterTextSplitter文档切割以及与其他分割方法的区别
文本分割原创 2024-10-22 15:59:53 · 2318 阅读 · 0 评论 -
XLNet中对AE和AR方法的改进-排列语言模型(Permutation Language Modeling)
排列语言模型(Permutation Language Modeling)转载 2024-07-04 00:20:51 · 158 阅读 · 0 评论 -
Albert理解
在网上看到的非常好的文章,怕找不到转载一下:Albert理解 - 光彩照人 - 博客园 (cnblogs.com)参考文献:1909.11942 (arxiv.org)下载相关模型:GitHub - brightmart/albert_zh: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS, 海量中文预训练ALBERT模型转载 2024-07-04 00:20:58 · 396 阅读 · 0 评论 -
NLP基础_分词_jieba学习笔记
#自定义词典:一词占一行,每行分三个部分:词语,词频(可忽略),词性(可忽略)饿了么 2 nt美团 2 nr#加载词典word_list = jieba.cut('饿了么是你值得信赖的选择', HMM=True)print("【载入词典后】: {}".format('/'.join(word_list)))【载入词典后】: 饿了么/是/你/值得/信赖/的/选择可以在程序中动态修改词典#例如分词为 徐 狰狞 时,可以做以下操作。原创 2023-12-22 18:04:58 · 1081 阅读 · 0 评论 -
文本转向量过程中的矩阵变化示例
Word2Vec中的矩阵变换示例原创 2024-01-10 10:29:38 · 651 阅读 · 0 评论 -
Word2vec详解(附Gensim代码)
简单讲解word2vec及其代码原创 2024-03-19 10:37:02 · 5322 阅读 · 1 评论 -
nlp中将文本数字化的方法
分词后的下一步原创 2024-03-20 11:40:56 · 1603 阅读 · 0 评论 -
NLP基础_词嵌入word embedding模型合集(框架理解版)
在分词之后,对于文本类型的特征属性,需要进行,也就是需要。因为神经网络的本质还是数学运算。所以我们第一步是将分词转化为数字符号进行表示。基础方式如下:序号化、哑编码(One-Hot)、词袋法(BOW/TF) TF-IDF(Term frequency-inverse document frequency)主题模型LSALDA等word embedding部分:Word2VecChar2VecDoc2Vec紧接上文。原创 2024-03-21 16:38:32 · 1686 阅读 · 1 评论 -
NLP的第一步:如何将文本变为embedding输入向量[N,T]
让我们来看一个具体的例子。原创 2024-04-24 00:02:32 · 1197 阅读 · 2 评论 -
nn.RNN的输入输出及其内部结构说明
原因是h_n只保留了最后一步的 hidden_state,但中间的 hidden_state 也有可能会参与计算,所以 pytorch 把中间每一步输出的 hidden_state 都放到output中(当然,只保留了 hidden_state 最后一层的输出),因此,你可以发现这个output的维度是。3.h_0(隐藏层)(h_0代表隐藏层的输入输出,在rnn网络中输入输出是格式是相同的)如果没有提供,默认为全0num_layers是RNN的层数。原创 2024-04-24 00:02:52 · 2100 阅读 · 0 评论 -
关于seq2seq模型loss使用交叉熵具体是如何计算的
seq2seq模型loss使用交叉熵是如何计算的原创 2024-06-03 21:34:50 · 617 阅读 · 0 评论 -
全连接层中先升维再降维其中的含义:以FeedForward为例
全连接层中先升维再降维原创 2024-06-03 21:42:39 · 1070 阅读 · 0 评论