国内的embedding模型有哪些
时间: 2025-01-22 16:01:29 浏览: 155
### 国内常用的Embedding模型列表及介绍
#### 1. Word2Vec
Word2Vec 是一种流行的词向量表示方法,通过神经网络模型将词语映射到连续的向量空间中。该技术在中国的应用非常广泛,尤其是在中文语料库上的应用效果良好。阿里云提供了预训练好的中文 Word2Vec 模型供开发者使用[^1]。
#### 2. BERT (Bidirectional Encoder Representations from Transformers)
BERT 是由 Google 提出的一种双向 Transformer 编码器结构的语言表征模型,在多个 NLP 任务上取得了显著的效果改进。国内多家机构已经针对中文环境优化了 BERT 模型,并发布了多种变体版本,如ERNIE(百度)、MacBERT 和 RoFormer-Sim 等。
#### 3. FastText
FastText 是 Facebook AI Research 开发的一个高效学习单词表示和句子分类工具包。它不仅能够捕捉字符级别的特征,还能有效处理稀疏词汇问题。腾讯开源了适用于中文场景下的 fastText 实现,支持多标签分类等功能。
#### 4. GPT系列(Generative Pre-trained Transformer)
虽然最初是由 OpenAI 发布的大规模无监督预训练语言模型,但是国内也有不少团队基于此进行了本地化适配工作。例如华为云推出了鹏城实验室联合开发的支持超大规模参数量的盘古α架构;阿里达摩院也构建了自己的通义万相大模型体系[^2]。
#### 5. ERNIE (Enhanced Representation through kNowledge Integration)
这是百度推出的一款增强版预训练语言理解框架,特别强调融合百科全书式的知识图谱来提升下游任务的表现力。除了标准版外还有专门面向特定领域定制化的子型号可供选择,比如医疗健康方向的 MedCLP 或者法律咨询方面的 Legal-BERT。
```python
import paddlehub as hub
module = hub.Module(name="ernie_tiny") # 加载ERNIE tiny模型
texts = ["今天天气真好", "明天会更好"]
results = module.get_embedding(texts=texts, use_gpu=False)
for result in results:
print(result.shape) # 输出每条文本对应的embedding维度
```
阅读全文
相关推荐


















