【LLM】GLM系列模型要点

山顶夕景

已于 2024-06-25 10:22:54 修改

阅读量1.3k

点赞数 26

CC 4.0 BY-SA版权

分类专栏： LLM大模型自然语言处理文章标签：大模型 GLM NLP

于 2024-06-24 19:58:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35812205/article/details/139936405

自然语言处理同时被 2 个专栏收录

89 篇文章 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

135 篇文章

订阅专栏

note

文章目录

note
GLM
一、数据层面
- 1. 预训练数据
二、GLM4模型层面
三、GLM-4 All Tools
四、GLM的其他技术
Reference

GLM

Paper：https://arxiv.org/abs/2406.12793
GitHub：https://github.com/THUDM
HF：https://huggingface.co/THUDM
在这里插入图片描述

经过进一步优化的GLM-4 All Tools模型能够理解用户的意图，并自主决定何时以及如何使用包括网络浏览器、Python解释器、文本到图像模型以及用户自定义函数在内的工具来高效完成复杂任务。在实际应用中，GLM-4 All Tools在访问在线信息和使用Python解释器解决数学问题等任务中的表现超过了GPT-4 All Tools。

一、数据层面

1. 预训练数据

ChatGLM系列模型的预训练语料库由多种语言的文档构成，主要为英文和中文，涵盖了网页、维基百科、书籍、代码和论文等多种来源。数据处理流程精心设计，分为三个主要阶段：去重、过滤和分词。

在去重阶段，我们通过精确匹配和模糊匹配技术剔除重复或相似的文档，确保数据集的多样性。
在过滤阶段，我们移除了包含攻击性内容、占位符文本和源代码等噪声文档，以提升数据质量。最后，在分词阶段，文本被转换成token序列，为后续处理打下基础

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

山顶夕景 小哥哥给我买个零食可好

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。