- 博客(3)
- 收藏
- 关注
原创 调用deepseek处理中文小学数学教育数据集
client = OpenAI(api_key="你的deepseekapi", base_url="https://api.deepseek.com"){"role": "user", "content": f"回答并给出详细的思考过程:\n\n{document_content}"},{"role": "system", "content": "你是一个数学专家,需要回答每个问题并给出详细的思考过程。file_path = r"文本路径" # 替换为你的文件路径。# 提取并打印生成的摘要。
2025-03-14 21:31:27
371
原创 Embedding
目标:学习相关算法,增加对词嵌入的理解。如one-hot(二进制)、word2vec(预测单词上下文)、fastText、glove(全局词频统计)等embdding,嵌入,向量或向量表示技术,把离散的高维映射到低维的连续向量空间。
2025-03-10 19:01:41
1782
原创 NLP基础
分词器:是为模型准备输入数据的,把语料数据集预处理为模型可以接受的输入格式。分词器的作用是把文本转换为词元序列,一个词元可以是字母、单词、标点符号、其他符号,这个过程也被称为分词(tokenization)。词元(token)可以理解为最小的语义单元,分词的目的是将输入文本转换为一系列的词元,并且还要保证每个词元拥有相对完整的独立语义。把每个词元转换成一个数字,也叫tokenID,词ID分词应该分到什么粒度?character、word、subword(子词)
2025-03-08 14:30:09
1664
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人