菜鸟历险记啊-CSDN博客

原创调用deepseek处理中文小学数学教育数据集

client = OpenAI(api_key="你的deepseekapi", base_url="https://api.deepseek.com"){"role": "user", "content": f"回答并给出详细的思考过程:\n\n{document_content}"},{"role": "system", "content": "你是一个数学专家，需要回答每个问题并给出详细的思考过程。file_path = r"文本路径" # 替换为你的文件路径。# 提取并打印生成的摘要。

2025-03-14 21:31:27 371

原创 Embedding

目标：学习相关算法，增加对词嵌入的理解。如one-hot(二进制)、word2vec(预测单词上下文)、fastText、glove(全局词频统计)等embdding，嵌入，向量或向量表示技术，把离散的高维映射到低维的连续向量空间。

2025-03-10 19:01:41 1782

原创 NLP基础

分词器：是为模型准备输入数据的，把语料数据集预处理为模型可以接受的输入格式。分词器的作用是把文本转换为词元序列，一个词元可以是字母、单词、标点符号、其他符号，这个过程也被称为分词(tokenization)。词元(token)可以理解为最小的语义单元，分词的目的是将输入文本转换为一系列的词元，并且还要保证每个词元拥有相对完整的独立语义。把每个词元转换成一个数字，也叫tokenID，词ID分词应该分到什么粒度？character、word、subword(子词)

2025-03-08 14:30:09 1664

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 调用deepseek处理中文小学数学教育数据集

原创 Embedding

原创 NLP基础

空空如也

空空如也

原创调用deepseek处理中文小学数学教育数据集