自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 调用deepseek处理中文小学数学教育数据集

client = OpenAI(api_key="你的deepseekapi", base_url="https://api.deepseek.com"){"role": "user", "content": f"回答并给出详细的思考过程:\n\n{document_content}"},{"role": "system", "content": "你是一个数学专家,需要回答每个问题并给出详细的思考过程。file_path = r"文本路径" # 替换为你的文件路径。# 提取并打印生成的摘要。

2025-03-14 21:31:27 371

原创 Embedding

目标:学习相关算法,增加对词嵌入的理解。如one-hot(二进制)、word2vec(预测单词上下文)、fastText、glove(全局词频统计)等embdding,嵌入,向量或向量表示技术,把离散的高维映射到低维的连续向量空间。

2025-03-10 19:01:41 1782

原创 NLP基础

分词器:是为模型准备输入数据的,把语料数据集预处理为模型可以接受的输入格式。分词器的作用是把文本转换为词元序列,一个词元可以是字母、单词、标点符号、其他符号,这个过程也被称为分词(tokenization)。词元(token)可以理解为最小的语义单元,分词的目的是将输入文本转换为一系列的词元,并且还要保证每个词元拥有相对完整的独立语义。把每个词元转换成一个数字,也叫tokenID,词ID分词应该分到什么粒度?character、word、subword(子词)

2025-03-08 14:30:09 1664

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除