课程设计基于统计学方法对古诗词进行词语级建模和关系挖掘python源码+实验报告.zip资源-CSDN下载

共120个文件

json：61个

js：18个

png：16个

版权申诉

毕业设计

课程作业

课程设计

54 浏览量 2023-10-12 11:00:47 上传评论收藏 10.9MB ZIP 举报

【资源说明】课程设计基于统计学方法对古诗词进行词语级建模和关系挖掘python源码+实验报告.zip 期中大作业报告目录环境搭建项目结构后端前端架构图数据挖掘算法词库提取近义词挖掘词语聚类和主题挖掘诗歌与词语的匹配度基于影响力的诗歌离线排名具体代码实现作业展示数据挖掘示例：词表数据挖掘示例：近义词数据挖掘示例：聚类和主题词数据挖掘示例：诗歌匹配度表一：只考虑近义词模型表二：只考虑主题词模型表三：综合考虑三方面因素服务端示例：FastAPI 接口前端示例主页搜索页诗歌详情页诗歌相似作品诗人详情页诗人作品知识图谱移动端页面在线演示环境搭建后端开发环境为 Python 3.8.11，可在 Python 3.7 到 3.9 上运行。离线计算部分的依赖包见 backend/lab/requirements.txt ，在线服务部分的依赖包见 backend/server/requirements.txt 。语料来自于 Github 项目chinese-poetry，出于压缩文件的原因，原始语料未包含在打包中。可以克隆此项目，置于 backend/lab/chinese-poetry 文件夹中。后端依赖于 neo4j 数据库以及 neo4j 的 gds 拓展。实际使用版本的是 neo4j 4.3.6 和 gds 1.7.2。前端开发环境为 Node.js 16.5.0，需要的依赖包见 frontend/poem-tang/package.json 。在 frontend/poem-tang 文件夹内，使用 yarn install 可一键完成环境配置。项目结构项目结构如图：后端后端分为两部分：离线计算和在线服务。离线计算负责对数据集进行清洗和分析，从古诗中提取词库，挖掘词语之间的近义词关系，评价词语和古诗的匹配度，对古诗进行排名，并将结果写入 neo4j 数据库中。这一部分运行在开发环境中，不在服务器上运行。代码见 backend/lab/process.ipynb 。在线服务运行在服务器上，负责从数据库中读取数据，并对外提供 HTTP 接口。代码见 backend/server/ 文件夹。前端前端采用 React 开发，负责从服务端提供的接口中获取数据，并向用户展示。代码见 frontend/poemtang/ 文件夹。 ├── backend # 后端 │ ├── lab # 离线计算（关系挖掘，数据库写入） │ │ ├── data # 数据集 │ │ │ └ . │ │ ├── process.ipynb │ │ └── requirements.txt │ └── server # 在线服务（读取数据库，提供接口） │ ├── _ _ init_ _ .py │ ├── graph.py │ ├── wds.txt │ └── requirements.txt └── frontend # 前端 └── poem- tang ├── src # React 页面及组件 │ ├──components │ │ └ . │ ├──scripts │ │ └ . │ ├──App.js │ └── . ├── public │ └ . ├──package.json └── . 【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用，也适合小白学习进阶，当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可直接用于毕设、课设、作业等。欢迎下载，沟通交流，互相学习，共同进步！

资源推荐

资源详情

资源评论

收起资源包目录

课程设计基于统计学方法对古诗词进行词语级建模和关系挖掘python源码+实验报告.zip （120个子文件）

word_topics.csv 344KB

.gitignore 3KB

.gitignore 310B

index.html 589B

favicon.ico 24KB

process.ipynb 673KB

Graph.js 5KB

Poem.js 3KB

Search.js 2KB

Main.js 2KB

Author.js 2KB

SimilarPoems.js 2KB

AuthorPoems.js 2KB

App.js 1KB

Frame.js 973B

MainFrame.js 851B

index.js 826B

NoMatch.js 657B

utils.js 494B

craco.config.js 397B

reportWebVitals.js 362B

App.test.js 246B

setupTests.js 241B

api.js 137B

authors.tang.json 734KB

poet.tang.10.json 429KB

poet.tang.21.json 406KB

poet.tang.22.json 394KB

poet.tang.8.json 376KB

poet.tang.18.json 376KB

poet.tang.17.json 343KB

poet.tang.4.json 340KB

poet.tang.20.json 332KB

poet.tang.9.json 328KB

poet.tang.24.json 328KB

poet.tang.1.json 328KB

poet.tang.7.json 325KB

poet.tang.5.json 322KB

poet.tang.6.json 320KB

poet.tang.3.json 313KB

poet.tang.23.json 313KB

poet.tang.45.json 306KB

poet.tang.12.json 306KB

poet.tang.33.json 304KB

poet.tang.11.json 302KB

poet.tang.19.json 301KB

poet.tang.43.json 301KB

poet.tang.29.json 298KB

poet.tang.34.json 292KB

poet.tang.15.json 292KB

poet.tang.13.json 291KB

poet.tang.32.json 290KB

poet.tang.25.json 288KB

poet.tang.2.json 286KB

poet.tang.14.json 285KB

poet.tang.39.json 284KB

poet.tang.31.json 282KB

poet.tang.0.json 280KB

poet.tang.38.json 280KB

poet.tang.46.json 280KB

poet.tang.44.json 278KB

poet.tang.36.json 277KB

poet.tang.28.json 277KB

poet.tang.42.json 274KB

poet.tang.30.json 274KB

poet.tang.26.json 274KB

poet.tang.47.json 271KB

poet.tang.35.json 266KB

poet.tang.50.json 265KB

poet.tang.16.json 264KB

poet.tang.49.json 264KB

poet.tang.41.json 262KB

poet.tang.37.json 261KB

poet.tang.27.json 258KB

poet.tang.52.json 256KB

poet.tang.40.json 250KB

poet.tang.56.json 230KB

poet.tang.53.json 229KB

poet.tang.51.json 227KB

poet.tang.48.json 221KB

poet.tang.55.json 217KB

poet.tang.54.json 208KB

poet.tang.57.json 138KB

package.json 1KB

manifest.json 472B

PoemList.jsx 2KB

Poem.jsx 2KB

Author.jsx 811B

link.module.less 393B

yarn.lock 542KB

作业报告.md 14KB

介绍.md 387B

作业报告.pdf 1.11MB

image-20211108225645470.png 108KB

image-20211108230907927.png 97KB

image-20211108235249604.png 96KB

image-20211108234828460.png 82KB

image-20211108233734791-16363858574731.png 73KB

image-20211108235432528.png 71KB

image-20211108235036862.png 70KB

共 120 条

期中大作业报告  
目录  
期中大作业报告
目录
环境搭建
项目结构
后端
前端
架构图
数据挖掘算法
词库提取
近义词挖掘
词语聚类和主题挖掘
诗歌与词语的匹配度
基于影响力的诗歌离线排名
具体代码实现
作业展示
数据挖掘示例：词表
数据挖掘示例：近义词
数据挖掘示例：聚类和主题词
数据挖掘示例：诗歌匹配度
表一：只考虑近义词模型
表二：只考虑主题词模型
表三：综合考虑三方面因素
服务端示例：FastAPI 接口
前端示例
主页
搜索页
诗歌详情页
诗歌相似作品
诗人详情页
诗人作品
知识图谱
移动端页面
在线演示
环境搭建  
后端开发环境为 Python 3.8.11，可在 Python 3.7 到 3.9 上运行。离线计算部分的依赖包见 
backend/lab/requirements.txt ，在线服务部分的依赖包见 
backend/server/requirements.txt 。

语料来自于 Github 项目 chinese-poetry ，出于压缩文件的原因，原始语料未包含在打包中。可以克隆

此项目，置于 backend/lab/chinese-poetry 文件夹中。

后端依赖于 neo4j 数据库以及 neo4j 的 gds 拓展。实际使用版本的是 neo4j 4.3.6 和 gds 1.7.2。

前端开发环境为 Node.js 16.5.0，需要的依赖包见 frontend/poem-tang/package.json 。在

frontend/poem-tang 文件夹内，使用 yarn install 可一键完成环境配置。

项目结构

项目结构如图：

后端

后端分为两部分：离线计算和在线服务。

离线计算负责对数据集进行清洗和分析，从古诗中提取词库，挖掘词语之间的近义词关系，评价词语和

古诗的匹配度，对古诗进行排名，并将结果写入 neo4j 数据库中。这一部分运行在开发环境中，不在服

务器上运行。代码见 backend/lab/process.ipynb 。

在线服务运行在服务器上，负责从数据库中读取数据，并对外提供 HTTP 接口。代码见

backend/server/ 文件夹。

前端

前端采用 React 开发，负责从服务端提供的接口中获取数据，并向用户展示。代码见 frontend/poem-

tang/ 文件夹。

├── backend           # 后端

│  ├── lab           # 离线计算（关系挖掘，数据库写入）

│  │  ├── data        # 数据集

│  │  │  └

│  │  ├── process.ipynb

│  │  └── requirements.txt

│  └── server         # 在线服务（读取数据库，提供接口）

│    ├── init.py

│    ├── graph.py

│    ├── wds.txt

│    └── requirements.txt

└── frontend          # 前端

 └── poemtang

   ├── src         # React 页面及组件

   │  ├──components

   │  │  └

   │  ├──scripts

   │  │  └

   │  ├──App.js

   │  └──

   ├── public

   │  └

   ├──package.json

   └──

古诗检索

前端

后端

主页

搜索页

展示页

索引服务

数据处理

数据获取

FastAPI

RESTful 接口

词向量与近义词

匹配度计算

共现网络

离线索引

neo4j 数据库

架构图

React + Ant Design

数据挖掘算法

以下记为所有词语的集合，为所有诗歌的集合。对于，，记表示词语

在诗歌中出现。

词库提取

利用 gensim 包提供的 FastText 模型，逐字训练 n-gram 向量与字向量。

然后提取出所有古诗中的二到四字组合，利用 FastText 模型得到词向量。词向量的长度可以表示

词语的相对概率，由此得到每个词语的评分：

其中是词频。

保留最高的若干个词语，得到词表。

提取结果见 backend/server/wds.txt 。

近义词挖掘

根据词语的共现关系，建立共现图。认为在同一首诗中共同出现即为共现。

此时，共现图的邻接矩阵的每一行可以认为是词语的一个特征向量。对整个邻接矩阵使用 PCA 降维，得

到每个词语的词向量。

计算词语间的两两的余弦相似度，取每个词语的前10作为近义词。

词语聚类和主题挖掘

按照近义词关系，建立近义词网络。利用 Louvain 算法进行聚类，得到若干个类，作为词语所属的

主题。

对每一类中的词语，运行 PageRank 算法，将不同词语在主题中的中心度作为重要程度。

诗歌与词语的匹配度

根据近义词与主题词模型，分别可以计算一首诗与某一个词语的匹配度。

近义词模型认为，一首诗包含某个词语的近义词越多，这首诗和这个词的匹配度越高。优点是计算结果

较精确，缺点是可应用的词语范围较窄，对于近义词未在诗中出现的词，无法计算匹配度。

主题词模型认为，一首诗包含某个主题的词在这个主题中的重要程度越高，这首诗越贴合这个主题，与

这个主题中的词语的匹配度越高。优点是可应用的词语范围广，缺点是不够精确，对同一主题中词语区

分不足。

最终的匹配度是二者的加权平均：

基于影响力的诗歌离线排名

按照诗歌所包含词语的相似性，来判断诗歌的相似性。取诗歌中所有词语的词向量之和作为诗歌向量，

利用 PCA 对诗歌向量进行特征提取后，按照余弦相似度排序，取每首诗的前16个作为相似诗歌，构建相

似网络。

认为诗歌在相似网络中的 PageRank 越高，诗歌的影响力越高。

以此为依据，计算给定词语时，搜索结果中诗歌的最终得分：

具体代码实现

数据挖掘部分见 backend/lab/process.ipynb 。其中 PCA 算法采用了 scikit-learn 包的实现，

Louvain 算法及 PageRank 算法采用了 neo4j 数据库的拓展 gds 提供的算法。

在本地将数据分析完毕后，存入 neo4j 数据库中。服务器上的服务端负责从 neo4j 中读取数据（见

backend/server/graph.py ），并提供接口。

评论收藏

内容反馈

版权申诉

onnx

粉丝: 1w+

课程设计基于统计学方法对古诗词进行词语级建模和关系挖掘python源码+实验报告.zip

Python实现基于规则的分词.zip

应用统计学.zip

统计学期末课程作业-python自定义实现CNN-KNN-NN-SVM网络模型源码+说明文件.zip

统计学实验报告.pdf

统计学实验报告.doc

基于关联规则挖掘DBLP学者关系python源码+实验报告(数据挖掘作业).zip

基于Matlab实现扩展卡尔曼滤波(EKF)源码+详细注释+项目说明.zip

基于Java+协同过滤算法的电影推荐系统设计与实现源码+说明文档.zip

课程设计基于Django+Bootstrap的个人博客源码+项目说明.zip

机器学习大作业基于线性回归的PM2.5预测python源码+项目说明.zip

应用统计学-基于R语言实现影响大学生就业的学术和专业因素源码+项目文档说明+报告+数据集.zip

（统计学）实验报告.docx

统计学实验报告.docx

Python统计学包scipystats手册.pdf

工程统计学实验报告.pdf

基于Matlab实现扩展卡尔曼滤波EKF源码+项目说明+超详细注释.zip

python分别实现基于神经网络线性回归SVM方法预测学生成绩源码+数据集.zip

基于Matlab实现扩展卡尔曼滤波(EKF)源码+超详细注释+项目说明.zip

JAVA毕设项目-基于SSM框架的‘万卷’大学图书管理系统源码+设计文档.zip

学生心理咨询评估系统 JAVA毕业设计 源码+数据库+论文 Vue.js+SpringBoot.zip

含源代码数据挖掘与分析（Python版）.zip

【毕业设计】基于python的时间序列分析的降雨量预测源码（完整前后端+mysql+说明文档+LW+PPT）.zip

基于统计学方法和机器学习分析基金相关性预测内含源码和数据集.zip

python+统计学+源码+用Python动手学统计学

【毕业设计】基于Python的Django-html基于改进高斯混合模型的图割算法研究源码（完整前后端+mysql+说明文档+LW+PPT）.zip

Python+人工智能.zip

数据挖掘：Python金融大数据挖掘与分析全流程详解案例源码.zip

基于python的线性回归分析项目源码+文档说明课设.zip

苏苏源码-python036-python内蒙古旅游景点数据分析系统(论文+PPT).zip

股票预测,股票预测软件,Python源码 (1).zip

最新资源

学生心理咨询评估系统 JAVA毕业设计源码+数据库+论文 Vue.js+SpringBoot.zip