- 博客(63)
- 收藏
- 关注
原创 关于根据词库分词的算法逻辑实现(最长词汇匹配原则)
for size in range(block, 1, -1): # 从最长的块开始,直到长度为2。ss = set(['我爱北京天安门','北京','天安','爱北','张三'])# 替换掉双括号中的额外括号,只保留一个括号,最长词汇匹配原则。####根据最长词汇block窗口大小移动套取词汇。######过滤多括号嵌套,因为是最长匹配原则。#####根据用户词典列表把词汇用括号括起来。a = '我爱北京天安门,天安门上太阳升'#####得到句子中包含的词汇列表。####查找最长词汇。
2025-06-05 15:44:17
159
原创 文章相似度对比
text_a = "中国是一个拥有悠久历史和灿烂文化的国家。text_b = "中国是一个拥有悠久历史的国家。print(f"相似度:{sim:.4f}")print("判定为重复文章")print("可能是相似文章")print("非重复文章")# 加载中文句向量模型(BGE)
2025-05-21 16:06:56
304
原创 对于语义向量化测试,BAAI/bge-large-zh-v1.5大模型的效果还是不错的
f=open('飞机设计手册 第22册 技术经济设计.docx.txt','r',encoding="utf-8")print(f"{i+1}. {corpus[idx]} (相似度: {D[0][i]:.4f})")return ' '.join(jieba.lcut(text)) # 加分隔符提升效果。# Step 3: 准备你的语料库(可以替换为你的问答、百科等)query = "确 定 VE 对象的改进范围"# Step 1: 添加自定义词(比如人名)#jieba.add_word("张洋洋")
2025-05-14 16:36:07
419
原创 python 取出字串中的所有词
for size in range(block, 1, -1): # 从最长的块开始,直到长度为2。ss = set(['天安门','我爱','天安'])a = '我爱北京天安门,天安门上太阳升'
2025-04-27 11:49:53
138
原创 词语关系图谱模型
hs=0, # 是否使用层次Softmax(和 negative 二选一)sg=0, # 训练算法:0 = CBOW;window=5, # 词与上下文之间的最大距离(滑动窗口大小)sample=1e-3, # 高频词下采样的阈值(越小,越容易下采样)negative=5, # 负采样的数量(常用5~20之间)workers=4, # 用于训练的线程数(多线程加速)
2025-04-22 19:39:27
160
原创 关于solr请求参数过长解决办法
找到jetty.xml 修改 <Set name="requestHeaderSize">65536</Set> 默认是8k的。###tomcat版本的。找到server.xml。
2025-04-11 16:46:58
110
原创 麒麟v10修改密码
2,输入grub用户名密码,默认用户名是root,密码Kylin123123 (如果没有grub密码请忽略)3,找到linux那行,后面加上rw single console=tty1 init=/bin/bash。6,/usr/sbin/reboot -f 重启之后就可以了。5,password root修改密码。1,启动菜单显示出来后按键盘上的e键。4,ctrl+x保存。
2025-03-17 14:55:02
271
原创 关于人大金仓license过期更换license.dat
下载最新对应版本的license.dat文件(一定要对应版本),替换 C:\Program Files\Kingbase\ES\V8\KESRealPro\V008R006C007B0012\license.dat。
2025-02-24 16:45:24
804
原创 solr8加鉴权
##以上代表solr的用户名和密码为: solr/SolrRocks。3: 修改用户名密码(需要借助curl工具)##修改solr登录密码。##删除solr用户。
2024-12-30 17:31:14
387
原创 pdf读取函数,可以读取本地pdf和url的在线pdf转换为文字
可用库自己筛选一下,我把全部的加进来了,proxies是http代理,path是路径,download_image是是否存成本地图片文件。
2024-12-09 15:53:10
456
原创 arangodb集群创建方法,三台服务器配置方法
第一台============================第二台============================第三台============================
2024-12-05 09:39:28
356
原创 人大金仓链接
host="192.168.1.141", # 或者数据库服务器的IP地址或域名。port="4321", # PostgreSQL的默认端口。print("错误:无法连接到PostgreSQL数据库", error)# 执行SQL查询(例如:选择所有记录)print("数据库连接已关闭")# 处理查询结果(例如:打印出来)# 替换为实际的数据库连接参数。print("连接成功")# 确保数据库连接被关闭。
2024-10-22 09:13:40
310
原创 arangodb通过命令行修改登录密码
只要执行require("@arangodb/users").update("root", "root");目录 graphdb\usr\bin 下运行arangosh.exe 或 linux环境运行arangosh。输入初始密码(输入你的初始密码,我的初始密码是123456)例如改成用户名cdg 密码cdg。
2024-08-22 15:33:15
305
原创 python cs socket通信
msg={'type':'text','message':ss['des_name']+"和你说::::》》"+ss['message']}msg={'type':'sysmessage','message':cur_name+'::已下线,当前用户列表如下\n'}msg={'type':'sysmessage','message':'发送消息失败,这个人已经下线!msg={'type':'sysmessage','message':'发送消息失败,没有这个人!print("收到用户的消息")
2024-06-04 09:50:47
396
原创 socket cs模式
sockt_dict[ss['name']].send((ss['des_name']+"和你说::::》》"+ss['message']).encode("utf-8"))sockt_dict[name].send((cur_name+'::已下线,当前用户列表如下\n').encode("utf-8"))sockt_dict[ss['des_name']].send(('发送消息失败,这个人已经下线!sockt_dict[ss['des_name']].send(('发送消息失败,没有这个人!
2024-05-29 11:59:19
363
原创 python re.split()函数解析
运行结果:['', '第一章 第一章标题', ' fadfasdfasdfadafd\n ', '第二章 第二章标题', ' adfafdasdfasdfadsfasd\n', '第三章 第三章标题', ' adfadfadsfadfasdf\n']运行结果:['', ' fadfasdfasdfadafd\n ', ' adfafdasdfasdfadsfasd\n', ' adfadfadsfadfasdf\n']第三章 第三章标题\n adfadfadsfadfasdf\n'''
2024-04-17 10:00:34
355
原创 docker网路和主机通讯问题
2,linux开启防火墙会导致主机和docker网络之间单向通讯,主机可以访问docker网络,而docker内无法访问主机网络,做法是把docker主机网络docker0加入到主机zone中,docker内部访问主机就可以正常通讯。1,安装docker和启动容器服务的时候如果防火墙处于开启状态,那么重启docker里面的容器的时候必须开启防火墙,否则会出现iptable错误;
2024-04-16 15:32:26
515
ntfs-3g,linux文件挂载程序
2024-03-25
kkfileview 用于展示多种格式的java程序
2024-03-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人