自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 收藏
  • 关注

原创 关于根据词库分词的算法逻辑实现(最长词汇匹配原则)

for size in range(block, 1, -1): # 从最长的块开始,直到长度为2。ss = set(['我爱北京天安门','北京','天安','爱北','张三'])# 替换掉双括号中的额外括号,只保留一个括号,最长词汇匹配原则。####根据最长词汇block窗口大小移动套取词汇。######过滤多括号嵌套,因为是最长匹配原则。#####根据用户词典列表把词汇用括号括起来。a = '我爱北京天安门,天安门上太阳升'#####得到句子中包含的词汇列表。####查找最长词汇。

2025-06-05 15:44:17 159

原创 文章相似度对比

text_a = "中国是一个拥有悠久历史和灿烂文化的国家。text_b = "中国是一个拥有悠久历史的国家。print(f"相似度:{sim:.4f}")print("判定为重复文章")print("可能是相似文章")print("非重复文章")# 加载中文句向量模型(BGE)

2025-05-21 16:06:56 304

原创 selenium webdriver使用

####多选框城市和。

2025-05-20 17:38:17 1027

原创 对于语义向量化测试,BAAI/bge-large-zh-v1.5大模型的效果还是不错的

f=open('飞机设计手册 第22册 技术经济设计.docx.txt','r',encoding="utf-8")print(f"{i+1}. {corpus[idx]} (相似度: {D[0][i]:.4f})")return ' '.join(jieba.lcut(text)) # 加分隔符提升效果。# Step 3: 准备你的语料库(可以替换为你的问答、百科等)query = "确 定 VE 对象的改进范围"# Step 1: 添加自定义词(比如人名)#jieba.add_word("张洋洋")

2025-05-14 16:36:07 419

原创 rag简单demo

【代码】rag简单demo。

2025-05-12 13:58:17 101

原创 关于solr删除某些数据的方法

标红的部分分别是条件和地址。

2025-04-29 17:38:26 127

原创 python 取出字串中的所有词

for size in range(block, 1, -1): # 从最长的块开始,直到长度为2。ss = set(['天安门','我爱','天安'])a = '我爱北京天安门,天安门上太阳升'

2025-04-27 11:49:53 138

原创 词语关系图谱模型

hs=0, # 是否使用层次Softmax(和 negative 二选一)sg=0, # 训练算法:0 = CBOW;window=5, # 词与上下文之间的最大距离(滑动窗口大小)sample=1e-3, # 高频词下采样的阈值(越小,越容易下采样)negative=5, # 负采样的数量(常用5~20之间)workers=4, # 用于训练的线程数(多线程加速)

2025-04-22 19:39:27 160

原创 solr自动建议接口简单使用

def api():def cdg():try:!!!"+userelif user!=NoneType:!

2025-04-22 16:02:45 293

原创 修改docker utc时区方法

如下以只读方式挂在linux主机时间和时区文件。

2025-04-19 21:49:28 171

原创 关于solr请求参数过长解决办法

找到jetty.xml 修改 <Set name="requestHeaderSize">65536</Set> 默认是8k的。###tomcat版本的。找到server.xml。

2025-04-11 16:46:58 110

原创 windows sc 创建删除服务

另外一种方式是nssm软件直接加入路径和参数,更方便。#删除 sc delete MyJavaApp。

2025-04-11 13:49:49 325

原创 调用ollama deepseek-r1:1.5b向量化句子

text='我爱北京天安门,天安门上太阳升'

2025-03-25 15:23:50 116

原创 redis查询数据方法,命令行

get name 查询键值。select 0 选库。dbsize 查询数量。keys * 查询所有键。

2025-03-25 14:59:48 140

原创 麒麟v10修改密码

2,输入grub用户名密码,默认用户名是root,密码Kylin123123 (如果没有grub密码请忽略)3,找到linux那行,后面加上rw single console=tty1 init=/bin/bash。6,/usr/sbin/reboot -f 重启之后就可以了。5,password root修改密码。1,启动菜单显示出来后按键盘上的e键。4,ctrl+x保存。

2025-03-17 14:55:02 271

原创 excel导入mysql表

【代码】excel导入mysql表。

2025-03-14 11:46:50 261

原创 简单的python,http文件服务器

【代码】简单的python,http文件服务器。

2025-03-13 14:48:38 129

原创 关于人大金仓license过期更换license.dat

下载最新对应版本的license.dat文件(一定要对应版本),替换 C:\Program Files\Kingbase\ES\V8\KESRealPro\V008R006C007B0012\license.dat。

2025-02-24 16:45:24 804

原创 关于密度算法逻辑

关于密度算法理解和逻辑

2025-01-22 17:37:11 143

原创 对于一些有反爬取的有一定作用

【代码】对于一些有反爬取的有一定作用。

2025-01-17 17:28:32 90

原创 pyppeteer 异步请求

【代码】pyppeteer 异步请求。

2025-01-17 16:57:40 147

原创 还是chrome driver渲染获取网页内容更好一些

【代码】还是chrome driver渲染获取网页内容更好一些。

2025-01-17 16:21:28 135

原创 python创建数据库

sql语句放入sql_table实现简单的自动建表。

2025-01-16 16:34:24 141

原创 solr8加鉴权

##以上代表solr的用户名和密码为: solr/SolrRocks。3: 修改用户名密码(需要借助curl工具)##修改solr登录密码。##删除solr用户。

2024-12-30 17:31:14 387

原创 docker代理配置

加入如下配置,输入自己的http和https代理地址和端口。

2024-12-25 15:39:26 418

原创 pdf读取函数,可以读取本地pdf和url的在线pdf转换为文字

可用库自己筛选一下,我把全部的加进来了,proxies是http代理,path是路径,download_image是是否存成本地图片文件。

2024-12-09 15:53:10 456

原创 arangodb集群创建方法,三台服务器配置方法

第一台============================第二台============================第三台============================

2024-12-05 09:39:28 356

原创 arangodb加密码需要加引号生效

arangodb加密码需要加引号生效。

2024-11-22 10:43:11 144

原创 solr8加鉴权如何访问

solr pysolr

2024-11-18 13:48:01 265

原创 python操作orcale数据库

【代码】python操作orcale数据库。

2024-10-30 14:54:49 124

原创 人大金仓链接

host="192.168.1.141", # 或者数据库服务器的IP地址或域名。port="4321", # PostgreSQL的默认端口。print("错误:无法连接到PostgreSQL数据库", error)# 执行SQL查询(例如:选择所有记录)print("数据库连接已关闭")# 处理查询结果(例如:打印出来)# 替换为实际的数据库连接参数。print("连接成功")# 确保数据库连接被关闭。

2024-10-22 09:13:40 310

原创 minio文件下载存储到excel信息

【代码】minio文件下载存储到excel信息。

2024-09-02 14:45:11 346

原创 arangodb通过命令行修改登录密码

只要执行require("@arangodb/users").update("root", "root");目录 graphdb\usr\bin 下运行arangosh.exe 或 linux环境运行arangosh。输入初始密码(输入你的初始密码,我的初始密码是123456)例如改成用户名cdg 密码cdg。

2024-08-22 15:33:15 305

原创 转换html特殊符号

import re",'™')

2024-08-16 14:28:01 615

原创 cv2 视频UDP传输

print("接收完毕")

2024-06-05 17:28:50 804 1

原创 python cs socket通信

msg={'type':'text','message':ss['des_name']+"和你说::::》》"+ss['message']}msg={'type':'sysmessage','message':cur_name+'::已下线,当前用户列表如下\n'}msg={'type':'sysmessage','message':'发送消息失败,这个人已经下线!msg={'type':'sysmessage','message':'发送消息失败,没有这个人!print("收到用户的消息")

2024-06-04 09:50:47 396

原创 socket cs模式

sockt_dict[ss['name']].send((ss['des_name']+"和你说::::》》"+ss['message']).encode("utf-8"))sockt_dict[name].send((cur_name+'::已下线,当前用户列表如下\n').encode("utf-8"))sockt_dict[ss['des_name']].send(('发送消息失败,这个人已经下线!sockt_dict[ss['des_name']].send(('发送消息失败,没有这个人!

2024-05-29 11:59:19 363

原创 正则表达式拆分文章

根据逗号或者句号拆分文章,匹配长度少于800,最近接800字符并找到逗号或者句号的位置截断。

2024-04-17 14:33:32 231

原创 python re.split()函数解析

运行结果:['', '第一章 第一章标题', ' fadfasdfasdfadafd\n ', '第二章 第二章标题', ' adfafdasdfasdfadsfasd\n', '第三章 第三章标题', ' adfadfadsfadfasdf\n']运行结果:['', ' fadfasdfasdfadafd\n ', ' adfafdasdfasdfadsfasd\n', ' adfadfadsfadfasdf\n']第三章 第三章标题\n adfadfadsfadfasdf\n'''

2024-04-17 10:00:34 355

原创 docker网路和主机通讯问题

2,linux开启防火墙会导致主机和docker网络之间单向通讯,主机可以访问docker网络,而docker内无法访问主机网络,做法是把docker主机网络docker0加入到主机zone中,docker内部访问主机就可以正常通讯。1,安装docker和启动容器服务的时候如果防火墙处于开启状态,那么重启docker里面的容器的时候必须开启防火墙,否则会出现iptable错误;

2024-04-16 15:32:26 515

ocr工具,脱机版,支持中英文,调整ipx,ipx越高效果越好,但是速度慢

ocr工具,脱机版,支持中英文,调整ipx,ipx越高效果越好,但是速度慢

2025-04-29

词语关系图谱模型,大数据计算

词语关系图谱模型,大数据计算

2025-04-22

kkfileview linux版依赖java

kkfileview linux版依赖java

2025-03-18

ntfs-3g,linux文件挂载程序

linux文件挂载程序 rpm -ivh *.rpm --force --nodeps 挂载 fdisk -l 查看识别的硬盘是sdc多少 例如识别的sdc4 那么挂载命令如下/mnt是挂载到的目录 mount -t ntfs-3g /dev/sdc4 /mnt/ 解除挂载 umount -l /dev/sdc4

2024-03-25

dbeaver连接国产达梦数据库工具

dbeaver连接国产达梦数据库工具

2024-12-09

kkfileview 用于展示多种格式的java程序

kkfileview 用于展示多种格式,访问地址 http://localhost:8012/ 支持 doc, docx, xls, xlsx, xlsm, ppt, pptx, csv, tsv, dotm, xlt, xltm, dot, dotx, xlam, xla, pages 等 Office 办公文档 支持 wps, dps, et, ett, wpt 等国产 WPS Office 办公文档 支持 odt, ods, ots, odp, otp, six, ott, fodt, fods 等OpenOffice、LibreOffice 办公文档 支持 vsd, vsdx 等 Visio 流程图文件 支持 wmf, emf 等 Windows 系统图像文件 支持 psd, eps 等 Photoshop 软件模型文件 支持 pdf ,ofd, rtf 等文档 支持 xmind 软件模型文件 支持 bpmn 工作流文件 支持 eml 邮件文件 支持 epub 图书文档 支持 obj, 3ds, stl, ply, gltf, glb, off, 3dm, fbx, dae

2024-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除