网页向量化存入 milvus

### 将网页内容进行向量化处理并存储到 Milvus 中 #### 准备工作为了实现这一目标，需要准备如下组件： - 安装 Docker 和 Docker Compose 以便部署 Milvus 及其他依赖服务。 - 使用 `docker-compose.yml` 文件定义所需的服务配置[^3]。 ```yaml version: '3' services: etcd: image: quay.io/coreos/etcd:v3.5.0 command: ... minio: image: milvus/minio:single-node-latest environment: MINIO_ROOT_USER: "minioadmin" MINIO_ROOT_PASSWORD: "minioadmin" milvus: image: milvusdb/milvus:v2.3.12-cpu-d070823-9f6dfe ports: - "19530:19530" - "9091:9091" ``` #### 获取网页内容并向量化获取网页的内容可以通过 Python 库如 BeautifulSoup 或 requests-html 实现。对于文本内容的向量化，则可以采用预训练的语言模型来完成转换过程。这里推荐使用 Hugging Face Transformers 提供的各种模型来进行特征提取。 ```python from transformers import AutoTokenizer, AutoModel import torch tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-MiniLM-L6-v2') model = AutoModel.from_pretrained('sentence-transformers/all-MiniLM-L6-v2') def get_embedding(text): inputs = tokenizer(text, return_tensors='pt', padding=True, truncation=True) outputs = model(**inputs) embeddings = torch.mean(outputs.last_hidden_state, dim=1).detach().numpy() return embeddings.tolist()[0] ``` 这段代码展示了如何加载一个预训练好的 Sentence-BERT 模型，并将其应用于给定的文字片段上以获得对应的嵌入表示形式。 #### 存储至 Milvus 数据库一旦拥有了这些向量化的数据之后就可以通过 pymilvus SDK 来连接本地运行着的 Milvus 实例并将它们插入到指定集合里去。 ```python from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection connections.connect("default", host="localhost", port="19530") fields = [ FieldSchema(name="id", dtype=DataType.INT64, is_primary=True), FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=384), # 假设维度为384 ] schema = CollectionSchema(fields, description="Webpage content vectors.") collection_name = "webpages_collection" if collection_name not in list_collections(): collection = Collection(name=collection_name, schema=schema) data_to_insert = [[i], [get_embedding(f"example text {i}")]] collection.insert(data_to_insert) ``` 上述脚本创建了一个新的集合用于保存来自不同页面经过编码后的浮点数数组；如果该集合已经存在则跳过此步操作。最后一步就是调用 insert 方法把实际的数据写进去。

阅读全文

网页向量化存入 milvus

相关推荐

人工智能-项目实践-文本向量-基于milvus和faiss实现文本转向量并存储的流程及简单性能测试.zip

deepseek私有化RAG思路 ollama 运行deepseek模型和向量化模型bge-m3，anything 实现喂数据到向量化数据库milvus，deepseek4j结合便可以实现RAG私有

Springboot整合向量数据库Milvus

图片存入milvus

langchain做向量化milvus

langchain4j 如何读取数据并存入向量数据库milvus

milvus 向量数据库rag

如何将知识库向量化和问题向量化

milvus的向量搜索python

milvus怎么插入图片向量

maxkb对文本先分段， 然后向量化，那么向量化以后的数据是什么样子的

milvus的向量字段是啥

neo4j和milvus创建向量数据库

文本向量化流程图

deepseek Milvus

dify Milvus

anythingllm milvus

LangGraph Milvus

dify milvus

ragflow milvus

大家在看

kaggle疟疾细胞深度学习方法进行图像分类

STM8 LIN2.x 协议栈

正点原子探索者STM32F4开发指南-库函数版

VMware-converter-6.2.0.zip

simulink基于BP神经网络的PID对柴油机转速的控制

最新推荐

c语言俄罗斯方块.7z

复变函数与积分变换完整答案解析

【性能测试基准】：为RK3588选择合适的NVMe性能测试工具指南

buildroot安装miniconda

局域网聊天工具：C#与MSMQ技术结合源码解析

【固态硬盘寿命延长】：RK3588平台NVMe维护技巧大公开

c语言标准库 map

基于C++的联网对战五子棋游戏开发

【故障恢复策略】：RK3588与NVMe固态硬盘的容灾方案指南

MySQL取年月份函数

maxkb对文本先分段，然后向量化，那么向量化以后的数据是什么样子的