12-Oracle 23ai Vector 使用ONNX模型生成向量嵌入

远方1609

已于 2025-06-06 15:41:09 修改

阅读量759

点赞数 25

文章标签： oracle 数据库 AI编程

于 2025-06-06 15:13:08 首次发布

本文链接：https://blog.csdn.net/sharpwt/article/details/148475302

版权

一、Oracle 23ai Vector Embeddings 核心概念

向量嵌入（Vector Embeddings）

-- 将非结构化数据（文本/图像）转换为数值向量

- - 捕获数据的语义含义而非原始内容

- 示例："数据库" → [0.24, -0.78, 0.56, ...]

ONNX（Open Neural Network Exchange）

- 开放神经网络交换格式

- 实现跨框架模型互操作（PyTorch → TensorFlow → Oracle）

- Oracle 23ai 原生支持 ONNX 模型部署

生成方式

可使用内置，也可以使用外部的第三方API

二、关于Vector Generator

FLOAT32 Vector Generator，BINARY Vector Generator

不建议在生产数据库上使用矢量生成器。本教程可用于测试和演示目的。

三、环境准备（基于Oracle 23ai Free版，安装模式参考前文）

8-Oracle23 ai free True Cache OL9.6上部署和实操-已验证-CSDN博客

环境限制

CPU：最大 2 核
数据量：≤ 12 GB
内存：≤ 2 GB
单实例限制：每主机仅允许一个实例

四、准备ONNX模型

步骤1：下载预训练模型

- 从Hugging Face下载模型（如all-MiniLM-L12-v2）：
- 从Hugging Face下载模型（如all-MiniLM-L12-v2）：其中huggingface.co没梯子无法下载，“https://huggingface.co/sentence-transformers/all-MiniLM-L12-v2/resolve/main/onnx/model.onnx”
oracled OCI 地址可以下载，下载预训练模型。此次选择将命令用于本地，未测试将模型和数据放在对象存储的情况。"https://adwc4pm.objectstorage.us-ashburn-1.oci.customer-oci.com/p/VBRD9P8ZFWkKvnfhrWxkpPe8K03-JIoM5h_8EJyJcpE80c108fuUjg7R5L5O7mMZ/n/adwc4pm/b/OML-Resources/o/all_MiniLM_L12_v2_augmented.zip"

传输模型到服务器，本地服务器：复制到数据库可访问目录

[root@OL96 home]# unzip all_MiniLM_L12_v2_augmented.zip
Archive:  all_MiniLM_L12_v2_augmented.zip
  inflating: all_MiniLM_L12_v2.onnx
  inflating: README-ALL_MINILM_L12_V2-augmented.txt
[root@OL96 home]# ll
total 1618196
drwx------. 14 admin  admin          4096 Jun  2 22:54 admin
-rw-r--r--.  1 root   root      122597346 Jul 16  2024 all_MiniLM_L12_v2_augmented.zip
-rw-r--r--.  1 root   root      133322334 Jul 15  2024 all_MiniLM_L12_v2.onnx
drwx------.  4 oracle oinstall        143 Jun  3 18:56 oracle
-rw-r--r--.  1 root   root     1401096996 May  6 18:50 oracle-database-free-23ai-23.8-1.el9.x86_64.rpm
-rw-r--r--.  1 root   root           4232 Jul 15  2024 README-ALL_MINILM_L12_V2-augmented.txt
cp all_MiniLM_L12_v2.onnx /opt/oracle/models/

步骤2：数据库环境配置

创建专用用户和目录
DB_DEVELOPER_ROLE是Oracle 23ai引入的新角色，整合了CONNECT和RESOURCE角色，并增加了更多现代开发所需的权限，比如创建多维数据模型、机器学习模型

su - oracle
sqlplus / as sysdba
alter session set container=FREEPDB1;
CREATE TABLESPACE vec_ts DATAFILE 'vector_ts.dbf' SIZE 2G AUTOEXTEND ON;
CREATE USER vector_user IDENTIFIED BY Oracle_4U DEFAULT TABLESPACE vec_ts;
GRANT DB_DEVELOPER_ROLE TO vector_user;

CREATE OR REPLACE DIRECTORY MODEL_DIR AS '/opt/oracle/models/';
GRANT READ, WRITE ON DIRECTORY MODEL_DIR TO vector_user;

步骤3：加载ONNX模型到数据库

连接创建的用户，并导入嵌入模型到数据库中。

DBMS_VECTOR.LOAD_ONNX_MODEL 是Oracle提供的存储过程，用于加载ONNX格式的机器学习模型，可以通过这个存储导入嵌入模型到数据库中。

SYS@FREE> show pdbs;

    CON_ID CON_NAME                       OPEN MODE  RESTRICTED
---------- ------------------------------ ---------- ----------
         3 FREEPDB1                       READ WRITE NO
SYS@FREE> col algorithm for a50
SYS@FREE> aol mining_funtion for a50
SYS@FREE> col mining_funtion for a50
select model_name, algorithm, mining_function from user_mining_models where model_name = 'ALL_MINILM_L12_V2';
未选定行

SYS@FREE> !ls -lrht /opt/oracle/models
总用量 128M
-rw-r--r--. 1 root root 128M  6月  6 13:33 all_MiniLM_L12_v2.onnx
SYS@FREE> SET SERVEROUTPUT ON;
begin
  2    dbms_vector.drop_onnx_model (
  3      model_name => 'ALL_MINILM_L12_V2',
  4      force => true);
  5    dbms_vector.load_onnx_model (
  6      directory  => 'MODEL_DIR',
  7      file_name  => 'all_MiniLM_L12_v2.onnx',
  8      model_name => 'ALL_MINILM_L12_V2');
  9  end;
 10  /

PL/SQL 过程已成功完成。
SYS@FREE> SET SERVEROUTPUT OFF;
SYS@FREE> select model_name, algorithm, mining_function from user_mining_models where model_name = 'ALL_MINILM_L12_V2';

MODEL_NAME
------------------------------------------------------------------------------------------------------------------------
ALGORITHM                                          MINING_FUNCTION
-------------------------------------------------- ------------------------------
ALL_MINILM_L12_V2
ONNX                                               EMBEDDING

参数说明：

dbms_vector.drop_onnx_model ：删除数据库中的同名模型。

dbms_vector.load_onnx_model ：加载ONNX格式的机器学习模型。

directory => 'model_dir'：指定数据库目录对象（Directory Object），需提前创建并授权访问。

file_name => 'all_MiniLM_L12_v2.onnx'：模型文件名。

model_name => 'ALL_MINILM_L12_V2'：模型在数据库中的注册名称。

步骤4. 验证使用数据库中的embedding模型的有效性

可以通过VECTOR_EMBEDDING调用嵌入模型将非结构化文本转换为高维向量，用于支持语义相似性搜索。

VECTOR_EMBEDDING 函数语法结构：

VECTOR_EMBEDDING ( [ schema.] model_name USING mining_attribute_clause )

SYS@FREE>  SELECT VECTOR_EMBEDDING(ALL_MINILM_L12_V2 USING 'test模型向量化的有效性' as DATA) AS embedding;

EMBEDDING
------------------------------------------------------------------------------------------------------------------------
[2.66404985E-003,9.65440422E-002,-1.35087622E-002,-5.54944314E-002,

SYS@FREE> set linesize 300
SYS@FREE> set pagesize 300
SYS@FREE> set long 1000000
SYS@FREE> select model_name, algorithm, mining_function from user_mining_models where model_name = 'ALL_MINILM_L12_V2';

MODEL_NAME                                                                                                                       ALGORITHM                                           MINING_FUNCTION
-------------------------------------------------------------------------------------------------------------------------------- -------------------------------------------------- ------------------------------
ALL_MINILM_L12_V2                                                                                                                ONNX       EMBEDDING

SYS@FREE>  SELECT VECTOR_EMBEDDING(ALL_MINILM_L12_V2 USING 'test模型向量化的有效性' as DATA) AS embedding;

EMBEDDING
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
[2.66404985E-003,9.65440422E-002,-1.35087622E-002,-5.54944314E-002,-4.43398356E-002,2.62922514E-002,2.59053931E-002,-7.91817252E-003,-9.61533338E-002,-5.10287704E-003,9.70973819E-002,-4.75466549E-002,9.48436558E-002,-2.00812109E-002,-1.11816991E-002,3.50039313E-003,2.49711871E-002,-4.08663116E-002,-
1.09921098E-002,1.97709594E-002,-4.39038612E-002,-1.07046172E-001,3.40610854E-002,1.17250914E-002,-7.20420256E-002,-4.8628971E-003,4.66601141E-002,-6.6996634E-002,1.15193594E-002,-1.86132006E-002,6.65622903E-003,1.11891717E-001,2.63250824E-002,-3.45257223E-002,2.68428884E-002,-1.63987558E-002,-2.753
36318E-002,-4.55752388E-002,3.59995365E-002,-2.89271609E-003,1.96910854E-002,-1.21251133E-003,1.0335011E-001,4.18214463E-002,6.89237565E-002,5.2454304E-002,6.04937077E-002,-6.6135779E-002,-9.3136644E-003,-3.22942957E-002,-5.8344584E-002,-3.99274416E-002,8.9949511E-002,9.88921244E-003,-2.11505666E-00

五、生成向量嵌入的SQL实操

场景1：文本转向量

-- 创建测试表
CREATE TABLE testdocs (
  id NUMBER PRIMARY KEY,
  content CLOB
);

INSERT INTO testdocs VALUES (1, 'Oracle AI Vector Search revolutionizes data querying');
INSERT INTO testdocs VALUES (2, '机器学习模型需要高质量的数据嵌入');

-- 生成向量嵌入
ALTER TABLE testdocs ADD (embedding VECTOR(384));

UPDATE testdocs d
SET embedding = VECTOR_EMBEDDING(
  MINILM_MODEL USING d.content
);

场景2：相似性搜索

SELECT id, content, 
       VECTOR_DISTANCE(
         embedding, 
         VECTOR_EMBEDDING(MINILM_MODEL USING 'AI data processing'),
         COSINE
       ) AS similarity
FROM testdocs
ORDER BY similarity DESC;



--   --------------------------------------   ----------
1    Oracle AI Vector Search...                0.872
2    机器学习模型...                           0.215

六、常见错误解决方案

ORA-40200：模型加载失败

-- 检查模型访问权限
SELECT directory_path 
FROM ALL_DIRECTORIES 
WHERE directory_name = 'MODEL_DIR';


chmod -R 755 /opt/oracle/models

ORA-56904：向量维度不匹配
修复：调整表列定义 VECTOR(384)

-- 检查模型输出维度
SELECT vector_dimension 
FROM USER_VECTOR_MODELS 
WHERE model_name = 'ALL_MINILM_L12_V2';

CPU资源超限优化：限制并发请求数

-- 监控资源使用
SELECT * FROM VECTOR_RESOURCE_USAGE;

TIPS：所有操作需在Oracle 23ai Free版限制内进行，建议生产环境使用企业版突破资源限制。此次实现Oracle 23ai的向量嵌入功能，将非结构化数据转化为可分析的语义向量，为AI搜索和分析奠定基础。

12-Oracle 23ai Vector 使用ONNX模型生成向量嵌入

一、Oracle 23ai Vector Embeddings 核心概念​

二、关于Vector Generator

​三、环境准备（基于Oracle 23ai Free版，安装模式参考前文）

8-Oracle23 ai free True Cache OL9.6上部署和实操-已验证-CSDN博客​​

四、准备ONNX模型​

步骤2：数据库环境配置​

步骤3：加载ONNX模型到数据库​