import torch from joblib import dump, load import torch.utils.data as Data import numpy as np import pandas as pd import torch import torch.nn as nn # 参数与配置 torch.manual_seed(100) # 设置随机种子，以使实验结果具有可重复性 # 加载数据集 def dataloader(batch_size, workers=0): # 训练集 train_xdata = load('train_features_1024_10c') train_ylabel = load('trainY_1024_10c') # 验证集 val_xdata = load('val_features_1024_10c') val_ylabel = load('valY_1024_10c') # 测试集 test_xdata = load('test_features_1024_10c') test_ylabel = load('testY_1024_10c') # 加载数据 train_loader = Data.DataLoader(dataset=Data.TensorDataset(train_xdata, train_ylabel), batch_size=batch_size, shuffle=True, num_workers=workers, drop_last=True) val_loader = Data.DataLoader(dataset=Data.TensorDataset(val_xdata, val_ylabel), batch_size=batch_size, shuffle=True, num_workers=workers, drop_last=True) test_loader = Data.DataLoader(dataset=Data.TensorDataset(test_xdata, test_ylabel), batch_size=batch_size, shuffle=True, num_workers=workers, drop_last=True) return train_loader, val_loader, test_loader #DataLoader:数据集装载进DataLoaer，然后送入深度学习网络进行训练 batch_size = 32 # 加载数据 train_loader, val_loader, test_loader = dataloader(batch_size) #train_loader,制作的数据集,包括(综合数据集,标签) 给出代码中BiLSTM的结构

from collections import Counter import numpy as np import pandas as pd import torch import matplotlib.pyplot as plt from sklearn.metrics import accuracy_score, classification_report from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.svm import SVC from torch.utils.data import DataLoader, Dataset from tqdm import tqdm from transformers import AutoTokenizer, BertModel import joblib from sklearn.metrics import confusion_matrix import seaborn as sns # 1. ====================== 配置参数 ====================== MODEL_PATH = r'D:\pythonProject5\bert-base-chinese' BATCH_SIZE = 64 MAX_LENGTH = 128 SAVE_DIR = r'D:\pythonProject5\BSVMC_model' DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu") # 2. ====================== 数据加载与划分 ====================== def load_data(file_path): """加载并预处理数据""" df = pd.read_csv(file_path).dropna(subset=['text', 'label']) texts = df['text'].astype(str).str.strip().tolist() labels = df['label'].astype(int).tolist() return texts, labels # 加载原始数据 texts, labels = load_data("train3.csv") # 第一次拆分：分出测试集（20%） train_val_texts, test_texts, train_val_labels, test_labels = train_test_split( texts, labels, test_size=0.2, stratify=labels, random_state=42 ) # 第二次拆分：分出训练集（70%）和验证集（30% of 80% = 24%） train_texts, val_texts, train_labels, val_labels = train_test_split( train_val_texts, train_val_labels, test_size=0.3, # 0.3 * 0.8 = 24% of original stratify=train_val_labels, random_state=42 ) # 3. ====================== 文本编码 ====================== tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH) def encode_texts(texts): return tokenizer( texts, truncation=True, padding="max_length", max_length=MAX_LENGTH, return_tensors="pt" ) # 编码所有数据集 train_encodings = encode_texts(train_texts) val_encodings = encode_texts(val_texts) test_encodings = encode_texts(test_texts) # 4. ====================== 数据集类 ====================== class TextDataset(Dataset): def init(self, encodings, labels): self.encodings = encodings self.labels = labels def getitem(self, idx): return { 'input_ids': self.encodings['input_ids'][idx], 'attention_mask': self.encodings['attention_mask'][idx], 'labels': torch.tensor(self.labels[idx]) } def len(self): return len(self.labels) # 创建所有数据集加载器 train_dataset = TextDataset(train_encodings, train_labels) val_dataset = TextDataset(val_encodings, val_labels) test_dataset = TextDataset(test_encodings, test_labels) train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True) val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE, shuffle=False) test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False) # 5. ====================== 特征提取 ====================== def extract_features(bert_model, dataloader): """使用BERT提取CLS特征""" bert_model.eval() all_features = [] all_labels = [] with torch.no_grad(): for batch in tqdm(dataloader, desc="提取特征"): inputs = {k: v.to(DEVICE) for k, v in batch.items() if k != 'labels'} outputs = bert_model(**inputs) features = outputs.last_hidden_state[:, 0, :].cpu().numpy() all_features.append(features) all_labels.append(batch['labels'].numpy()) return np.vstack(all_features), np.concatenate(all_labels) # 加载并冻结BERT模型 bert_model = BertModel.from_pretrained(MODEL_PATH).to(DEVICE) for param in bert_model.parameters(): param.requires_grad = False # 提取所有特征 print("\n" + "=" * 30 + " 特征提取阶段 " + "=" * 30) train_features, train_labels = extract_features(bert_model, train_loader) val_features, val_labels = extract_features(bert_model, val_loader) test_features, test_labels = extract_features(bert_model, test_loader) # 6. ====================== 特征预处理 ====================== scaler = StandardScaler() train_features = scaler.fit_transform(train_features) # 只在训练集上fit val_features = scaler.transform(val_features) test_features = scaler.transform(test_features) # 7. ====================== 训练SVM ====================== print("\n" + "=" * 30 + " 训练SVM模型 " + "=" * 30) svm_model = SVC( kernel='rbf', C=1.0, gamma='scale', probability=True, random_state=42 ) svm_model.fit(train_features, train_labels) # 8. ====================== 评估模型 ====================== def evaluate(features, labels, model, dataset_name): preds = model.predict(features) acc = accuracy_score(labels, preds) print(f"\n[{dataset_name}] 评估结果：") print(f"准确率：{acc:.4f}") print(classification_report(labels, preds, digits=4)) return preds print("\n训练集评估：") _ = evaluate(train_features, train_labels, svm_model, "训练集") print("\n验证集评估：") val_preds = evaluate(val_features, val_labels, svm_model, "验证集") print("\n测试集评估：") test_preds = evaluate(test_features, test_labels, svm_model, "测试集") # 9. ====================== 保存模型 ====================== def save_pipeline(): """保存完整模型管道""" # 创建保存目录 import os os.makedirs(SAVE_DIR, exist_ok=True) # 保存BERT相关 bert_model.save_pretrained(SAVE_DIR) tokenizer.save_pretrained(SAVE_DIR) # 保存SVM和预处理 joblib.dump(svm_model, f"{SAVE_DIR}/svm_model.pkl") joblib.dump(scaler, f"{SAVE_DIR}/scaler.pkl") # 保存标签映射（假设标签为0: "中性", 1: "正面", 2: "负面"） label_map = {0: "中性", 1: "正面", 2: "负面"} joblib.dump(label_map, f"{SAVE_DIR}/label_map.pkl") print(f"\n模型已保存至 {SAVE_DIR} 目录") save_pipeline() # 10. ===================== 可视化 ====================== plt.figure(figsize=(15, 5)) # 决策值分布 plt.subplot(1, 2, 1) plt.plot(svm_model.decision_function(train_features[:100]), 'o', alpha=0.5) plt.title("训练集前100样本决策值分布") plt.xlabel("样本索引") plt.ylabel("决策值") # 生成混淆矩阵 cm = confusion_matrix(y_true=test_labels, y_pred=test_preds) # 可视化 plt.figure(figsize=(10, 7)) sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['0', '1', '2'], yticklabels=['0', '1', '2']) plt.xlabel('Predicted label') plt.ylabel('True label') plt.title('confusion matrix') plt.show() # 准确率对比 plt.subplot(1, 2, 2) accuracies = [ accuracy_score(train_labels, svm_model.predict(train_features)), accuracy_score(val_labels, val_preds), accuracy_score(test_labels, test_preds) ] labels = ['train', 'Validation', 'test'] plt.bar(labels, accuracies, color=['blue', 'orange', 'green']) plt.ylim(0, 1) plt.title("Comparison of accuracy rates for each dataset") plt.ylabel("Accuracy rate") plt.tight_layout() plt.show()画一下我的模型架构图

with torch.no_grad(): outputs = model(**inputs) features = outputs.last_hidden_state[:,0,:].numpy() # [CLS]向量 # SVM分类 svm = SVC(kernel='rbf') svm.fit(features, labels) ### 三、架构图绘制...

我有1万条以内的富含图片语义的向量样本和标签对。格式如下：每个样本都是Python列表的格式，如：[1.2,0.2,-1.9,……,-12.0,3.01,-3.1]，每个都是由400个float类型的元素组成，可以通过Python代码操作它们。标签是英文字符串fruit或not_fruit，表明向量对应的图片含水果或者不含水果。我在电脑上编写了一些文件用于从指定文件夹加载图片并获得向量，使用方法如下： python from local_data_utils import load_image_feature_vectors_labels_from def example_for_load_image_feature_vectors_labels_from() -> None: image_dir = 'refunds' label_file = 'refunds_info.json' for image_feature_vector, label in load_image_feature_vectors_labels_from(image_dir, label_file): print(image_feature_vector, label) if name == 'main': example_for_load_image_feature_vectors_labels_from() 你帮我修改以上脚本，利用SVM来做分类。如果需pip来安装对应的包的话，你可以跟我说怎么安装。另外我本地安装了这些包，如果够用也可以不用pip来安装别的包： $ python -m pip freeze annotated-types==0.7.0 anyio==4.8.0 asgiref==3.8.1 backoff==2.2.1 bcrypt==4.2.1 blinker==1.9.0 build==1.2.2.post1 cachetools==5.5.1 certifi==2025.1.31 charset-normalizer==3.4.1 chroma-hnswlib==0.7.6 chromadb==0.6.3 click==8.1.8 colorama==0.4.6 coloredlogs==15.0.1 contourpy==1.3.1 cycler==0.12.1 Deprecated==1.2.18 durationpy==0.9 fastapi==0.115.8 filelock==3.17.0 Flask==3.1.0 flatbuffers==25.2.10 fonttools==4.56.0 fsspec==2025.2.0 google-auth==2.38.0 googleapis-common-protos==1.67.0 grpcio==1.70.0 h11==0.14.0 httpcore==1.0.7 httptools==0.6.4 httpx==0.28.1 huggingface-hub==0.28.1 humanfriendly==10.0 idna==3.10 ImageHash==4.3.2 importlib_metadata==8.5.0 importlib_resources==6.5.2 itsdangerous==2.2.0 Jinja2==3.1.5 joblib==1.4.2 kiwisolver==1.4.8 kubernetes==32.0.0 markdown-it-py==3.0.0 MarkupSafe==3.0.2 matplotlib==3.10.1 mdurl==0.1.2 mmh3==5.1.0 monotonic==1.6 mpmath==1.3.0 networkx==3.4.2 numpy==2.1.1 oauthlib==3.2.2 onnxruntime==1.20.1 opencv-python==4.11.0.86 opentelemetry-api==1.30.0 opentelemetry-exporter-otlp-proto-common==1.30.0 opentelemetry-exporter-otlp-proto-grpc==1.30.0 opentelemetry-instrumentation==0.51b0 opentelemetry-instrumentation-asgi==0.51b0 opentelemetry-instrumentation-fastapi==0.51b0 opentelemetry-proto==1.30.0 opentelemetry-sdk==1.30.0 opentelemetry-semantic-conventions==0.51b0 opentelemetry-util-http==0.51b0 orjson==3.10.15 overrides==7.7.0 packaging==24.2 pandas==2.2.3 pillow==11.1.0 posthog==3.14.1 protobuf==5.29.3 psutil==7.0.0 py-cpuinfo==9.0.0 pyasn1==0.6.1 pyasn1_modules==0.4.1 pydantic==2.10.6 pydantic_core==2.27.2 Pygments==2.19.1 pyparsing==3.2.1 PyPika==0.48.9 pyproject_hooks==1.2.0 pyreadline3==3.5.4 python-dateutil==2.9.0.post0 python-dotenv==1.0.1 pytz==2025.1 PyWavelets==1.8.0 PyYAML==6.0.2 regex==2024.11.6 requests==2.32.3 requests-oauthlib==2.0.0 rich==13.9.4 rsa==4.9 safetensors==0.5.2 scikit-learn==1.6.1 scipy==1.15.2 seaborn==0.13.2 shellingham==1.5.4 six==1.17.0 sniffio==1.3.1 starlette==0.45.3 sympy==1.13.1 tenacity==9.0.0 threadpoolctl==3.5.0 timm==1.0.14 tokenizers==0.21.0 torch==2.6.0 torchvision==0.21.0 tqdm==4.67.1 transformers==4.49.0 typer==0.15.1 typing_extensions==4.12.2 tzdata==2025.1 ultralytics==8.3.85 ultralytics-thop==2.0.14 urllib3==2.3.0 uvicorn==0.34.0 watchfiles==1.0.4 websocket-client==1.8.0 websockets==15.0 Werkzeug==3.1.3 wrapt==1.17.2 zipp==3.21.0

from local_data_utils import load_image_feature_vectors_labels_from from sklearn.model_selection import train_test_split from sklearn.svm import SVC from sklearn.metrics import accuracy_score, ...

PS C:\Users\续柏> & C:/Users/续柏/AppData/Local/Microsoft/WindowsApps/python3.11.exe c:/Users/续柏/Desktop/b1.py File "c:\Users\续柏\Desktop\b1.py", line 298 plt.imshow(np.transpose(img.numpy(), (1, 2, 0)) # 反标准化仅用于显示 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ SyntaxError: invalid syntax. Perhaps you forgot a comma? PS C:\Users\续柏>

我们遇到的问题是SyntaxError:...from torch.utils.data import Dataset, DataLoader # 数据集配置 DATA_PATH = 'D:/flower_photos/flower_photos' CLASSES = ['daisy', 'dandelion', 'roses', 'sunflowers', 'tulips...

torch保存数据集

from torch.utils.data import DataLoader, TensorDataset # 假设已加载张量数据 features = torch.load('features.pt') labels = torch.load('labels.pt') # 创建TensorDataset new_dataset = TensorDataset...

《门户网站对比》.ppt

langchain4j-community-xinference-spring-boot-starter-1.0.0-beta2.jar中文文档.zip

1、压缩文件中包含：中文文档、jar包下载地址、Maven依赖、Gradle依赖、源代码下载地址。 2、使用方法：解压最外层zip，再解压其中的zip包，双击【index.html】文件，即可用浏览器打开、进行查看。 3、特殊说明：（1）本文档为人性化翻译，精心制作，请放心使用；（2）只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等；（3）不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 4、温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件。 5、本文件关键字： jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册。

中职计算机教学大纲(1).docx

《Excel-电子表格制作案例教程》居民消费指数(图表).xlsx

【精品编辑参考】P2P网络借贷风险表现、成因及监管措施.doc

《大自然语言》课件.ppt

我的前端资源,前端源码

langchain4j-community-vearch-1.0.1-beta6.jar中文文档.zip

1、压缩文件中包含：中文文档、jar包下载地址、Maven依赖、Gradle依赖、源代码下载地址。 2、使用方法：解压最外层zip，再解压其中的zip包，双击【index.html】文件，即可用浏览器打开、进行查看。 3、特殊说明：（1）本文档为人性化翻译，精心制作，请放心使用；（2）只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等；（3）不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 4、温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件。 5、本文件关键字： jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册。

C# usb扫码枪winform读取扫码枪信息，获取USB扫描枪数据

中国地图的js文件(export的json)

直接import引入json文件，然后调用echarts.registerMap("china", china)注册地图

【推荐下载】电脑壁纸软件哪个好用如何设置动态壁纸.pdf

相关推荐

Pycharm中import torch报错的快速解决方法

python torch.utils.data.DataLoader使用方法

解决PyCharm import torch包失败的问题

torch保存数据集

《门户网站对比》.ppt

langchain4j-community-xinference-spring-boot-starter-1.0.0-beta2.jar中文文档.zip

中职计算机教学大纲(1).docx

《Excel-电子表格制作案例教程》居民消费指数(图表).xlsx

【精品编辑参考】P2P网络借贷风险表现、成因及监管措施.doc

《大自然语言》课件.ppt

我的前端资源,前端源码

langchain4j-community-vearch-1.0.1-beta6.jar中文文档.zip

C# usb扫码枪winform读取扫码枪信息，获取USB扫描枪数据

中国地图的js文件(export的json)

【推荐下载】电脑壁纸软件哪个好用如何设置动态壁纸.pdf

大家在看

mssdk10130048en MsSDK u14

matlab 伪距单点定位

libssl-1_1-x64.zip

Aptra NDC Reference manual

的表中所-数据结构中文版

最新推荐

《门户网站对比》.ppt

langchain4j-community-xinference-spring-boot-starter-1.0.0-beta2.jar中文文档.zip

中职计算机教学大纲(1).docx

《Excel-电子表格制作案例教程》居民消费指数(图表).xlsx

【精品编辑参考】P2P网络借贷风险表现、成因及监管措施.doc

C++实现的DecompressLibrary库解压缩GZ文件

【数据融合技术】：甘肃土壤类型空间分析中的专业性应用

VM ware如何查看软件版本信息

数据库课程设计报告：常用数据库综述

【空间分布规律】：甘肃土壤类型与农业生产的关联性研究