import pandas as pd # 定义标背景框色函数 def background_color(val): color = 'red' if val < 60 else 'yellow' if val < 80 else 'green' return { 'background-color': color, 'border': '1px solid black' } # 创建DataFrame df = pd.DataFrame({ 'name': ['Alice', 'Bob', 'Charlie', 'David'], 'score': [70, 55, 85, 90] }) # 创建Styler对象并应用标背景框色函数 styler = df.style.applymap(background_color, subset=['score']) styler too many values to unpack (expected 2)

时间: 2023-08-18 07:08:00 浏览: 130
这个错误是因为在执行`background_color`函数时返回的字典格式不正确。`background_color`函数应该返回一个包含两个元素的元组,第一个元素是字符串格式的CSS样式,第二个元素是None。具体来说,你需要将函数的返回值改为`return ('background-color: {}; border: 1px solid black'.format(color), None)`。修改后的代码如下: ```python import pandas as pd # 定义标背景框色函数 def background_color(val): color = 'red' if val < 60 else 'yellow' if val < 80 else 'green' return ('background-color: {}; border: 1px solid black'.format(color), None) # 创建DataFrame df = pd.DataFrame({ 'name': ['Alice', 'Bob', 'Charlie', 'David'], 'score': [70, 55, 85, 90] }) # 创建Styler对象并应用标背景框色函数 styler = df.style.applymap(background_color, subset=['score']) styler ``` 这样就可以正确执行了。
相关问题

def cal_linear(iaqi_lo, iaqi_hi, bp_lo, bp_hi, cp): """ 范围缩放 """ iaqi = (iaqi_hi - iaqi_lo) * (cp - bp_lo) / (bp_hi - bp_lo) + iaqi_lo return iaqi def cal_pm25_iaqi(pm25_val): """ PM2.5的iaqi计算函数 """ if 0 <= pm25_val < 36: iaqi1 = cal_linear(0, 50, 0, 35, pm25_val) elif 36 <= pm25_val < 76: iaqi1 = cal_linear(50, 100, 35, 75, pm25_val) elif 76 <= pm25_val < 116: iaqi1 = cal_linear(100, 150, 75, 115, pm25_val) elif 116 <= pm25_val < 151: iaqi1 = cal_linear(150, 200, 115, 150, pm25_val) elif 151 <= pm25_val < 251: iaqi1 = cal_linear(200, 300, 150, 250, pm25_val) elif 251 <= pm25_val < 351: iaqi1 = cal_linear(300, 400, 250, 350, pm25_val) elif 351 <= pm25_val < 501: iaqi1 = cal_linear(400, 500, 350, 500, pm25_val) return iaqi1 def cal_pm10_iaqi(pm10_val): """ CO的iaqi计算函数 """ if 0 <= pm10_val < 51: iaqi2 = cal_linear(0, 50, 0, 50, pm10_val) elif 51 <= pm10_val < 151: iaqi2 = cal_linear(50, 100, 50, 150, pm10_val) elif 151 <= pm10_val < 251: iaqi2 = cal_linear(100, 150, 150, 250, pm10_val) elif 251 <= pm10_val < 351: iaqi2 = cal_linear(150, 200, 250, 350, pm10_val) elif 351 <= pm10_val < 421: iaqi2 = cal_linear(200, 300, 350, 420, pm10_val) elif 421 <= pm10_val < 501: iaqi2 = cal_linear(300, 400, 420, 500, pm10_val) elif 501 <= pm10_val < 601: iaqi2 = cal_linear(400, 500, 500, 600, pm10_val) return iaqi2 pm25_value = dust_weather_data['pm2.5'] pm10_value = dust_weather_data['pm10'] pm25_iaqi = cal_pm25_iaqi(pm25_value) pm10_iaqi = cal_pm10_iaqi(pm10_val) aqi = max(iaqi1,iaqi2)出错,The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

在你的代码中,出现了相同的错误。这是因为在计算aqi时,你尝试将Series对象(iaqi1和iaqi2)与标量值进行比较,导致了"The truth value of a Series is ambiguous"错误。 要解决这个问题,你需要使用逐元素的比较运算符来比较Series对象中的每个元素。在这种情况下,你可以使用Series对象的.max()方法来找到iaqi1和iaqi2中的最大值。 请修改以下代码: ```python aqi = max(iaqi1, iaqi2) ``` 为: ```python aqi = pd.Series([iaqi1, iaqi2]).max() ``` 这样就可以避免出现"The truth value of a Series is ambiguous"错误,并找到iaqi1和iaqi2中的最大值作为aqi。请确保在使用该代码之前导入pandas库(import pandas as pd)以使用pd.Series()方法。

``` import os import pandas as pd import numpy as np from sklearn.model_selection import train_test_split # 加载函数保持不变 def processTarget(): main_folder = 'C:/Users/Lenovo/Desktop/crcw不同端12k在0负载下/风扇端' data_list = [] label_list = [] for folder_name in sorted(os.listdir(main_folder)): folder_path = os.path.join(main_folder, folder_name) if os.path.isdir(folder_path): csv_files = [f for f in os.listdir(folder_path) if f.endswith('.csv')] print(f"Processing folder: {folder_name}, found {len(csv_files)} CSV files.") for filename in sorted(csv_files): file_path = os.path.join(folder_path, filename) csv_data = pd.read_csv(file_path, header=None) if csv_data.shape[1] >= 4: csv_data = csv_data.iloc[:, [0, 1, 2]].values else: print(f"Skipping file {filename}, unexpected shape: {csv_data.shape}") continue data_list.append(csv_data) if '内圈故障' in folder_name: class_label = 0 elif '球故障' in folder_name: class_label = 1 else: continue label_list.append(class_label) if data_list and label_list: data = np.array(data_list) # Shape: (num_samples, seq_length, num_features) labels = np.array(label_list) # Shape: (num_samples,) return data, labels else: raise ValueError("No valid data available to process.") # 划分数据集 def split_datasets(X, y, test_size=0.2, val_size=0.25): """ :param X: 特征数据数组 :param y: 标签数组 :param test_size: 测试集占比,默认值为 0.2(即 80% 训练 + 验证) :param val_size: 验证集占剩余训练数据的比例,默认值为 0.25 """ X_train_val, X_test, y_train_val, y_test = train_test_split( X, y, test_size=test_size, stratify=y, random_state=42 ) # 继续从剩下的数据中切出 validation set X_train, X_val, y_train, y_val = train_test_split( X_train_val, y_train_val, test_size=val_size, stratify=y_train_val, random_state=42 ) return X_train, X_val, X_test, y_train, y_val, y_test if __name__ == "__main__": try: data0, label0 = processTarget() # 分割成训练集、验证集和测试集 X_train, X_val, X_test, y_train, y_val, y_test = split_datasets(data0, label0) print("Training Set:", X_train.shape, y_train.shape) print("Validation Set:", X_val.shape, y_val.shape) print("Testing Set:", X_test.shape, y_test.shape) # 存储结果以便后续步骤使用 np.savez('datasets.npz', X_train=X_train, y_train=y_train, X_val=X_val, y_val=y_val, X_test=X_test, y_test=y_test) except ValueError as e: print(e)```这是我将数据集划分训练集,测试集,验证集的代码,现在,我要在这个代码的基础上对该数据集运用DEEP DOMAIN CONFUSION进行处理,可以给出完整的代码吗?要求:划分数据集和DEEP DOMAIN CONFUSION分为两个不同的文件

好的!下面是基于您提供的代码,在另一个文件中实现 **Deep Domain Confusion (DDC)** 的完整解决方案,并将数据集划分部分与 DDC 实现分离到两个独立的 Python 文件中。 --- ### 第一步:`data_preparation.py` 这个文件负责加载和分割数据集: ```python # data_preparation.py import os import pandas as pd import numpy as np from sklearn.model_selection import train_test_split def process_target(): main_folder = 'C:/Users/Lenovo/Desktop/crcw不同端12k在0负载下/风扇端' data_list = [] label_list = [] for folder_name in sorted(os.listdir(main_folder)): folder_path = os.path.join(main_folder, folder_name) if os.path.isdir(folder_path): csv_files = [f for f in os.listdir(folder_path) if f.endswith('.csv')] print(f"Processing folder: {folder_name}, found {len(csv_files)} CSV files.") for filename in sorted(csv_files): file_path = os.path.join(folder_path, filename) csv_data = pd.read_csv(file_path, header=None) if csv_data.shape[1] >= 4: csv_data = csv_data.iloc[:, [0, 1, 2]].values else: print(f"Skipping file {filename}, unexpected shape: {csv_data.shape}") continue data_list.append(csv_data) if '内圈故障' in folder_name: class_label = 0 elif '球故障' in folder_name: class_label = 1 else: continue label_list.append(class_label) if data_list and label_list: data = np.array(data_list) # Shape: (num_samples, seq_length, num_features) labels = np.array(label_list) # Shape: (num_samples,) return data, labels else: raise ValueError("No valid data available to process.") def split_datasets(X, y, test_size=0.2, val_size=0.25): """ 数据集划分函数 参数: - X: 特征数据数组 - y: 标签数组 - test_size: 测试集比例,默认为 0.2 - val_size: 验证集占剩余训练数据的比例,默认为 0.25 """ X_train_val, X_test, y_train_val, y_test = train_test_split( X, y, test_size=test_size, stratify=y, random_state=42 ) X_train, X_val, y_train, y_val = train_test_split( X_train_val, y_train_val, test_size=val_size, stratify=y_train_val, random_state=42 ) return X_train, X_val, X_test, y_train, y_val, y_test if __name__ == "__main__": try: data0, label0 = process_target() # 划分数据集 X_train, X_val, X_test, y_train, y_val, y_test = split_datasets(data0, label0) print("Training Set:", X_train.shape, y_train.shape) print("Validation Set:", X_val.shape, y_val.shape) print("Testing Set:", X_test.shape, y_test.shape) # 将数据保存至 .npz 文件供其他脚本使用 np.savez('datasets.npz', X_train=X_train, y_train=y_train, X_val=X_val, y_val=y_val, X_test=X_test, y_test=y_test) except ValueError as e: print(e) ``` --- ### 第二步:`deep_domain_confusion.py` 此文件实现了 Deep Domain Confusion (DDC),并从 `data_preparation.py` 中生成的数据集中读取内容: ```python # deep_domain_confusion.py import numpy as np import tensorflow as tf from tensorflow.keras.models import Model from tensorflow.keras.layers import Dense, Input, Lambda from tensorflow.keras.optimizers import Adam class DDCLoss(tf.keras.losses.Loss): """自定义损失函数用于计算领域混淆""" def call(self, domain_labels, domain_predictions): mmd_loss = compute_mmd(domain_labels, domain_predictions) return mmd_loss def compute_mmd(source_features, target_features): """ 最大均值差异(MMD)计算公式 MMD^2(P, Q) = || μ_P - μ_Q ||^2 """ source_mean = tf.reduce_mean(source_features, axis=0) target_mean = tf.reduce_mean(target_features, axis=0) return tf.reduce_sum(tf.square(source_mean - target_mean)) def build_model(input_shape): inputs = Input(shape=input_shape) # 共享特征提取层 shared_layer = Dense(64, activation='relu')(inputs) # 分类分支 classification_output = Dense(2, activation='softmax', name="classification")(shared_layer) # 域适应分支 domain_output = Dense(1, activation='sigmoid', name="domain")(shared_layer) model = Model(inputs=inputs, outputs=[classification_output, domain_output]) return model if __name__ == "__main__": # 载入预处理后的数据集 dataset = np.load('datasets.npz') X_train, y_train = dataset['X_train'], dataset['y_train'] X_val, y_val = dataset['X_val'], dataset['y_val'] input_shape = X_train.shape[1:] # 构建模型 model = build_model(input_shape) # 定义优化器和损失函数 optimizer = Adam(learning_rate=0.001) loss_weights = {'classification': 1., 'domain': 0.1} model.compile(optimizer=optimizer, loss={'classification': 'sparse_categorical_crossentropy', 'domain': DDCLoss()}, metrics=['accuracy'], loss_weights=loss_weights) # 模拟域标签(假设前半部分是源域,后半部分是目标域) batch_size = 32 steps_per_epoch = len(X_train) // batch_size def generate_batch(x, y): half_batch = batch_size // 2 while True: # 源域样本 indices_source = np.random.choice(len(y), size=half_batch) x_source = x[indices_source] y_class_source = y[indices_source] d_source = np.zeros((half_batch,)) # 目标域样本 indices_target = np.random.choice(len(y), size=batch_size - half_batch) x_target = x[indices_target] y_class_target = y[indices_target] d_target = np.ones((batch_size - half_batch,)) # 合并批次 x_batch = np.vstack([x_source, x_target]) y_class_batch = np.hstack([y_class_source, y_class_target]) d_batch = np.hstack([d_source, d_target]) yield ({'input_1': x_batch}, {'classification': y_class_batch, 'domain': d_batch}) generator = generate_batch(X_train, y_train) # 训练模型 model.fit(generator, epochs=10, steps_per_epoch=steps_per_epoch, validation_data=(X_val, {"classification": y_val}), verbose=1) # 输出评估结果 scores = model.evaluate(X_val, {"classification": y_val}) print(f"\nValidation Loss: {scores[0]}, Classification Accuracy: {scores[1]}") ``` --- ### 结果说明 - 上述两份代码分别完成了数据准备 (`data_preparation.py`) 和深度域混淆算法的应用 (`deep_domain_confusion.py`)。 - 这种设计保证了模块化开发的理念,便于维护和复用。 ---
阅读全文

相关推荐

import sys import re import jieba import codecs import gensim import numpy as np import pandas as pd def segment(doc: str): stop_words = pd.read_csv('data/stopwords.txt', index_col=False, quoting=3, names=['stopword'], sep='\n', encoding='utf-8') stop_words = list(stop_words.stopword) reg_html = re.compile(r'<[^>]+>', re.S) # 去掉html标签数字等 doc = reg_html.sub('', doc) doc = re.sub('[0-9]', '', doc) doc = re.sub('\s', '', doc) word_list = list(jieba.cut(doc)) out_str = '' for word in word_list: if word not in stop_words: out_str += word out_str += ' ' segments = out_str.split(sep=' ') return segments def doc2vec(file_name, model, doc_id): start_alpha = 0.01 infer_epoch = 1000 doc = segment(codecs.open(file_name, 'r', 'utf-8').read()) return model.infer_vector(doc, alpha=start_alpha, steps=infer_epoch) # 计算两个向量余弦值 def similarity(a_vect, b_vect): dot_val = 0.0 a_norm = 0.0 b_norm = 0.0 cos = None for a, b in zip(a_vect, b_vect): dot_val += a * b a_norm += a ** 2 b_norm += b ** 2 if a_norm == 0.0 or b_norm == 0.0: cos = -1 else: cos = dot_val / ((a_norm * b_norm) ** 0.5) return cos def test_model(file1, file2): print('导入模型') model_path = 'tmp/zhwk_news.doc2vec' model = gensim.models.Doc2Vec.load(model_path) vect1 = doc2vec(file1, model, doc_id=0) # 转成句子向量 vect2 = doc2vec(file2, model, doc_id=1) print(vect1.nbytes) # 查看向量大小 print(vect2.nbytes) cos = similarity(vect1, vect2) print('相似度:%0.2f%%' % (cos * 100)) if __name__ == '__main__': file1 = 'data/corpus_test/t1.txt' file2 = 'data/corpus_test/t2.txt' test_model(file1, file2) 报错AttributeError: 'Doc2Vec' object has no attribute 'dv'怎么解决

import pandas as pd import numpy as np from sklearn.utils import shuffle class MultiColumnAugmenter: def __init__(self, column_configs=[ {'name': '掺氨比', 'base_noise': 0.1, 'max_noise': 0.5,'min_val': 60, 'max_val': 90, 'target_size': 10}, {'name': '主燃区温度', 'base_noise': 10, 'max_noise': 50, 'min_val': 600, 'max_val': 2000, 'target_size': 300} ]): """ 多列数据增强器 :param column_configs: 列配置列表,每列包含: - name: 列名 - base_noise: 基础噪声标准差 - max_noise: 允许的最大噪声绝对值 - min_val/max_val: 数值物理范围 - target_size: 该列目标样本数 """ self.column_configs = {conf['name']: conf for conf in column_configs} def augment(self, df): """执行多列增强""" # 获取最大目标样本数 max_target = max(conf['target_size'] for conf in self.column_configs.values()) # 原始数据不足时进行增强 if len(df) < max_target: num_needed = max_target - len(df) augmented = df.sample(n=num_needed, replace=True, random_state=42) # 逐列添加噪声 for col_conf in self.column_configs.values(): col = col_conf['name'] noise = np.clip( np.random.normal(0, col_conf['base_noise'], num_needed), -col_conf['max_noise'], col_conf['max_noise'] ) augmented[col] = np.clip( augmented[col] + noise, col_conf['min_val'], col_conf['max_val'] ) # 合并并打乱 combined_df = pd.concat([df, augmented], ignore_index=True) return shuffle(combined_df) else: return df #========================= 使用示例 =========================# # 读取数据 file_path = r'C:\Users\Administrator\Desktop\掺氨比、燃尽风位置、主燃区温度\原数据.xlsx' df = pd.read_excel(file_path, engine='openpyxl') # 初始化增强器(参数已内置配置) augmenter = MultiColumnAugmenter() # 执行增强(自动按各列target_size处理) augmented_data = augmenter.augment(df) # 保存结果 output_path = r'C:\Users\Administrator\Desktop\掺氨比、燃尽风位置、主燃区温度\主燃区温度扩展300掺氨比扩展10.xlsx' augmented_data.to_excel(output_path, index=False) 代码如何修改能使掺氨比扩展出60、70、80、90的数据

import tensorflow as tf from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, Dropout from tensorflow.keras.optimizers import Adam import numpy as np import glob import pandas as pd # 加载数据函数 def load_dataset(base_folder): datasets = [] labels = [] for category in ['内圈故障', '球故障']: files = glob.glob(f'{base_folder}/{category}/*.csv') for file in files: df = pd.read_csv(file).to_numpy() datasets.append(df.astype(np.float32)) labels.append(category == '内圈故障') # 内圈故障标记为True(1),其他为False(0) return np.vstack(datasets), np.hstack(labels) # 构建分类模型 def build_classifier_model(input_dim): model = Sequential([ Dense(128, activation='relu', input_shape=(input_dim,)), Dropout(0.5), Dense(64, activation='relu'), Dropout(0.5), Dense(1, activation='sigmoid') # 分类任务 ]) model.compile(optimizer=Adam(), loss='binary_crossentropy', metrics=['accuracy']) return model # 构建领域判别器 def build_discriminator_model(input_dim): model = Sequential([ Dense(64, activation='relu', input_shape=(input_dim,)), Dropout(0.5), Dense(1, activation='sigmoid') # 域分类任务 ]) model.compile(optimizer=Adam(), loss='binary_crossentropy', metrics=['accuracy']) return model if __name__ == '__main__': # 载入训练集和验证集的数据 x_train, y_train = load_dataset('./划分后的数据/训练集') x_val, _ = load_dataset('./划分后的数据/验证集') feature_extractor = Sequential([Dense(128, activation='relu'), Dense(64, activation='relu')]) classifier = build_classifier_model(x_train.shape[1]) discriminator = build_discriminator_model(64) combined_input = feature_extractor(x_train[:]) # 提取特征 domain_labels = np.concatenate([np.ones(len(combined_input) // 2), np.zeros(len(combined_input) // 2)]) # 标记来源域 # 训练过程省略...需要交替优化分类损失和域混淆损失 print("Domain adaptation with DDC completed.")这是DDC的相关代码,可以给出查看运行结果的代码吗

from collections import Counter import numpy as np import pandas as pd import torch import matplotlib.pyplot as plt from sklearn.metrics import accuracy_score, classification_report from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.svm import SVC from torch.utils.data import DataLoader, Dataset from tqdm import tqdm from transformers import AutoTokenizer, BertModel import joblib # 1. ====================== 配置参数 ====================== MODEL_PATH = r'D:\pythonProject5\bert-base-chinese' BATCH_SIZE = 64 MAX_LENGTH = 128 SAVE_DIR = r'D:\pythonProject5\BSVMC_model' DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu") # 2. ====================== 数据加载与划分 ====================== def load_data(file_path): """加载并预处理数据""" df = pd.read_csv(file_path).dropna(subset=['text', 'label']) texts = df['text'].astype(str).str.strip().tolist() labels = df['label'].astype(int).tolist() return texts, labels # 加载原始数据 texts, labels = load_data("train3.csv") # 第一次拆分:分出测试集(20%) train_val_texts, test_texts, train_val_labels, test_labels = train_test_split( texts, labels, test_size=0.2, stratify=labels, random_state=42 ) # 第二次拆分:分出训练集(70%)和验证集(30% of 80% = 24%) train_texts, val_texts, train_labels, val_labels = train_test_split( train_val_texts, train_val_labels, test_size=0.3, # 0.3 * 0.8 = 24% of original stratify=train_val_labels, random_state=42 ) # 3. ====================== 文本编码 ====================== tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH) def encode_texts(texts): return tokenizer( texts, truncation=True, padding="max_length", max_length=MAX_LENGTH, return_tensors="pt" ) # 编码所有数据集 train_encodings = encode_texts(train_texts) val_encodings = encode_texts(val_texts) test_encodings = encode_texts(test_texts) # 4. ====================== 数据集类 ====================== class TextDataset(Dataset): def __init__(self, encodings, labels): self.encodings = encodings self.labels = labels def __getitem__(self, idx): return { 'input_ids': self.encodings['input_ids'][idx], 'attention_mask': self.encodings['attention_mask'][idx], 'labels': torch.tensor(self.labels[idx]) } def __len__(self): return len(self.labels) # 创建所有数据集加载器 train_dataset = TextDataset(train_encodings, train_labels) val_dataset = TextDataset(val_encodings, val_labels) test_dataset = TextDataset(test_encodings, test_labels) train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True) val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE, shuffle=False) test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False) # 5. ====================== 特征提取 ====================== def extract_features(bert_model, dataloader): """使用BERT提取CLS特征""" bert_model.eval() all_features = [] all_labels = [] with torch.no_grad(): for batch in tqdm(dataloader, desc="提取特征"): inputs = {k: v.to(DEVICE) for k, v in batch.items() if k != 'labels'} outputs = bert_model(**inputs) features = outputs.last_hidden_state[:, 0, :].cpu().numpy() all_features.append(features) all_labels.append(batch['labels'].numpy()) return np.vstack(all_features), np.concatenate(all_labels) # 加载并冻结BERT模型 bert_model = BertModel.from_pretrained(MODEL_PATH).to(DEVICE) for param in bert_model.parameters(): param.requires_grad = False # 提取所有特征 print("\n" + "=" * 30 + " 特征提取阶段 " + "=" * 30) train_features, train_labels = extract_features(bert_model, train_loader) val_features, val_labels = extract_features(bert_model, val_loader) test_features, test_labels = extract_features(bert_model, test_loader) # 6. ====================== 特征预处理 ====================== scaler = StandardScaler() train_features = scaler.fit_transform(train_features) # 只在训练集上fit val_features = scaler.transform(val_features) test_features = scaler.transform(test_features) # 7. ====================== 训练SVM ====================== print("\n" + "=" * 30 + " 训练SVM模型 " + "=" * 30) svm_model = SVC( kernel='rbf', C=1.0, gamma='scale', probability=True, random_state=42 ) svm_model.fit(train_features, train_labels) # 8. ====================== 评估模型 ====================== def evaluate(features, labels, model, dataset_name): preds = model.predict(features) acc = accuracy_score(labels, preds) print(f"\n[{dataset_name}] 评估结果:") print(f"准确率:{acc:.4f}") print(classification_report(labels, preds, digits=4)) return preds print("\n训练集评估:") _ = evaluate(train_features, train_labels, svm_model, "训练集") print("\n验证集评估:") val_preds = evaluate(val_features, val_labels, svm_model, "验证集") print("\n测试集评估:") test_preds = evaluate(test_features, test_labels, svm_model, "测试集") # 9. ====================== 保存模型 ====================== def save_pipeline(): """保存完整模型管道""" # 创建保存目录 import os os.makedirs(SAVE_DIR, exist_ok=True) # 保存BERT相关 bert_model.save_pretrained(SAVE_DIR) tokenizer.save_pretrained(SAVE_DIR) # 保存SVM和预处理 joblib.dump(svm_model, f"{SAVE_DIR}/svm_model.pkl") joblib.dump(scaler, f"{SAVE_DIR}/scaler.pkl") # 保存标签映射(假设标签为0: "中性", 1: "正面", 2: "负面") label_map = {0: "中性", 1: "正面", 2: "负面"} joblib.dump(label_map, f"{SAVE_DIR}/label_map.pkl") print(f"\n模型已保存至 {SAVE_DIR} 目录") save_pipeline() # 10. ===================== 可视化 ====================== plt.figure(figsize=(15, 5)) # 决策值分布 plt.subplot(1, 2, 1) plt.plot(svm_model.decision_function(train_features[:100]), 'o', alpha=0.5) plt.title("训练集前100样本决策值分布") plt.xlabel("样本索引") plt.ylabel("决策值") # 准确率对比 plt.subplot(1, 2, 2) accuracies = [ accuracy_score(train_labels, svm_model.predict(train_features)), accuracy_score(val_labels, val_preds), accuracy_score(test_labels, test_preds) ] labels = ['train', 'Validation', 'test'] plt.bar(labels, accuracies, color=['blue', 'orange', 'green']) plt.ylim(0, 1) plt.title("Comparison of accuracy rates for each dataset") plt.ylabel("Accuracy rate") plt.tight_layout() plt.show()写一下模型流程和流程图

import os import shutil from sklearn.model_selection import train_test_split import pandas as pd # 定义源目录路径 source_folder = 'C:/Users\Lenovo\Desktop\crcw不同端12k在0负载下\风扇端' subfolders = ["内圈故障", "球故障"] # 创建目标文件夹结构 target_folders = { 'train': '训练集', 'val': '验证集', 'test': '测试集' } os.makedirs('划分后的数据', exist_ok=True) for key, folder in target_folders.items(): for subfolder in subfolders: path = os.path.join('划分后的数据', folder, subfolder) os.makedirs(path, exist_ok=True) # 遍历每个子文件夹并读取CSV文件 all_data = [] for subfolder in subfolders: folder_path = os.path.join(source_folder, subfolder) files = [f for f in os.listdir(folder_path) if f.endswith('.csv')] # 将所有数据加载到列表中 for file in files: data = pd.read_csv(os.path.join(folder_path, file)) all_data.append((data, subfolder)) # 划分数据集 train_val, test = train_test_split(all_data, test_size=0.2, random_state=42) train, val = train_test_split(train_val, test_size=0.25, random_state=42) # 即最终比例为6:2:2 # 移动文件至对应的目标文件夹 def move_files(data_list, target_dir): for data, label in data_list: filename = f"{label}_{hash(str(data.iloc[0].values))}.csv" # 确保唯一性 save_path = os.path.join(target_folders[target_dir], label, filename) data.to_csv(save_path, index=False) move_files(train, 'train') move_files(val, 'val') move_files(test, 'test') print("数据集已成功划分为训练集、验证集和测试集!")这段代码中在哪定义目标文件夹呢

import os import numpy as np import pandas as pd from PIL import Image from torch.optim.lr_scheduler import StepLR from sklearn.metrics import r2_score from torch.utils.data import Dataset, DataLoader from torchvision import transforms import torch import torch.nn as nn import random import torch.optim as optim def RMSE_funnc(actual, predicted): #actual = actual.detach().numpy() predicted = predicted diff = np.subtract(actual, predicted) square = np.square(diff) MSE = square.mean() RMSE = np.sqrt(MSE) return RMSE def seed_torch(seed=16): random.seed(seed) os.environ['PYTHONHASHSEED'] = str(seed) np.random.seed(seed) torch.manual_seed(seed) torch.cuda.manual_seed(seed) #torch.cuda.manual_seed_all(seed) # if you are using multi-GPU. torch.backends.cudnn.benchmark = False torch.backends.cudnn.deterministic = True #torch.backends.cudnn.enabled = False seed_torch() # 数据路径 train_folder = r"E:\xyx\GASF_images\PG\train" pre_folder = r"E:\xyx\GASF_images\PG\pre" val_folder = r"E:\xyx\GASF_images\PG\val" train_excel = r"E:\xyx\随机数据集\PG\798\train_data_PG.csv" pre_excel = r"E:\xyx\随机数据集\PG\798\test_data_PG.csv" val_excel = r"E:\xyx\随机数据集\PG\798\val_data_PG.csv" class FruitSugarDataset(Dataset): def __init__(self, image_folder, excel_file, transform=None): self.data = pd.read_csv(excel_file, header=None) self.image_folder = image_folder # self.transform = transform def __len__(self): return len(self.data) def __getitem__(self, idx): row = self.data.iloc[idx] img_name = f"{int(row[0])}.png" # 第一列是图像文件名 label = row.iloc[-1] # 标签为最后一列 img_path = os.path.join(self.image_folder, img_name) if not os.path.exists(img_path): raise FileNotFoundError(f"Image file {img_name} not found in {self.image_folder}") # img = Image.open(img_path).convert("RGB") # if self.transform: # img = self.transform(im

大家在看

recommend-type

PyPDF2-1.26.0.tar.gz

Python库是一组预先编写的代码模块,旨在帮助开发者实现特定的编程任务,无需从零开始编写代码。这些库可以包括各种功能,如数学运算、文件操作、数据分析和网络编程等。Python社区提供了大量的第三方库,如NumPy、Pandas和Requests,极大地丰富了Python的应用领域,从数据科学到Web开发。Python库的丰富性是Python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,Matplotlib和Seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。
recommend-type

历年高考录取分数线数据python爬虫

历年高考录取分数线数据,使用语言: python3.7 ,原生爬虫代码,练手项目,适合学习 python3 的程序员研究学习参考。
recommend-type

pppd进程详解

pppd 源码 流程 详解
recommend-type

Shell63,Solid45,Fluid30 Fortran代码

该程序按照http://blog.csdn.net/zc02051126 有限元算法1-3实现
recommend-type

基于ADS的微带滤波器设计

微波滤波器是用来分离不同频率微波信号的一种器件。它的主要作用是抑制不需要的信号,使其不能通过滤波器,只让需要的信号通过。在微波电路系统中,滤波器的性能对电路的性能指标有很大的影响,因此如何设计出一个具有高性能的滤波器,对设计微波电路系统具有很重要的意义。

最新推荐

recommend-type

C++面试干货---带你梳理常考的面试题(二).docx

C++面试干货---带你梳理常考的面试题(二).docx
recommend-type

乐谱符号转码:CTF中MIDI事件的时值到ASCII转换.pdf

文档支持目录章节跳转同时还支持阅读器左侧大纲显示和章节快速定位,文档内容完整、条理清晰。文档内所有文字、图表、函数、目录等元素均显示正常,无任何异常情况,敬请您放心查阅与使用。文档仅供学习参考,请勿用作商业用途。 从隐写术到编码转换,从音频隐写到文件结构分析,CTF-Misc 教会你用技术的眼睛发现数据中的「彩蛋」。掌握 Stegsolve、CyberChef、Audacity 等工具,合法破解摩斯密码、二维码、LSB 隐写,在虚拟战场中提升网络安全意识与技术能力。记住:所有技术仅用于学习与竞赛!
recommend-type

上市公司-全要素生产率1999-2024年.xlsx

数据名称:上市公司全要素生产率+dofile5种测算 数据范围:上市公司 时间范围:1999-2024年 有效样本:59722条 数据来源:上市公司年报 数据整理:内含原始数据、测算结果和dofile 更新时间:2025年5月 更多说明:含OLS、FE、LP、OP、GMM 5种TFP测算方法
recommend-type

PP-OCRv5-mobile-cls-onnx.onnx

PP-OCRv5_mobile_cls_onnx.onnx
recommend-type

前端开发TypeScript入门与实战导论:提升JavaScript开发效率与代码质量的关键技术解析

内容概要:本文详细介绍了TypeScript的基础概念、关键特性和应用场景。首先阐述了TypeScript作为JavaScript的超集,通过引入静态类型系统来增强代码的健壮性和可维护性。接着分析了TypeScript相比JavaScript的优势,如编译期类型检查、强大的IDE支持等。文中列举了TypeScript的关键特性,包括类型注解、接口、泛型、枚举等,并给出简单的代码示例展示其使用方法。此外,还介绍了TypeScript在前端框架(React/Vue)、后端开发(Node.js)、大规模工程以及跨平台项目中的实际应用。最后提出了学习TypeScript的路径建议,强调了TypeScript在现代Web开发中的重要地位。 适合人群:前端工程师、全栈开发者、Node.js后端开发者等对TypeScript感兴趣的开发者。 使用场景及目标:①理解TypeScript的核心概念和优势;②掌握TypeScript的关键特性及其使用方法;③了解TypeScript在不同项目中的应用场景;④规划TypeScript的学习路径。 其他说明:文章旨在帮助读者全面认识TypeScript,无论是初学者还是有一定经验的开发者都能从中受益。同时提供了后续学习资源的推荐,方便读者深入学习。
recommend-type

高校常微分方程教程答案解析

常微分方程是研究含有未知函数及其导数的方程的数学分支。在物理学、工程学、生物学以及经济学等诸多领域都有广泛应用。丁同仁与李承志合著的《常微分方程》(第二版)作为一本教材,广泛应用于国内的高校教学中,备受师生青睐。然而,该书作为教材性质的书籍,并未在书中提供详细的解答,这对自学者来说可能构成一定障碍。因此,本文件中提供了部分章节的答案,帮助学生更好地理解和掌握常微分方程的知识。 对于常微分方程的学习者而言,掌握以下几个关键知识点是必要的: 1. 基本概念:了解什么是微分方程,以及根据微分方程中的未知函数、未知函数的导数以及自变量的不同关系可以将微分方程分类为常微分方程和偏微分方程。常微分方程通常涉及单一自变量。 2. 阶数和线性:熟悉微分方程的阶数是指微分方程中出现的最高阶导数的阶数。此外,线性微分方程是微分方程研究中的一个重要类型,其中未知函数及其各阶导数都是一次的,且无乘积项。 3. 解的结构:理解微分方程解的概念,包括通解、特解、初值问题和边值问题。特别是,通过初值问题能了解给定初始条件下的特解是如何确定的。 4. 解法技巧:掌握解常微分方程的基本技巧,比如变量分离法、常数变易法、积分因子法等。对于线性微分方程,特别需要学习如何利用齐次性和非齐次性的特征,来求解线性方程的通解。 5. 系统的线性微分方程:扩展到多个变量的线性微分方程系统,需要掌握如何将多个一阶线性微分方程联立起来,形成方程组,并且了解如何应用矩阵和行列式来简化问题。 6. 初等函数解法:针对某些类型的微分方程,如伯努利方程和恰当微分方程等,它们可以通过变量代换转化为可分离变量或一阶线性微分方程来求解。 7. 特殊类型的方程:对于某些特殊类型的方程,例如克莱罗方程、里卡蒂方程等,需要掌握它们各自特定的求解方法。 8. 稳定性和相空间:了解微分方程解的稳定性和动力系统理论,学习如何通过相空间来分析系统的长期行为。 9. 数值解法:由于许多微分方程难以找到解析解,因此需要掌握数值解法如欧拉法、龙格-库塔法等来近似求解微分方程的数值解。 10. 应用实例:通过实际问题来理解微分方程在模型构建中的应用,例如在力学、电学、化学反应等领域中,微分方程如何描述和预测系统的动态变化。 通过掌握上述知识点,学习者将能够更好地使用《常微分方程》教材,解决其中的习题,并将理论知识应用于实际问题的分析与求解中。上传部分章节答案的做法,无疑为学习者提供了极大的帮助,使得他们能够对照答案来检验自己的解题方法是否正确,从而加深对常微分方程理论和解题技巧的理解。
recommend-type

语音唤醒方案设计:避开这5大设计陷阱,确保用户体验与系统稳定性的秘诀

# 1. 语音唤醒技术概述 语音唤醒技术作为现代人工智能领域的一个重要分支,正逐渐渗透到我们的日常生活中。它允许用户通过说出特定的指令或关键词,来激活和控制各种智能设备,而无需进行物理操作。本章将介绍语音唤醒技术的基本概念、工作原理及其在不同场景中的应用。首先,我们将探讨语音唤醒技术的定义及其核心功能,然后,我们会通过示例来说明它如何工作,以及它对于各种用户群体带来的便利性。通过本章,读
recommend-type

C语言 学生成绩管理系统 完整论文 代码实现

<think>我们正在构建一个C语言学生成绩管理系统。根据引用内容,我们需要实现以下功能:1.系统以菜单方式工作2.学生信息录入(包括学号、姓名、平时成绩、大作业成绩、期末考核成绩等,并计算总评成绩)3.学生信息浏览4.查询功能(按学号、按姓名)5.学生信息的删除与修改6.数据以文件形式保存和加载7.使用链表结构来存储学生数据(便于插入和删除)此外,我们还需要注意:-界面美观和一定的容错能力(如成绩输入范围0~100)-结构体定义学生信息-各个功能模块的函数实现由于用户要求完整论文和代码,但这里我们主要提供代码示例,并简要说明设计思路(相当于论文的核心部分)。设计思路:1.定义学生结构体(st
recommend-type

LAAS_FRONT系统2009年12月31日日志分析

根据提供的文件信息,可以推断出一些关键的知识点。由于文件信息中的标题和描述几乎相同,且重复强调了“LAAS_FRONT 12-31 第二台日志”,我们可以从文件名称中的关键词开始分析。 标题中的“LAAS_FRONT”可能指的是“Log as a Service Frontend”的缩写。LAAS通常指的是日志即服务(Logging as a Service),这是一种提供远程日志管理的在线服务模型。在这种服务模型中,日志数据被收集、存储、分析并提供给用户,而无需用户自己操作日志文件或管理自己的日志基础设施。Frontend则通常指的是用户与服务进行交互的界面。 文件的标题和描述中提到“第二台日志”,这可能意味着这是某系统中第二台服务器的日志文件。在系统的监控和日志管理中,记录每台服务器的日志是常见的做法,它有助于故障隔离、性能监控和安全审计。如果系统中有两台或多台服务器处理相同的服务,记录每台服务器的日志可以更细致地查看每台服务器的运行状态和性能指标。 结合“log4j.log.2009-12-31”这个文件名,可以了解到这是使用了Log4j日志框架的Java应用程序的日志文件,并且是2009年12月31日的记录。Log4j是一个流行的Java日志记录库,它允许开发者记录各种级别的信息到不同的目的地,比如控制台、文件或远程服务器。日志文件的命名通常包括日志记录的日期,这在日志轮转(log rotation)中尤为重要,因为日志文件通常会根据时间或大小进行轮转以管理磁盘空间。 日志轮转是一种常见的日志管理实践,它确保不会由于日志文件的不断增长而耗尽存储空间。通过定期关闭并存档当前日志文件,并开始新的日志文件,可以维护日志信息的可管理性和可访问性。轮转可以基于时间(例如每天、每周或每月)或基于文件大小(例如达到特定兆字节时)。 从描述来看,“LAAS_FRONT 12-31 第二台日志”没有提供更多具体信息,这意味着我们只能根据文件名和标签推断出这是一份日志文件,且与LAAS服务和Log4j框架有关。如果需要详细分析文件内容,我们将需要访问具体的日志文件内容。 总结以上知识点,可以得到以下关键信息: 1. LAAS服务模式:一种在线服务模型,用于远程管理日志数据。 2. 前端(Frontend):用户与服务进行交互的界面。 3. 日志文件:记录系统运行情况的文件,对于问题诊断和系统监控至关重要。 4. Log4j:Java平台下的一个日志记录库。 5. 日志轮转:管理日志文件大小和存储空间的一种方法。 6. 系统监控:通过分析日志文件,可以监控系统性能和诊断潜在问题。 这些知识点可以用于指导IT专业人员在处理类似日志文件时,更好地理解文件的来源、用途及如何有效地管理和分析日志数据。
recommend-type

构建高效AI语音唤醒系统:硬件选择与优化的黄金法则

# 1. AI语音唤醒系统的概述与重要性 AI语音唤醒系统作为智能家居、智能助手以及各种自动化服务的关键输入设备,已经成为AI技术应用中不可或缺的部分。其核心功能是通过语音识别技术,将人类的语音命令转换成计算机可理解的指令,进而控制设备的运行。由于其简便的操作方式和直观的交互体验,AI语音唤醒系统越来越受到市场的欢迎。 随着技术的演进,语音唤醒系统的准确性和效率得到