import numpy as np import matplotlib.pyplot as plt import pandas as pd import torch import torch.nn as nn from sklearn.preprocessing import StandardScaler from torch.utils.data import Dataset, DataLoader # 加载数据集 data = pd.read_csv('pfyh.csv') df = pd.DataFrame(data) dataset = df.iloc[:, 2:].to_numpy() df.head() # 可视化数据 # 简单数据可视化 plt.plot(df.iloc[:, 2]) plt.title("Data Visualization") plt.show() # 提取特征和标签 X = np.array(dataset[:, :-1]) y = np.array(dataset[:, -1]) # 数据标准化和归一化 scaler = StandardScaler() X = scaler.fit_transform(X) y = y / 1000 # 划分训练集和测试集（90%训练，10%测试） split_index = int(len(X) * 0.9) X_train, X_test = X[:split_index], X[split_index:] y_train, y_test = y[:split_index], y[split_index:] # 自定义PyTorch数据集类 class TimeSeriesDataset(Dataset): def __init__(self, x, y, sequence_length): self.x = x self.y = y self.sequence_length = sequence_length def __len__(self): return len(self.x) - self.sequence_length def __getitem__(self, idx): return ( torch.tensor(self.x[idx:idx + self.sequence_length], dtype=torch.float), torch.tensor(self.y[idx + self.sequence_length], dtype=torch.float) ) # 创建数据集和数据加载器 sequence_length = 14 train_dataset = TimeSeriesDataset(X_train, y_train, sequence_length) train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True) test_dataset = TimeSeriesDataset(X_test, y_test, sequence_length) test_loader = DataLoader(test_dataset, batch_size=64, shuffle=False) # 定义LSTM模型 class LSTMModel(nn.Module): def __init__(self, input_size, hidden_size, num_layers, output_size): super(LSTMModel, self).__init__() self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True) self.fc = nn.Linear(hidden_size, output_size) self.init_weights() def forward(self, x): out, _ = self.lstm(x) out = self.fc(out[:, -1, :]) return out def init_weights(self): torch.manual_seed(42)

import numpy as np import matplotlib.pyplot as plt import math

import matplotlib.pyplot as plt import math # 解决图标题中文乱码问题 import matplotlib as mpl mpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体 mpl.rcParams['axes.unicode_minus'] = False #...

import numpy as np(2).py

python数据分析与可视化 import pandas as pd import numpy as np import m

import matplotlib.pyplot as plt # 创建示例数据 data = pd.DataFrame({ 'A': np.random.randn(1000), 'B': np.random.randn(1000), 'C': np.random.randn(1000), }) # 计算每列的平均值 data_mean = data....

import numpy as np import matplotlib.pyplot as plt import pandas as pd import torch import torch.nn as nn from setuptools.sandbox import save_path from sklearn.preprocessing import StandardScaler, MinMaxScaler from torch.utils.data import TensorDataset from tqdm import tqdm

- torch.nn：PyTorch 深度学习框架的神经网络模块，提供了常用的神经网络层和模型； - StandardScaler 和 MinMaxScaler：用于数据标准化和归一化的类； - TensorDataset：用于封装张量数据集的类； - tqdm：用于实现...

请作为资深开发工程师，解释我给出的代码。请逐行分析我的代码并给出你对这段代码的理解。我给出的代码是：【# 导入必要的库 Import the necessary libraries import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import torch import math import torch.nn as nn from scipy.stats import pearsonr from sklearn.metrics import accuracy_score from sklearn.linear_model import LinearRegression from collections import deque from tensorflow.keras import layers import tensorflow.keras.backend as K from tensorflow.keras.layers import LSTM,Dense,Dropout,SimpleRNN,Input,Conv1D,Activation,BatchNormalization,Flatten,Permute from tensorflow.python import keras from tensorflow.python.keras.layers import Layer from sklearn.preprocessing import MinMaxScaler,StandardScaler from sklearn.metrics import r2_score from sklearn.preprocessing import MinMaxScaler import tensorflow as tf from tensorflow.keras import Sequential, layers, utils, losses from tensorflow.keras.callbacks import ModelCheckpoint, TensorBoard from tensorflow.keras.layers import Conv2D,Input,Conv1D from tensorflow.keras.models import Model from PIL import * from tensorflow.keras import regularizers from tensorflow.keras.layers import Dropout from tensorflow.keras.callbacks import EarlyStopping import seaborn as sns from sklearn.decomposition import PCA import numpy as np import matplotlib.pyplot as plt from scipy.signal import filtfilt from scipy.fftpack import fft from sklearn.model_selection import train_test_split import warnings warnings.filterwarnings('ignore')】

import matplotlib.pyplot as plt # 基础绘图 import seaborn as sns # 高级统计图表 3. **机器学习工具链** python from sklearn.metrics import accuracy_score, r2_score # 评估指标 from sklearn....

#增加多头注意力机制 import torch import torch.nn as nn import torch.nn.functional as F from torch.utils.data import DataLoader, TensorDataset import pandas as pd import numpy as np from sklearn.preprocessing import StandardScaler from TCN.tcn import TemporalConvNet,Chomp1d,TemporalBlock import matplotlib.pyplot as plt import time # 配置参数 device = torch.device("cuda" if torch.cuda.is_available() else "cpu") SEQ_LENGTH = 120 BATCH_SIZE = 128 # 减小批次以适应注意力计算 EPOCHS = 100 LEARNING_RATE = 5e-5 # 调整学习率 SPLIT_RATIO = 0.8 # 多头时间注意力模块 class MultiHeadTemporalAttention(nn.Module): def init(self, embed_size, heads=4): super().init() self.embed_size = embed_size self.heads = heads self.head_dim = embed_size // heads self.query = nn.Linear(embed_size, embed_size) self.key = nn.Linear(embed_size, embed_size) self.value = nn.Linear(embed_size, embed_size) self.fc_out = nn.Linear(embed_size, embed_size) def forward(self, x): batch_size, seq_len, _ = x.shape Q = self.query(x).view(batch_size, seq_len, self.heads, self.head_dim).permute(0, 2, 1, 3) K = self.key(x).view(batch_size, seq_len, self.heads, self.head_dim).permute(0, 2, 1, 3) V = self.value(x).view(batch_size, seq_len, self.heads, self.head_dim).permute(0, 2, 1, 3) energy = torch.matmul(Q, K.permute(0, 1, 3, 2)) / (self.head_dim ** 0.5) attention = F.softmax(energy, dim=-1) out = torch.matmul(attention, V) out = out.permute(0, 2, 1, 3).contiguous().view(batch_size, seq_len, self.embed_size) return self.fc_out(out) # 带注意力的时序块 class AttentiveTemporalBlock(nn.Module): def init(self, n_inputs, n_outputs, kernel_size, stride, dilation, padding, dropout=0.2): super().init() self.conv1 = nn.utils.weight_norm(nn.Conv1d( n_inputs, n_outputs, kernel_size, stride=stride, padding=p针对TCN模型改进的多头注意力机制的原理是什么然后使用多头注意力机制进行改进TCN的步骤及流程是什么

attn = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(self.d_head) attn = torch.softmax(attn, dim=-1) context = torch.matmul(attn, V).transpose(1,2).contiguous() context = context.view(x.size(0)...

import torch import torch.nn as nn import torch.optim as optim import os import pandas as pd import numpy as np from sklearn.preprocessing import MinMaxScaler import matplotlib.pyplot as plt from sklearn.metrics import mean_squared_error, mean_absolute_error from sklearn.model_selection import train_test_split # Check if GPU is available, otherwise use CPU device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # 数据加载和预处理：读取文件夹中的所有xlsx文件 def load_data_from_folder(folder_path, time_step, pred_step): all_data = [] for file_name in os.listdir(folder_path): if file_name.endswith('.xlsx'): file_path = os.path.join(folder_path, file_name) print(f"Loading data from {file_path}") try: excel_file = pd.ExcelFile(file_path) sheet_name = excel_file.sheet_names[0] print(f"Sheet names: {excel_file.sheet_names}") df = pd.read_excel(file_path, sheet_name=sheet_name) except Exception as e: print(f"Error reading {file_name}: {e}") continue if df.empty: print(f"Warning: {file_name} is empty") continue print(f"Original data: {df.head()}") df = df.dropna() print(f"Data after dropping NaN values: {df.head()}") # 尝试转换为数值，并打印哪些列有问题 df = df.apply(pd.to_numeric, errors='coerce') print(f"Data after applying pd.to_numeric: {df.head()}") print(f"Columns with NaN values: {df.isna().sum()}") # 如果数据为空，跳过这个文件 if df.empty: print(f"Warning: Data is empty after cleaning in file {file_name}") continue all_data.append(df) if len(all_data) == 0: raise ValueError("No valid data found in any of the files.") all_data_df = pd.concat(all_data, ignore_index=True) features = all_data_df.column

from sklearn.preprocessing import StandardScaler scaler = StandardScaler() scaled_features = scaler.fit_transform(combined_data.values) 3. **划分训练集与测试集** 利用 train_test_split ...

将冒号后面的代码改写成一个nn.module类：import pandas as pd import numpy as np from sklearn.preprocessing import MinMaxScaler import matplotlib.pyplot as plt from keras.models import Sequential from keras.layers import Dense, LSTM data1 = pd.read_csv("终极1.csv", usecols=[17], encoding='gb18030') df = data1.fillna(method='ffill') data = df.values.reshape(-1, 1) scaler = MinMaxScaler(feature_range=(0, 1)) data = scaler.fit_transform(data) train_size = int(len(data) * 0.8) test_size = len(data) - train_size train, test = data[0:train_size, :], data[train_size:len(data), :] def create_dataset(dataset, look_back=1): dataX, dataY = [], [] for i in range(len(dataset)-look_back-1): a = dataset[i:(i+look_back), 0] dataX.append(a) dataY.append(dataset[i + look_back, 0]) return np.array(dataX), np.array(dataY) look_back = 30 trainX, trainY = create_dataset(train, look_back) testX, testY = create_dataset(test, look_back) trainX = np.reshape(trainX, (trainX.shape[0], 1, trainX.shape[1])) testX = np.reshape(testX, (testX.shape[0], 1, testX.shape[1])) model = Sequential() model.add(LSTM(50, input_shape=(1, look_back), return_sequences=True)) model.add(LSTM(50)) model.add(Dense(1)) model.compile(loss='mean_squared_error', optimizer='adam') model.fit(trainX, trainY, epochs=6, batch_size=1, verbose=2) trainPredict = model.predict(trainX) testPredict = model.predict(testX) trainPredict = scaler.inverse_transform(trainPredict) trainY = scaler.inverse_transform([trainY]) testPredict = scaler.inverse_transform(testPredict) testY = scaler.inverse_transform([testY])

import matplotlib.pyplot as plt from keras.models import Sequential from keras.layers import Dense, LSTM class LSTMModel(nn.Module): def __init__(self, input_size, hidden_size, output_size, num_...

import numpy as np import pandas as pd import torch import torch.nn as nn import matplotlib.pyplot as plt from sklearn.preprocessing import StandardScaler from torch.utils.data import DataLoader, TensorDataset 设备配置 device = torch.device(‘cuda’ if torch.cuda.is_available() else ‘cpu’) 数据预处理模块 def preprocess_data(file_path): # 读取原始数据 df = pd.read_excel(file_path) # 计算年平均值 annual_data = df.groupby(['站号', '纬度', '经度', '年']).agg({ '日平均气温': 'mean', '日降水量': 'sum', '日平均相对湿度': 'mean', '日日照时数': 'sum', '日平均0cm地温': 'mean', '日平均40cm地温': 'mean' }).reset_index() # 选择特征列 features = ['日平均气温', '日降水量', '日平均相对湿度', '日日照时数', '日平均0cm地温', '日平均40cm地温'] # 标准化处理 scaler = StandardScaler() annual_data[features] = scaler.fit_transform(annual_data[features]) return annual_data, scaler, features 自注意力评分模型 class ClimateAttention(nn.Module): def init(self, input_dim): super().init() self.query = nn.Linear(input_dim, input_dim) self.key = nn.Linear(input_dim, input_dim) self.value = nn.Linear(input_dim, input_dim) self.softmax = nn.Softmax(dim=2) def forward(self, x): Q = self.query(x) K = self.key(x) V = self.value(x) attention_scores = torch.bmm(Q, K.transpose(1,2)) / np.sqrt(x.size(2)) attention_weights = self.softmax(attention_scores) weighted_values = torch.bmm(attention_weights, V) return weighted_values.mean(dim=1) # 聚合特征维度完整模型 class EvaluationModel(nn.Module): def init(self, input_dim): super().init() self.attention = ClimateAttention(input_dim) self.regressor = nn.Sequential( nn.Linear(input_dim, 32), nn.ReLU(), nn.Linear(32, 1), nn.Sigmoid() ) def forward(self, x): x = self.attention(x) return self.regressor(x) 训练函数 def train_model(data_loader): model = EvaluationModel(input_dim=6).to(device) criterion = nn.MSELoss() optimizer = torch.optim.Adam(model.parameters(), lr=0.001) for epoch in range(50): for inputs in data_loader: inputs = inputs.to(device) outputs = model(inputs) # 这里可以加入专家评分作为监督信号 # 示例使用自动生成评分规则（需根据实际需求修改） synthetic_scores = 0.3inputs[:,0] + 0.2inputs[:,1] + 0.15inputs[:,2] + 0.15inputs[:,3] + 0.1inputs[:,4] + 0.1inputs[:,5] synthetic_scores = synthetic_scores.unsqueeze(1) loss = criterion(outputs, synthetic_scores) optimizer.zero_grad() loss.backward() optimizer.step() return model 可视化模块 def visualize_results(df, scores): plt.figure(figsize=(12, 8)) sc = plt.scatter(df[‘经度’], df[‘纬度’], c=scores, cmap=‘YlGn’, s=100, edgecolor=‘k’) plt.colorbar(sc, label=‘适宜性评分’) plt.title(‘云南省除虫菊种植气候适宜性分布’) plt.xlabel(‘经度’) plt.ylabel(‘纬度’) plt.grid(True) plt.show() 主程序 if name == “main”: # 数据预处理 data, scaler, features = preprocess_data(r"C:\Users\Administrator\Desktop\data.xlsx") # 转换为张量 tensor_data = torch.FloatTensor(data[features].values).unsqueeze(1) dataset = TensorDataset(tensor_data) loader = DataLoader(dataset, batch_size=32, shuffle=True) # 训练模型 trained_model = train_model(loader) # 生成预测评分 with torch.no_grad(): inputs = tensor_data.to(device) predictions = trained_model(inputs).cpu().numpy().flatten() # 结果可视化 visualize_results(data, predictions) 我的文件地址是C:\Users\Administrator\Desktop\data.xlsx 请我修改插入进去

tensor_data = torch.FloatTensor(data[features].values).unsqueeze(1) dataset = TensorDataset(tensor_data) loader = DataLoader(dataset, batch_size=32, shuffle=True) # 训练模型 trained_model = ...

mport numpy as np import pandas as pd import torch import torch.nn as nn import matplotlib.pyplot as plt from sklearn.preprocessing import StandardScaler from torch.utils.data import DataLoader, TensorDataset 设备配置 device = torch.device(‘cuda’ if torch.cuda.is_available() else ‘cpu’) 数据预处理模块 def preprocess_data(file_path): # 读取原始数据 df = pd.read_excel(file_path) # 计算年平均值 annual_data = df.groupby(['站号', '纬度', '经度', '年']).agg({ '日平均气温': 'mean', '日降水量': 'sum', '日平均相对湿度': 'mean', '日日照时数': 'sum', '日平均0cm地温': 'mean', '日平均40cm地温': 'mean' }).reset_index() # 选择特征列 features = ['日平均气温', '日降水量', '日平均相对湿度', '日日照时数', '日平均0cm地温', '日平均40cm地温'] # 标准化处理 scaler = StandardScaler() annual_data[features] = scaler.fit_transform(annual_data[features]) return annual_data, scaler, features 自注意力评分模型 class ClimateAttention(nn.Module): def init(self, input_dim): super().init() self.query = nn.Linear(input_dim, input_dim) self.key = nn.Linear(input_dim, input_dim) self.value = nn.Linear(input_dim, input_dim) self.softmax = nn.Softmax(dim=2) def forward(self, x): Q = self.query(x) K = self.key(x) V = self.value(x) attention_scores = torch.bmm(Q, K.transpose(1,2)) / np.sqrt(x.size(2)) attention_weights = self.softmax(attention_scores) weighted_values = torch.bmm(attention_weights, V) return weighted_values.mean(dim=1) # 聚合特征维度完整模型 class EvaluationModel(nn.Module): def init(self, input_dim): super().init() self.attention = ClimateAttention(input_dim) self.regressor = nn.Sequential( nn.Linear(input_dim, 32), nn.ReLU(), nn.Linear(32, 1), nn.Sigmoid() ) def forward(self, x): x = self.attention(x) return self.regressor(x) 训练函数 def train_model(data_loader): model = EvaluationModel(input_dim=6).to(device) criterion = nn.MSELoss() optimizer = torch.optim.Adam(model.parameters(), lr=0.001) for epoch in range(50): for inputs in data_loader: inputs = inputs.to(device) outputs = model(inputs) # 这里可以加入专家评分作为监督信号 # 示例使用自动生成评分规则（需根据实际需求修改） synthetic_scores = 0.3inputs[:,0] + 0.2inputs[:,1] + 0.15inputs[:,2] + 0.15inputs[:,3] + 0.1inputs[:,4] + 0.1inputs[:,5] synthetic_scores = synthetic_scores.unsqueeze(1) loss = criterion(outputs, synthetic_scores) optimizer.zero_grad() loss.backward() optimizer.step() return model 可视化模块 def visualize_results(df, scores): plt.figure(figsize=(12, 8)) sc = plt.scatter(df[‘经度’], df[‘纬度’], c=scores, cmap=‘YlGn’, s=100, edgecolor=‘k’) plt.colorbar(sc, label=‘适宜性评分’) plt.title(‘云南省除虫菊种植气候适宜性分布’) plt.xlabel(‘经度’) plt.ylabel(‘纬度’) plt.grid(True) plt.show() 主程序 if name == “main”: # 数据预处理 data, scaler, features = preprocess_data(r"C:\Users\Administrator\Desktop\data.xlsx") # 转换为张量 tensor_data = torch.FloatTensor(data[features].values).unsqueeze(1) dataset = TensorDataset(tensor_data) loader = DataLoader(dataset, batch_size=32, shuffle=True) # 训练模型 trained_model = train_model(loader) # 生成预测评分 with torch.no_grad(): inputs = tensor_data.to(device) predictions = trained_model(inputs).cpu().numpy().flatten() # 结果可视化 visualize_results(data, predictions) 请修改代码我不想使用PyTorch

from sklearn.preprocessing import StandardScaler # 数据预处理模块（保持不变） def preprocess_data(file_path): # ...（与原函数完全相同，省略重复部分）... return annual_data, scaler, features # 自...

Pandas在文本数据分析中的基本处理与特征提取

Pandas是一个开源的数据分析工具包，是基于NumPy的Python库。它提供了高性能、易于使用的数据结构和数据分析工具，使得数据处理变得更加简单和快速。 Pandas的核心数据结构是DataFrame，它是一种表格型的数据结构，...

## 20240905 # conda activate torch1.9 import pandas as pd import numpy as np from IPython.display import display from PIL import Image import json import os import sys from matplotlib.path import Path from sklearn.neighbors import KNeighborsClassifier from sklearn.preprocessing import StandardScaler from matplotlib import pyplot as plt # import cv2 from scipy.spatial import ConvexHull import ast from scipy.stats import pearsonr, spearmanr from matplotlib.backends.backend_pdf import PdfPages from matplotlib.patches import Patch import matplotlib.pyplot as plt import argparse parser = argparse.ArgumentParser(description='') parser.add_argument('--Sample', '-s', type=str, help='Samplename', required=True) ## --Countcell可用于统计每个spot的细胞数量并绘图 # 20240905修改，确定了每一个细胞点的位置 parser.add_argument("--Countcell", default=False, action='store_true', help="Counting the number of cells in each spot, default is No") parser.add_argument('--Segjson', '-j', type=str, help='nucleus recognition') parser.add_argument('--lowscaleheight', '-lowheight', type=int, help='') parser.add_argument('--lowscalewidth', '-lowwidth', type=int, help='') parser.add_argument('--offsetx', '-x', type=int, help='') parser.add_argument('--offsety', '-y', type=int, help='') # parser.add_argument('--Savepath', '-o', type=str, help='savepath', required=True) args = parser.parse_args() sample = args.Sample sample_folder = "/data1/chengrui/workspace/zst_st/all_data/" xpath="/data1/zhaoshutao/projectworkspace/cell2location_20240715/heart_eyeball_c2l/heart_eyeball_h5ad_pro/" if sample in ["WMQ-586-mHeart", "WMQ-584-mHeart", "WMQ-644-mHeart"]: tissue_positions_file = "".join([xpath,sample,"/spatial/tissue_positions_list.csv"]) scalefactors_json = "".join([sample_folder, sample, "/outs/spatial/scalefactors_json.json"]) elif sample in ["WMQ-567-mEye", "WMQ-594-mEye", "WMQ-593-mEye"]: tissue_positions_file = "".join([xpath,sample,"/spatial/tissue_positions_list.csv"]) scalefactors_json = "".join([sample_folder, sample, "/outs/spatial/scalefactors_json.json"]) elif sample in ["WMQ-765-mOVA","WMQ-766-mOVA","WMQ-767-mOVA","WMQ-768-mOVA"]: scalefactors_json = "".join(["/data1/zhaoshutao/projectworkspace/rawdata_20241222_ovary_st/", sample, "/outs/spatial/scalefactors_json.json"]) tissue_positions_file = "".join(["/data1/zhaoshutao/projectworkspace/rawdata_20241222_ovary_st/", sample, "/outs/spatial/tissue_positions_list.csv"]) elif sample == "WMQ-606-mSpl": splsample = "WMQ-606-mSpleen" scalefactors_json = "".join([sample_folder, splsample, "/outs/spatial/scalefactors_json.json"]) tissue_positions_file = "".join([sample_folder, splsample, "/outs/spatial/tissue_positions_list.csv"]) elif sample in ["WMQ-648-mLiver","WMQ-678-mLiver","WMQ-629-mLym","WMQ-636-mLung","WMQ-627-mSpl","WMQ-712-mTes","LXZ-009","WMQ-714-mTes"]: if sample == "WMQ-627-mSpl": sample = "WMQ-627-mSpleen" scalefactors_json = "".join([sample_folder, sample, "/spatial/scalefactors_json.json"]) tissue_positions_file = "".join([sample_folder, sample, "/spatial/tissue_positions_list.csv"]) elif sample in ["WMQ-731-mOVA","WMQ-732-mOVA"]: scalefactors_json = "".join([sample_folder, sample, "-bu/spatial/scalefactors_json.json"]) tissue_positions_file = "".join([sample_folder, sample, "-bu/spatial/tissue_positions_list.csv"]) else: scalefactors_json = "".join([sample_folder, sample, "/outs/spatial/scalefactors_json.json"]) tissue_positions_file = "".join([sample_folder, sample, "/outs/spatial/tissue_positions_list.csv"]) cell_count_output = "/data1/zhaoshutao/projectworkspace/nucleus_recognition/sandiantu_20240716_c2l_card_cyto/run_spot_counts_results" all_cell_seg_pic = "".join([cell_count_output, "/",sample, "_all_cell_seg_pic.csv"]) spot_cell_count = "".join([cell_count_output, "/",sample, "_spots_counts.csv"]) point_cell_count = "".join([cell_count_output, "/",sample, "_point_counts.csv"]) 帮我解释代码，注释好，并且帮我看看有没有问题

from matplotlib import pyplot as plt # import cv2 # 被注释掉 from scipy.spatial import ConvexHull import ast from scipy.stats import pearsonr, spearmanr # 未实际使用 from matplotlib.backends.backend_...

import numpy as np import pandas as pd import torch import torch.nn as nn from sklearn.preprocessing import MinMaxScaler import matplotlib.pyplot as plt # -------------------- 配置参数 -------------------- window_size = 20 # 平滑窗口大小 time_step = 50 # 时间步长 pretrain_epochs = 400 # 预训练轮次 finetune_epochs = 100 # 微调轮次 # -------------------- 数据读取函数 -------------------- def load_and_process(file_path): """读取并处理单个CSV文件""" df = pd.read_csv(file_path) df['date/time'] = pd.to_datetime(df['date/time'], format='%Y/%m/%d %H:%M') df.set_index('date/time', inplace=True) series = df['act. fil. curr. end'].rolling(window=window_size).mean().dropna() return series # -------------------- 加载多源数据集 -------------------- source_files = [ r'D:\Pycharm_program\CT\CT-data\tube_history_614372271_data.csv', r'D:\Pycharm_program\CT\CT-data\tube_history_628132271.csv', r'D:\Pycharm_program\CT\CT-data\tube_history_679242371.csv' ] # 加载并预处理源数据 source_series = [] for file in source_files: s = load_and_process(file) source_series.append(s) # 合并所有源数据用于标准化 all_source_data = pd.concat(source_series) scaler = MinMaxScaler(feature_range=(0, 1)) scaler.fit(all_source_data.values.reshape(-1, 1)) # -------------------- 创建预训练数据集 -------------------- def create_dataset(data, time_step=50): """创建时间序列数据集""" X, y = [], [] for i in range(len(data)-time_step): X.append(data[i:i+time_step]) y.append(data[i+time_step]) return np.array(X), np.array(y) # 生成源数据训练集 X_pretrain, y_pretrain = [], [] for s in source_series: scaled = scaler.transform(s.values.reshape(-1, 1)) X, y = create_dataset(scaled.flatten(), time_step) X_pretrain.append(X) y_pretrain.append(y) X_pretrain = np.concatenate(X_pretrain) y_pretrain = np.concatenate(y_pretrain) # 转换为PyTorch Tensor X_pretrain_tensor = torch.Tensor(X_pretrain) y_pretrain_tensor = torch.Tensor(y_pretrain) # -------------------- 模型定义 -------------------- class LSTMModel(nn.Module): def init(self, input_size=50, hidden_size=50, output_size=1): super(LSTMModel, self)._

import torch.nn as nn class LSTMModel(nn.Module): def __init__(self, input_size=1, hidden_size=64, num_layers=2, output_size=1): super().__init__() self.hidden_size = hidden_size self.num_layers ...

import pandas as pd from sklearn.preprocessing import MinMaxScaler # 加载台风数据（示例格式：时间,经度,纬度,风速,气压） data = pd.read_csv('typhoon_data.csv') # 归一化处理（经纬度需特殊处理） scaler_lon = MinMaxScaler(feature_range=(-1,1)) scaler_lat = MinMaxScaler(feature_range=(-1,1)) data['经度'] = scaler_lon.fit_transform(data[['经度']]) data['纬度'] = scaler_lat.fit_transform(data[['纬度']]) # 时间序列间隔处理 data['时间'] = (data['时间'] - data['时间'].min()) / (data['时间'].max() - data['时间'].min()) import torch import torch.nn as nn class TyphoonPINN(nn.Module): def init(self): super().init() self.net = nn.Sequential( nn.Linear(3, 64), # 输入: 时间,经度,纬度 nn.Tanh(), nn.Linear(64, 64), nn.Tanh(), nn.Linear(64, 4) # 输出: 风速,气压,经度变化率,纬度变化率 ) def forward(self, t, lon, lat): inputs = torch.cat([t, lon, lat], dim=1) return self.net(inputs) def physics_loss(outputs, inputs): # 输出解构 v_pred, p_pred, dlon_pred, dlat_pred = outputs[:,0], outputs[:,1], outputs[:,2], outputs[:,3] # 自动微分计算梯度 t = inputs[:,0].requires_grad_(True) lon = inputs[:,1].requires_grad_(True) lat = inputs[:,2].requires_grad_(True) # 运动学约束 dv_dt = torch.autograd.grad(v_pred, t, grad_outputs=torch.ones_like(v_pred), create_graph=True)[0] # 构建动量方程残差 momentum_residual = dv_dt - (dlon_pred2 + dlat_pred2)**0.5 # 梯度风平衡约束 pressure_grad = torch.autograd.grad(p_pred, lon, grad_outputs=torch.ones_like(p_pred), create_graph=True)[0] wind_balance = v_pred - torch.sqrt(torch.abs(lon * pressure_grad / 1.2)) # 空气密度取1.2kg/m³ return torch.mean(momentum_residual2) + torch.mean(wind_balance2) model = TyphoonPINN() optimizer = torch.optim.Adam(model.parameters(), lr=0.001) for epoch in range(10000): # 从数据集中采样 inputs = torch.tensor(data[['时间','经度','纬度']].values, dtype=torch.float32) targets = torch.tensor(data[['风速','气压']].values, dtype=torch.float32) # 模型预测 outputs = model(inputs[:,0:1], inputs[:,1:2], inputs[:,2:3]) # 损失计算 data_loss = nn.MSELoss()(outputs[:,0:2], targets) physics_loss = physics_loss(outputs, inputs) total_loss = data_loss + 0.1*physics_loss # 物理约束权重系数 # 反向传播 optimizer.zero_grad() total_loss.backward() optimizer.step() import matplotlib.pyplot as plt # 绘制预测路径 with torch.no_grad(): pred = model(inputs[:,0:1], inputs[:,1:2], inputs[:,2:3]) plt.figure(figsize=(10,6)) plt.scatter(data['经度'], data['纬度'], c='r', label='真实路径') plt.plot(pred[:,2].numpy(), pred[:,3].numpy(), 'b--', label='预测路径') plt.xlabel('归一化经度') plt.ylabel('归一化纬度') plt.legend()帮我解读每一句话的含义和用法

from sklearn.preprocessing import MinMaxScaler # 加载台风数据（示例格式：时间,经度,纬度,风速,气压） data = pd.read_csv('typhoon_data.csv') - pd.read_csv：使用Pandas读取CSV格式的台风观测数据 - ...

from collections import Counter import numpy as np import pandas as pd import torch import matplotlib.pyplot as plt from sklearn.metrics import accuracy_score, classification_report from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.svm import SVC from torch.utils.data import DataLoader, Dataset from tqdm import tqdm from transformers import AutoTokenizer, BertModel import joblib from sklearn.metrics import confusion_matrix import seaborn as sns # 1. ====================== 配置参数 ====================== MODEL_PATH = r'D:\pythonProject5\bert-base-chinese' BATCH_SIZE = 64 MAX_LENGTH = 128 SAVE_DIR = r'D:\pythonProject5\BSVMC_model' DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu") # 2. ====================== 数据加载与划分 ====================== def load_data(file_path): """加载并预处理数据""" df = pd.read_csv(file_path).dropna(subset=['text', 'label']) texts = df['text'].astype(str).str.strip().tolist() labels = df['label'].astype(int).tolist() return texts, labels # 加载原始数据 texts, labels = load_data("train3.csv") # 第一次拆分：分出测试集（20%） train_val_texts, test_texts, train_val_labels, test_labels = train_test_split( texts, labels, test_size=0.2, stratify=labels, random_state=42 ) # 第二次拆分：分出训练集（70%）和验证集（30% of 80% = 24%） train_texts, val_texts, train_labels, val_labels = train_test_split( train_val_texts, train_val_labels, test_size=0.3, # 0.3 * 0.8 = 24% of original stratify=train_val_labels, random_state=42 ) # 3. ====================== 文本编码 ====================== tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH) def encode_texts(texts): return tokenizer( texts, truncation=True, padding="max_length", max_length=MAX_LENGTH, return_tensors="pt" ) # 编码所有数据集 train_encodings = encode_texts(train_texts) val_encodings = encode_texts(val_texts) test_encodings = encode_texts(test_texts) # 4. ====================== 数据集类 ====================== class TextDataset(Dataset): def init(self, encodings, labels): self.encodings = encodings self.labels = labels def getitem(self, idx): return { 'input_ids': self.encodings['input_ids'][idx], 'attention_mask': self.encodings['attention_mask'][idx], 'labels': torch.tensor(self.labels[idx]) } def len(self): return len(self.labels) # 创建所有数据集加载器 train_dataset = TextDataset(train_encodings, train_labels) val_dataset = TextDataset(val_encodings, val_labels) test_dataset = TextDataset(test_encodings, test_labels) train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True) val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE, shuffle=False) test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False) # 5. ====================== 特征提取 ====================== def extract_features(bert_model, dataloader): """使用BERT提取CLS特征""" bert_model.eval() all_features = [] all_labels = [] with torch.no_grad(): for batch in tqdm(dataloader, desc="提取特征"): inputs = {k: v.to(DEVICE) for k, v in batch.items() if k != 'labels'} outputs = bert_model(**inputs) features = outputs.last_hidden_state[:, 0, :].cpu().numpy() all_features.append(features) all_labels.append(batch['labels'].numpy()) return np.vstack(all_features), np.concatenate(all_labels) # 加载并冻结BERT模型 bert_model = BertModel.from_pretrained(MODEL_PATH).to(DEVICE) for param in bert_model.parameters(): param.requires_grad = False # 提取所有特征 print("\n" + "=" * 30 + " 特征提取阶段 " + "=" * 30) train_features, train_labels = extract_features(bert_model, train_loader) val_features, val_labels = extract_features(bert_model, val_loader) test_features, test_labels = extract_features(bert_model, test_loader) # 6. ====================== 特征预处理 ====================== scaler = StandardScaler() train_features = scaler.fit_transform(train_features) # 只在训练集上fit val_features = scaler.transform(val_features) test_features = scaler.transform(test_features) # 7. ====================== 训练SVM ====================== print("\n" + "=" * 30 + " 训练SVM模型 " + "=" * 30) svm_model = SVC( kernel='rbf', C=1.0, gamma='scale', probability=True, random_state=42 ) svm_model.fit(train_features, train_labels) # 8. ====================== 评估模型 ====================== def evaluate(features, labels, model, dataset_name): preds = model.predict(features) acc = accuracy_score(labels, preds) print(f"\n[{dataset_name}] 评估结果：") print(f"准确率：{acc:.4f}") print(classification_report(labels, preds, digits=4)) return preds print("\n训练集评估：") _ = evaluate(train_features, train_labels, svm_model, "训练集") print("\n验证集评估：") val_preds = evaluate(val_features, val_labels, svm_model, "验证集") print("\n测试集评估：") test_preds = evaluate(test_features, test_labels, svm_model, "测试集") # 9. ====================== 保存模型 ====================== def save_pipeline(): """保存完整模型管道""" # 创建保存目录 import os os.makedirs(SAVE_DIR, exist_ok=True) # 保存BERT相关 bert_model.save_pretrained(SAVE_DIR) tokenizer.save_pretrained(SAVE_DIR) # 保存SVM和预处理 joblib.dump(svm_model, f"{SAVE_DIR}/svm_model.pkl") joblib.dump(scaler, f"{SAVE_DIR}/scaler.pkl") # 保存标签映射（假设标签为0: "中性", 1: "正面", 2: "负面"） label_map = {0: "中性", 1: "正面", 2: "负面"} joblib.dump(label_map, f"{SAVE_DIR}/label_map.pkl") print(f"\n模型已保存至 {SAVE_DIR} 目录") save_pipeline() # 10. ===================== 可视化 ====================== plt.figure(figsize=(15, 5)) # 决策值分布 plt.subplot(1, 2, 1) plt.plot(svm_model.decision_function(train_features[:100]), 'o', alpha=0.5) plt.title("训练集前100样本决策值分布") plt.xlabel("样本索引") plt.ylabel("决策值") # 生成混淆矩阵 cm = confusion_matrix(y_true=test_labels, y_pred=test_preds) # 可视化 plt.figure(figsize=(10, 7)) sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['0', '1', '2'], yticklabels=['0', '1', '2']) plt.xlabel('Predicted label') plt.ylabel('True label') plt.title('confusion matrix') plt.show() # 准确率对比 plt.subplot(1, 2, 2) accuracies = [ accuracy_score(train_labels, svm_model.predict(train_features)), accuracy_score(val_labels, val_preds), accuracy_score(test_labels, test_preds) ] labels = ['train', 'Validation', 'test'] plt.bar(labels, accuracies, color=['blue', 'orange', 'green']) plt.ylim(0, 1) plt.title("Comparison of accuracy rates for each dataset") plt.ylabel("Accuracy rate") plt.tight_layout() plt.show()画一下我的模型架构图

from sklearn.svm import SVC import torch # BERT特征提取 tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') model = BertModel.from_pretrained('bert-base-uncased') inputs = tokenizer(...

import matplotlib.pyplot as plt import pandas as pd import matplotlib.patches as mpatches import random import math # 生成矩阵函数 def generate_matrix(rows, cols): return [[0.0] * cols for _ in range(rows)] # 生成随机数函数 def rand(min_val, max_val): return random.uniform(min_val, max_val) # sigmoid 函数 def sigmoid(x): return 1.0 / (1 + math.exp(-x)) # sigmoid 函数的导数 def dsigmoid(y): return y * (1 - y) # 载入数据集 iris = pd.read_csv('D:\PythonProject2\wenjian\iris_training.csv') all_data = iris.values all_feature = all_data[1:, 0:5] for i in range(len(all_feature)): if all_feature[i, 4] == 0: plt.scatter(all_feature[i, 0], all_feature[i, 1], color='red', marker='s') elif all_feature[i, 4] == 1: plt.scatter(all_feature[i, 0], all_feature[i, 1], color='green', marker='o') else: plt.scatter(all_feature[i, 0], all_feature[i, 1], color='blue', marker='d') labels = ['setosa', 'versicolor', 'virginica'] # legend 标签列表，上面的 color 即是颜色列表 color = ['red', 'blue', 'lightskyblue'] # legend 颜色列表 # 用 label 和 color 列表生成 mpatches.Patch 对象，它将作为句柄来生成 legend patches = [mpatches.Patch(color=color[i], label="(%s)" % format(labels[i])) for i in range(len(color))] plt.legend(handles=patches, loc=2) plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False plt.show() data = [] for i in range(len(all_feature)): newdata = [] newdata.extend(all_feature[i][:-1]) if all_data[i][4] == 'setosa': newdata.extend([1, 0, 0]) elif all_data[i][4] == 'versicolor': newdata.extend([0, 1, 0]) else: newdata.extend([0, 0, 1]) data.append(newdata) # 打乱数据，对数据进行随机排列 random.shuffle(data) train = data[0:100] test = data[100:] class MyBPNetwork: """ 3 层神经网络 """ def init(self, in_num, hidden_num, output_num): # 输入层、隐藏层、输出层的神经元个数 self.in_num = in_num + 1 # 增加一个偏置 self.hidden_num = hidden_num + 1 self.output_num = output_num # 激活神经网络的所有神经元

from sklearn.preprocessing import StandardScaler # 加载数据集 iris = load_iris() X, y = iris.data, iris.target # 数据标准化 scaler = StandardScaler() X = scaler.fit_transform(X) # 分割数据集（训练...

KNN算法鸢尾花torch

import matplotlib.pyplot as plt import seaborn as sns # 加载鸢尾花数据集 iris = datasets.load_iris() X = iris.data # 特征矩阵 y = iris.target # 标签向量 # 数据标准化 scaler = StandardScaler().fit(X)...

torch做一个rnn股价预测模型

from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler(feature_range=(-1, 1)) # RNN对零中心化数据更敏感 scaled_prices = scaler.fit_transform(prices.reshape(-1, 1)) #### **(3) 创建...

（1）生成房价数据并保存为 Excel 文件。（2）数据包含 5 个特征（房屋面积、房间数量、楼层、房龄、地理位置评分）和目标值（房价）。任务二：数据加载（1）从 Excel 文件中读取数据，并将其转换为 PyTorch 张量。（2）数据标准化处理（可选）。任务三：定义模型使用 nn.Linear 定义多元线性回归模型。初始化模型任务四：定义损失和优化器（1）使用均方误差作为损失函数。（2）使用Adam优化器更新模型参数。任务五：训练模型前向传播计算损失反向传播（梯度清零）参数更新任务六：可视化与结果（1）绘制损失函数变化曲线，展示训练过程。（2）绘制真实值与预测值的对比图，评估模型性能。

from sklearn.preprocessing import StandardScaler # 读取数据 df = pd.read_excel('house_prices.xlsx') # 分离特征和标签 X = df.drop('房价', axis=1).values y = df['房价'].values.reshape(-1,1) # 数据...

2021年计算机二级无纸化选择题题库.doc

相关推荐

import numpy as np import matplotlib.pyplot as plt import math

import numpy as np(2).py

python数据分析与可视化 import pandas as pd import numpy as np import m

import numpy as np import matplotlib.pyplot as plt import pandas as pd import torch import torch.nn as nn from setuptools.sandbox import save_path from sklearn.preprocessing import StandardScaler, MinMaxScaler from torch.utils.data import TensorDataset from tqdm import tqdm

Pandas在文本数据分析中的基本处理与特征提取

KNN算法鸢尾花torch

torch做一个rnn股价预测模型

2021年计算机二级无纸化选择题题库.doc

大家在看

JSON,VC++简单交互纯源码！

Aspose.PDF+Aspose.Cells（支持.net core2 v18无限制版）

epson p50清零软件

vfp grid类

粒子群算法matlab编写代码

最新推荐

2021年计算机二级无纸化选择题题库.doc

2022java实训心得体会.docx

2022cad绘图实训心得体会_.docx

ChmDecompiler 3.60：批量恢复CHM电子书源文件工具

【数据融合技术】：甘肃土壤类型空间分析中的专业性应用

redistemplate.opsForValue()返回值

ktorrent 2.2.4版本Linux客户端发布

【空间分布规律】：甘肃土壤类型与农业生产的关联性研究

数字温度计供电

Java EE 5.03 SDK官方帮助文档