基于transformer方法的农产品价格预测（包含数据集及数据集预处理）资源-CSDN下载

共6个文件

py：4个

csv：2个

47 浏览量 2025-03-16 18:08:27 上传评论 1 收藏 159KB ZIP 举报

农产品价格预测是农业经济学和市场研究领域的一个重要分支，它帮助农户、政策制定者和相关企业了解市场动态，合理安排生产和销售。本文档介绍了一种基于transformer方法的农产品价格预测技术，不仅提供了实际的数据集，还包含了数据预处理和价格预测方法，以及结果的可视化展示和多种transformer方法的对比分析。 transformer模型最初由Vaswani等人在2017年的论文《Attention Is All You Need》中提出，是自然语言处理（NLP）领域的一项革新。它的核心是自注意力（self-attention）机制，能够捕捉序列数据中任意两个位置之间的依赖关系，并且在处理长距离依赖时效果显著。transformer模型由于其优越的性能在机器翻译、文本生成等NLP任务中得到了广泛应用，并逐渐扩展到其他序列预测任务，包括时间序列数据的预测。在农产品价格预测方面，transformer模型能够捕捉到价格时间序列中的复杂动态关系，对价格波动进行精准预测。考虑到农产品价格受到多种因素的影响，如季节性、天气条件、市场需求、政策调控等，使用传统的时间序列预测方法可能无法充分捕捉这些非线性的关系。而transformer模型能够通过自注意力机制自动学习到这些因素间复杂的影响关系，提高预测精度。本文档所使用的数据集包含了30多种类近4万条数据，覆盖了不同种类的农产品，且数据采样可能包含日频、周频或者月频，具有实际的市场研究价值。数据集中的每一条记录可能包括价格、时间、地区、交易量等特征，这对于训练transformer模型至关重要，因为模型性能很大程度上依赖于高质量的输入数据。数据预处理是机器学习项目中的重要步骤，对于提高模型预测性能非常关键。预处理可能包括缺失值处理、异常值检测与处理、数据标准化或归一化、特征选择和构造等。良好的数据预处理能够保证模型能够更加准确地学习到数据中的有用信息，减少噪声对模型的影响。文档中提到的Transformer_train.py和Transformer_test.py两个脚本文件分别用于模型的训练和测试，它们是实现transformer模型在农产品价格预测任务中的应用工具。Transformer.py和encoded.py可能是实现transformer模型架构及相关数据编码过程的Python代码文件。通过运行这些脚本，研究者可以完成数据集的加载、模型的训练与调参、预测结果的生成和评估等工作流程。结果的可视化是展示模型预测性能的重要手段，它能直观地反映模型预测结果与实际值之间的吻合程度。通过可视化工具，如图表、趋势线等，相关人员可以更容易地理解模型的预测效果，进而做出更加合理和科学的决策。文档提到的多种transformer方法的对比，说明了研究者在模型选择上可能采用了多种不同的transformer变体，如BERT、GPT、XLNet等，通过比较它们在相同数据集上的预测性能，可以选出最适合农产品价格预测的模型结构。这种模型比较不仅有助于选择最佳的预测模型，而且还能为后续研究提供模型优化的方向。本文档提供了一个完整的农产品价格预测流程，从数据集的收集、预处理到使用先进的transformer模型进行价格预测，再到预测结果的评估与可视化，最后是对不同transformer模型进行对比分析，为农业经济学研究和实践提供了有价值的技术支持和参考。

资源推荐

资源详情

资源评论

收起资源包目录

predict.zip （6个子文件）

encoded.py 707B

0_农产品数据集.csv 1.13MB

Transformer.py 3KB

Transformer_train.py 6KB

Transformer_test.py 4KB

1_encoded.csv 666KB

import sklearn from sklearn.svm import LinearSVR from sklearn.pipeline import make_pipeline from sklearn.preprocessing import StandardScaler from sklearn.model_selection import train_test_split import pandas as pd import numpy as np import matplotlib.pyplot as plt from torch.utils.data import TensorDataset, DataLoader from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score import psutil import torch import torch.nn as nn import seaborn as sns from Transformer import TransformerRegressor,EnhancedHybridTransformerRegressor sns.set_style("whitegrid") sns.set_palette("husl") try: plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] plt.rcParams['axes.unicode_minus'] = False except: from matplotlib.font_manager import fontManager fontManager.addfont('C:/Windows/Fonts/msyh.ttc') plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] plt.rcParams['axes.unicode_minus'] = False def print_memory_usage(): process = psutil.Process() print(f"内存占用: {process.memory_info().rss / 1024 ** 2:.2f} MB") df = pd.read_csv('1_encoded.csv') num_size = 0.7 outdim = 1 num_samples = df.shape[0] random_indices = np.random.permutation(num_samples) df = df.iloc[random_indices, :] num_train_s = round(num_size * num_samples) f_ = df.shape[1] - outdim P_train = df.iloc[:num_train_s, :f_].values T_train = df.iloc[:num_train_s, f_:].values.reshape(-1, 1) P_test = df.iloc[num_train_s:, :f_].values T_test = df.iloc[num_train_s:, f_:].values.reshape(-1, 1) scaler = StandardScaler() P_train_scaled = scaler.fit_transform(P_train) P_test_scaled = scaler.transform(P_test) train_X = torch.tensor(P_train_scaled.reshape(-1, 1, f_), dtype=torch.float32) train_Y = torch.tensor(T_train, dtype=torch.float32) test_X = torch.tensor(P_test_scaled.reshape(-1, 1, f_), dtype=torch.float32) test_Y = torch.tensor(T_test, dtype=torch.float32) train_loader = DataLoader(TensorDataset(train_X, train_Y), batch_size=64, shuffle=True, pin_memory=True) model = TransformerRegressor(f_, outdim) # optimizer = torch.optim.Adam(model.parameters(), lr=0.001, weight_decay=1e-4) optimizer = torch.optim.Adam(model.parameters(), lr=0.001, weight_decay=1e-4) criterion = nn.MSELoss() for epoch in range(100): model.train() for batch_X, batch_y in train_loader: optimizer.zero_grad() outputs = model(batch_X) loss = criterion(outputs, batch_y) loss.backward() torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0) optimizer.step() if epoch % 10 == 0: print(f'Epoch {epoch}, Loss: {loss.item():.4f}') print_memory_usage() torch.save({ 'model_state_dict': model.state_dict(), 'optimizer_state_dict': optimizer.state_dict(), 'input_dim': f_, 'output_dim': outdim, 'scaler_mean': scaler.mean_, 'scaler_scale': scaler.scale_ }, 'model_1000.pth') model.eval() with torch.no_grad(): test_pred = model(test_X).numpy().flatten() results_df = pd.DataFrame({ 'True_Value': T_test.flatten(), 'Predicted_Value': test_pred }) results_df.to_csv('2_comparison_results.csv', index=False, float_format='%.6f') errors = T_test.flatten() - test_pred metrics = { "MAE": mean_absolute_error(T_test, test_pred), "MSE": mean_squared_error(T_test, test_pred), "RMSE": np.sqrt(mean_squared_error(T_test, test_pred)), "R²": r2_score(T_test, test_pred), } fig = plt.figure(figsize=(18, 12)) plt.rc('font', size=10) ax1 = plt.subplot2grid((3, 2), (0, 0), colspan=2) sample_indices = np.arange(len(T_test)) ax1.plot(sample_indices, T_test, 'b-', alpha=0.6, label='真实值') ax1.plot(sample_indices, test_pred, 'r--', alpha=0.8, label='预测值') ax1.set_title('预测值与真实值趋势对比', fontsize=12, pad=10) ax1.set_xlabel('样本序号', fontsize=10) ax1.set_ylabel('目标值', fontsize=10) ax1.legend(loc='upper right', frameon=False) ax1.grid(True, linestyle='--', alpha=0.6) ax2 = plt.subplot2grid((3, 2), (1, 0)) sc = ax2.scatter(T_test, test_pred, c=errors, cmap='coolwarm', alpha=0.7, edgecolors='none', vmin=-np.abs(errors).max(), vmax=np.abs(errors).max()) plt.colorbar(sc, ax=ax2, label='预测误差') lims = [np.min([ax2.get_xlim(), ax2.get_ylim()]), np.max([ax2.get_xlim(), ax2.get_ylim()])] ax2.plot(lims, lims, 'k--', alpha=0.5, lw=2) sns.regplot(x=T_test.flatten(), y=test_pred, ax=ax2, scatter=False, color='orange', line_kws={'lw':1.5}) ax2.set_title(f'预测值 vs 真实值 (R²={metrics["R²"]:.3f})', fontsize=12) ax2.set_xlabel('真实值', fontsize=10) ax2.set_ylabel('预测值', fontsize=10) ax3 = plt.subplot2grid((3, 2), (1, 1)) sns.histplot(errors, kde=True, ax=ax3, color='purple', bins=30, alpha=0.5, edgecolor='w') ax3.axvline(0, color='gray', linestyle='--', alpha=0.8) ax3.set_title('预测误差分布', fontsize=12) ax3.set_xlabel('预测误差', fontsize=10) ax3.set_ylabel('密度', fontsize=10) ax4 = plt.subplot2grid((3, 2), (2, 0), colspan=2) cell_text = [[f"{v:.4f}" for v in metrics.values()]] table = ax4.table(cellText=cell_text, colLabels=list(metrics.keys()), loc='center', cellLoc='center', bbox=[0.2, 0, 0.6, 1]) table.auto_set_font_size(False) table.set_fontsize(12) ax4.axis('off') plt.tight_layout() plt.subplots_adjust(hspace=0.4, wspace=0.3) plt.savefig('3_analysis_dashboard.png', dpi=150, bbox_inches='tight') plt.close()

评论收藏

内容反馈