【Python】对抗验证

对抗验证是一种评估训练集和测试集分布差异的方法,通过构建二分类器来区分两者。如果某特征能有效区分这两部分数据,说明可能在训练集和测试集上有显著差异,可能导致过拟合。代码示例展示了如何使用LightGBM进行K折交叉验证,当特征区分性能超过阈值时,该特征会被认为不适合用于模型训练。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 概念

  • 对抗验证(Adversarial Validation)是一种用于检测训练集和测试集之间分布差异的技术。
  • 构建二分类器对将训练集和测试集进行区分,即将训练集和测试集的样本分别标记为0和1,从而判断它们之间的相似性。
  • 如果这个二分类器的性能很好,说明训练集和测试集之间的分布差异很大

2. 代码示例(挑选特征)

  • 每个特征依次单独作为训练特征预测adv,进行k折交叉验证,只要在交叉验证中出现了score超过阈值,则说明该特征能很好的区分训练集和测试集,相应的也说明该特征在测试集和训练集上分布差距过大,如果训练模型时加入会导致在训练集上过拟合该特征,影响泛化能力,应该剔除。
def get_adv_feats(df_train, df_test, feats):
	'''
	adv新特征标识训练集测试集
	训练集测试集合并,供后面交叉验证
	'''
    df_train['adv'] = 1
    df_test['adv'] = 0
    df = pd.concat([df_train, df_test]).reset_index(drop=True)
    
    params = {
        'learning_rate': 0.1,
        'boosting_type': 'gbdt',
        'objective': 'binary',
        'metric': 'auc',
        'seed': 2222,
        'n_jobs': 4,
        'verbose': -1,
    }
    
    fold_num = 5
    seeds = [2222]
    new_feats = []
    '''
    每个特征依次单独作为训练特征预测adv,
    进行k折交叉验证,
    只要在交叉验证中出现了score超过阈值,
    则说明该特征能很好的区分训练集和测试集,相应的也说明该特征在测试集和训练集上分布差距过大,
    如果训练模型时加入会导致在训练集上过拟合该特征,影响泛化能力,应该剔除。
	'''
    for f in feats:
        oof = np.zeros(len(df))
        for seed in seeds:
            kf = StratifiedKFold(n_splits=fold_num, shuffle=True, random_state=seed)
            for fold, (train_idx, val_idx) in enumerate(kf.split(df[[f]], df['adv'])):
                train = lgb.Dataset(df.loc[train_idx, [f]],
                                    df.loc[train_idx, 'adv'])
                val = lgb.Dataset(df.loc[val_idx, [f]],
                                  df.loc[val_idx, 'adv'])
                model = lgb.train(params, train, valid_sets=[val], num_boost_round=10000,  # feval=recall_score,
                                  callbacks=[lgb.early_stopping(100), lgb.log_evaluation(-1)])
                # 将预测结果除以“seeds”的数量,以避免由于随机种子的不同而导致预测结果存在过多的方差
                oof[val_idx] += model.predict(df.loc[val_idx, [f]]) / len(seeds)
                score = auc(df.loc[val_idx, 'adv'], oof[val_idx])
                if score > 0.85:
                    print('--------------------------------------', f, score)
                else:
                    new_feats.append(f)
                break
    return new_feats


feats = get_adv_feats(df_train, df_test, feats)
### Python在电子对抗领域中的应用 #### 库和工具的应用 Python作为一种高级编程语言,在电子战(EW)特别是电子对抗(ECM)方面提供了多种库和支持工具。这些资源使得开发人员能够快速构建原型并实现复杂的信号处理算法。 对于射频(RF)信号分析,`scikit-rf`是一个强大的开源库[^1]。它支持网络参数测量数据的操作以及微波电路设计仿真等功能。通过该库可以方便地读取、写入各种RF文件格式,并执行诸如去嵌入(embedding/deembedding)等操作来修正测试夹具的影响。 针对雷达截获与干扰模拟的需求,有专门面向EW任务场景下的软件包如`pyrad`. `pyrad`不仅实现了基本的目标检测跟踪功能,还集成了先进的自适应脉冲压缩技术用于提高分辨率的同时降低旁瓣电平。这有助于更精确地区分真实目标回波与其他杂波源产生的虚假反射. 另外值得一提的是GNU Radio框架,这是一个广泛应用于SDR(软件定义无线电)项目的平台。借助于其丰富的模块集合——包括但不限于调制解调器(Modem),编码纠错(Code Correction), 数字上/下变频(Digital Up-/Downconverter)- GNU Radio允许工程师们利用PC硬件完成从前只有专用设备才能做到的事情。特别是在ECM研究中,它可以用来创建灵活多样的发射机接收机组件来进行实验验证工作. ```python from gnuradio import gr, blocks, analog class TopBlock(gr.top_block): def __init__(self): super().__init__("Simple Transmitter") sample_rate = 32e3 amplitude = 0.1 src = analog.sig_source_c(sample_rate, analog.GR_SIN_WAVE, 1e3, amplitude) head = blocks.head(gr.sizeof_gr_complex, int(sample_rate*5)) dst = blocks.file_sink(gr.sizeof_gr_complex,'output.dat') self.connect(src,head,dst) tb = TopBlock() tb.start() tb.wait() ``` 此代码片段展示了如何使用GNU Radio创建一个简单的正弦波发生器并将输出保存到文件中。这对于生成特定类型的电磁辐射模式非常有用,可用于后续的干扰效果评估或训练目的。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值