- 博客(8)
- 资源 (2)
- 收藏
- 关注
原创 特征工程-特征稳定性
PSI(Population Stability Index)是一种用于衡量两个分布之间差异的指标,常用于评估模型在不同时间段或不同群体上的稳定性。计算(P_i - Q_i) * ln(P_i / Q_i)的值,并将所有区间的结果求和,得到PSI值。PSI值的范围通常在0到正无穷之间,值越大表示两个分布之间的差异越大,稳定性越低。对于每个区间,计算P_i和Q_i的值,分别表示两个时间段或群体中该区间的占比。其中,P_i和Q_i分别表示两个分布中第i个区间的占比。1、PSI概念及计算公式。
2024-08-16 20:12:24
790
原创 特征工程-类别型特征处理
有序型特征的标签编码(Label Encoding):对于有序型的类别型特征,可以使用标签编码将其转换为连续的整数值。目标编码(Target Encoding):目标编码是一种将类别型特征转换为数值型特征的方法,将每个类别对应的目标变量的平均值或其他统计量作为特征值。频率编码(Frequency Encoding):频率编码是一种将类别型特征转换为数值型特征的方法,将每个类别出现的频率作为特征值。类别型特征处理是指对机器学习模型中的类别型特征进行预处理和转换的过程。
2024-08-14 19:05:46
482
原创 模型评估-指标
精确度是衡量模型预测为正类的样本中有多少是真正的正类。召回率是衡量真正的正类中有多少被模型正确预测为正类。它是最常见的分类模型评估指标之一。精确度 = (真正的正类样本数) / (真正的正类样本数 + 假正类样本数)召回率 = (真正的正类样本数) / (真正的正类样本数 + 假负类样本数)精确度高表示模型能够准确地将正类标记为正类,但可能会忽略一些真正的正类。召回率高表示模型能够捕捉更多的正类,但可能会将一些负类错误地预测为正类。F1 = 2 x (精确率 x 召回率) / (精确率 + 召回率)
2024-08-14 18:31:51
445
原创 特征工程-缺失值处理
数值型(Numerical):数值型特征是指具有数值意义的特征,可以进行数学运算。连续型特征是指在一定范围内可以取任意值的特征,如年龄、身高等。多重插补(Multiple Imputation):多重插补是一种基于模型的缺失值处理方法,它通过多次填充缺失值并生成多个完整的数据集,然后对这些数据集进行分析和合并得到最终结果。填充缺失值(Imputation):填充缺失值是指用某种方法将缺失值替换为一个合理的估计值。一般的处理方案,数值型填充固定的一个数值,如果-1,类别型填充'U'或者其他可自定义。
2024-08-14 18:23:06
619
原创 org.hibernate.AnnotationException: No identifier specified for entity: com.jlu.ejb3.bean.CommentContent
因为数据库的表必须要定义主键,此类没有定义主键
2011-06-03 10:21:00
525
原创 Call to undefined function: mcrypt_module_open()
当php的服务器端缺少libmcrypt.dll,使用函数mcrypt_module_open会出现此错误.在服务器上做如下设置可解决.下载一个libmcrypt.dll文件1.将libmcrypt.dll复制到php安装目录下的ext目录下 2.到打开php.ini文件,打开它 3.找到; extension=php_mcrypt.dll这一行,去掉前面的分号注释
2010-05-14 10:00:00
939
struts2-core-2.0.11.1.jar
2010-08-12
mod_jk-1.2.26-httpd-2.0.61.so
2011-03-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人