1.对于属性值数据
可以用柱状图分析属性类别的数目等信息,以及行频率,列频率进行分析,以及饼状图,族形柱状图与结构柱状图(分组的柱形图和堆叠的柱形图)
2. 对于数值型数据,
1)首先通过直方图观察数据分布,是单峰,双峰还是均匀分布,左偏还是右偏,还是对称的,
2)然后分析中心趋势(中位数和均值)和离散趋势(四分位差,标准差,极差),通常,有偏分布,分析中位数和四分位差,对称分布,分析均值和标准差,注意,对于单峰分布,其四分位数差通常比标准差要大,若不是这样,需要重新检查数据分布是不是无偏的,有没有异常值存在。
3)细致讨论其他不常见的特征
对于多峰分布,需要分析出出现的原因,找到原因后,最好再数据分组进行分析;
需要指出明显的异常值。先对数据计算均值和标准差,然后对剔除异常值后的数据计算均值以及标准差,对他们的差别进行比较说明。异常值的存在对中位数和四分分位数差基本上没什么影响。
(均值与中位数相差不大,说明异常值影响不大;对多峰的数据,最好把他们区分开,然后分别进行描述)
3.利用直方