一.简介
通过使用Summarizer提供矢量列【向量、矩阵】汇总统计Dataframe。可用的指标是按列的最大值,最小值,平均值,总和,方差,std和非零数,以及总数。
二.代码实战【以均值、方差为例】
package spark2.ml
import org.apache.log4j.{
Level, Logger}
import org.apache.spark.ml.linalg.{
Vector, Vectors}
import org.apache.spark.sql.SparkSession
import org.apache.spark.ml.stat.Summarizer._
/**
* Created by Administrator on 2020/7/3.
*/
object MLSummary {
/**
* 设置日志级别
*/
Logger.getLogger(