import org.apache.spark.sql.{DataFrame, SparkSession} import org.apache.spark.sql.functions._ import org.apache.spark.ml.feature.VectorAssembler import org.apache.spark.ml.stat.Correlation import org.apache.spark.sql.types.DataTypes import org.apache.spark.ml.linalg.{Matrix, DenseMatrix} import scala.collection.JavaConverters._ // 引入 Scala 集合到 Java 集合的转换工具 object SparkCorrelationAnalysis { def main(args: Array[String]): Unit = { val conf = new org.apache.spark.SparkConf() .setAppName("SparkCorrelationAnalysis") .setMaster("local[*]") .set("spark.driver.allowMultipleContexts", "true") // 添加这个配置 val spark = SparkSession.builder() .config(conf) .getOrCreate() import spark.implicits._ try { val dataPath = "D:/OneDrive/桌面/crop.csv" val df: DataFrame = spark.read .option("header", "true") .option("inferSchema", "true") .csv(dataPath) .withColumn("Value", col("Value").cast(DataTypes.DoubleType)) val processedDF: DataFrame = preprocessData(df) processedDF.show(5, false) // 收集所有唯一的产品项到驱动程序 val products = processedDF.select("Item").distinct().collect().map(_.getString(0)) // 对每个产品并行处理 products.par.foreach { product => val productDF: DataFrame = processedDF.filter($"Item" === product) if (productDF.count() > 1) { val correlationDF = calculateCorrelation(spark, productDF) correlationDF.show(false) } else { println(s"Not enough data for product: $product") } } } catch { case e: Exception => e.printStackTrace() println(s"Error occurred: ${e.getMessage}") } finally { spark.stop() } } private def preprocessData(df: DataFrame): DataFrame = { df .filter(col("Element").isin("Production", "Export Quantity")) .groupBy("Year", "Item", "Element") .agg(sum("Value").alias("TotalValue")) .groupBy("Year", "Item") .pivot("Element", Seq("Production", "Export Quantity")) .agg(first("TotalValue")) .withColumnRenamed("Export Quantity", "Export") .na.fill(0.0) } private def calculateCorrelation(spark: SparkSession, df: DataFrame): DataFrame = { try { // 确保DataFrame包含所需的列 val requiredColumns = Seq("Production", "Export") if (!requiredColumns.forall(df.columns.contains)) { return spark.createDataFrame(Seq( ("Error", "Missing columns", "Missing columns") )).toDF("指标", "与生产相关性", "与出口相关性") } import spark.implicits._ // 在worker节点上执行相关计算 df.sparkSession.sparkContext.runJob(df.rdd, (iter: Iterator[org.apache.spark.sql.Row]) => { // 将RDD行转换为Java列表 val javaRows = iter.toSeq.asJava // 将 Scala Seq 转换为 Java List // 使用 Java 列表创建 DataFrame val localDF = df.sparkSession.createDataFrame(javaRows, df.schema) val assembler = new VectorAssembler() .setInputCols(Array("Production", "Export")) .setOutputCol("features") .setHandleInvalid("skip") val vectorDF = assembler.transform(localDF) val corrMatrix = Correlation.corr(vectorDF, "features").head().getAs[Matrix](0) Seq( ("Production", corrMatrix.apply(0, 1).toString, corrMatrix.apply(0, 1).toString), ("Export", corrMatrix.apply(1, 0).toString, corrMatrix.apply(1, 0).toString) ).toDF("指标", "与生产相关性", "与出口相关性") }) .head // 返回第一个结果 } catch { case e: Exception => println(s"Error calculating correlation: ${e.getMessage}") spark.createDataFrame(Seq( ("Error", e.getMessage, e.getMessage) )).toDF("指标", "与生产相关性", "与出口相关性") } } }Error calculating correlation: Task not serializable Error calculating correlation: Task not serializable Error calculating correlation: Task not serializable Error calculating correlation: Task not serializable +-----+---------------------+---------------------+ |指标 |与生产相关性 |与出口相关性 | +-----+---------------------+---------------------+ |Error|Task not serializable|Task not serializable| +-----+---------------------+---------------------+ +-----+---------------------+---------------------+ |指标 |与生产相关性 |与出口相关性 | +-----+---------------------+---------------------+ |Error|Task not serializable|Task not serializable| +-----+---------------------+---------------------+ +-----+---------------------+---------------------+ |指标 |与生产相关性 |与出口相关性 | +-----+---------------------+---------------------+ |Error|Task not serializable|Task not serializable| +-----+---------------------+---------------------+ +-----+---------------------+---------------------+ |指标 |与生产相关性 |与出口相关性 | +-----+---------------------+---------------------+ |Error|Task not serializable|Task not serializable| +-----+---------------------+---------------------+ Process finished with exit code 0 改一下代码

import org.apache.log4j.Level; import org.apache.log4j.Logger; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; import org.apache.spark.sql.api.java.UDF1; import org.apache.spark.sql.types.DataTypes; public class TrainClean { public static void main(String[] args) { / Begin / Logger.getLogger("org").setLevel(Level.ERROR); SparkSession spark = SparkSession.builder().master("local").appName("Boxoffice_Movie").getOrCreate(); spark.stop(); / Begin / } }

import org.apache.spark.sql.functions._ object SparkWithLog4jAndUDF { // 设置日志级别为 ERROR 或其他所需级别 Logger.getLogger("org").setLevel(Level.ERROR) def main(args: Array[String]): Unit = {...

package com; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; import org.apache.spark.sql.api.java.UDF1; import org.apache.spark.sql.types.DataTypes; import static org.apache.spark.sql.functions.col; public class SparkClean { public static void saveParquet(SparkSession spark) { / Begin / //读取json文件 //清洗字段为空或字段值为空的数据 //自定义函数，对薪资进行计算 //注册为临时表 //使用该函数并将其存入parquet文件中 / End / } }

import static org.apache.spark.sql.functions.*; // 假设我们有一个名为 "name" 和 "age" 的列 Dataset<Row> cleanedDF = jsonDF.filter(col("name").isNotNull() && col("age").isNotNull()); 这里利用了 ...

代码如下： import breeze.numerics.round import org.apache.spark.sql.functions.col import org.apache.spark.sql.types.{DoubleType, IntegerType} import org.apache.spark.{SparkConf, SparkContext} import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.DataFrame object Titanic_c { def main(args: Array[String]) = { Logger.getLogger("org").setLevel(Level.ERROR) val conf = new SparkConf().setAppName("Titanic_c").setMaster("local[2]") val sc = new SparkContext(conf) val spark = org.apache.spark.sql.SparkSession.builder .master("local") .appName("Titanic") .getOrCreate; val df = spark.read .format("csv") .option("header", "true") .option("mode", "DROPMALFORMED") .load("datasets/Titanic_s.csv") import spark.implicits._ df.withColumn("Pclass", df("Pclass").cast(IntegerType)) .withColumn("Survived", df("Survived").cast(IntegerType)) .withColumn("Age", df("Age").cast(DoubleType)) .withColumn("SibSp", df("SibSp").cast(IntegerType)) .withColumn("Parch", df("Parch").cast(IntegerType)) .withColumn("Fare", df("Fare").cast(DoubleType)) val df1 = df.drop("PassengerId").drop("Name").drop("Ticket").drop("Cabin") val columns = df1.columns val missing_cnt = columns.map(x => df1.select(col(x)).where(col(x).isNull).count) val result_cnt = sc.parallelize(missing_cnt.zip(columns)).toDF("missing_cnt", "column_name") result_cnt.show() import breeze.stats._ def meanAge(dataFrame: DataFrame): Double = { dataFrame .select("Age") .na.drop() .agg(round(mean("Age"), 0)) .first() .getDouble(0) } val df2 = df1 .na.fill(Map( "Age" -> meanAge(df1), "Embarked" -> "S")) val survived_count = df2.groupBy("Survived").count() survived_count.show() survived_count.coalesce(1).write.option("header", "true").csv("datasets/survived_count.csv") } }

这个代码中的 mean 函数是 Spark SQL 中的函数，但是在 breeze.stats 包中也有一个名为 mean 的函数，这可能导致了混淆。为了解决这个问题，你可以尝试将 mean 函数改名为其他的变量名，例如： scala ...

package org.example import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ object house { def main(args: Array[String]): Unit = { // 创建SparkSession val spark = SparkSession.builder() .appName("House Rental Count") .master("local[]") // 在本地运行，使用所有可用的核心 .getOrCreate() import spark.implicits._ // 读取house.txt文件 val filePath = "C:/s/house.txt" // 替换为你的文件路径 try { val houseDF = spark.read .option("header", "true") // 假设文件有表头 .csv(filePath) // 打印DataFrame的schema和前几行数据 houseDF.printSchema() houseDF.show(5, truncate = false) // 统计各地区的出租房数 val rentalCountDF = houseDF .groupBy("region") .agg(count("").as("rental_count")) .select($"region", $"rental_count") // 展示结果 rentalCountDF.show() } catch { case e: Exception => println(s"Error reading file: ${e.getMessage}") } finally { // 关闭SparkSession spark.st

import org.apache.spark.{SparkConf, SparkContext} // 初始化 Spark 上下文 val conf = new SparkConf().setAppName("HouseCount").setMaster("local[*]") val sc = new SparkContext(conf) // 读取 house.txt ...

import breeze.numerics.round import breeze.stats.mean import org.apache.spark.sql.functions.col import org.apache.spark.sql.types.{DoubleType, IntegerType} import org.apache.spark.{SparkConf, SparkContext} import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.DataFrame object Titanic_c { def main(args: Array[String]) = { Logger.getLogger("org").setLevel(Level.ERROR) val conf = new SparkConf().setAppName("Titanic_c").setMaster("local[2]") val sc = new SparkContext(conf) val spark = org.apache.spark.sql.SparkSession.builder .master("local") .appName("Titanic") .getOrCreate; val df = spark.read .format("csv") .option("header", "true") .option("mode", "DROPMALFORMED") .load("datasets/Titanic_s.csv") import spark.implicits._ df.withColumn("Pclass", df("Pclass").cast(IntegerType)) .withColumn("Survived", df("Survived").cast(IntegerType)) .withColumn("Age", df("Age").cast(DoubleType)) .withColumn("SibSp", df("SibSp").cast(IntegerType)) .withColumn("Parch", df("Parch").cast(IntegerType)) .withColumn("Fare", df("Fare").cast(DoubleType)) val df1 = df.drop("PassengerId").drop("Name").drop("Ticket").drop("Cabin") val columns = df1.columns val missing_cnt = columns.map(x => df1.select(col(x)).where(col(x).isNull).count) val result_cnt = sc.parallelize(missing_cnt.zip(columns)).toDF("missing_cnt", "column_name") result_cnt.show() def meanAge(dataFrame: DataFrame): Double = { dataFrame .select("Age") .na.drop() .agg(round(mean("Age"), )) .first() .getDouble(0) } val df2 = df1 .na.fill(Map( "Age" -> meanAge(df1), "Embarked" -> "S")) val survived_count = df2.groupBy("Survived").count() survived_count.show() survived_count.coalesce(1).write.option("header", "true").csv("datasets/survived_count.csv") } }

这是一个使用Spark读取Titanic数据集并对其进行预处理的Scala代码。这个代码将CSV文件读取为一个DataFrame，然后对其中的缺失值进行处理，并计算了生还和死亡人数的统计信息，最后将结果写入CSV文件。首先，代码...

import org.apache.spark.sql.functions._ import org.apache.spark.sql.{SparkSession, DataFrame} // 创建 SparkSession val spark = SparkSession.builder() .appName("DataFrameFilterExample") .master("local") .getOrCreate() // 创建一个示例 DataFrame val data = Seq( ("Alice", 25, "F"), ("Bob", 30, "M"), ("Charlie", 35, "M"), ("Diana", 28, "F") ) val df = spark.createDataFrame(data).toDF("name", "age", "gender") // 使用 filter 方法进行过滤 val filteredDF: DataFrame = df.filter(substr(df("name"), 1, 2) === "Ch" && df("age") === 35) // 显示过滤后的结果 filteredDF.show()

这段代码将演示如何使用 filter 方法对 DataFrame 进行多条件过滤。你在过滤中使用了 substr 函数截取了 name 列的前两个字符，并将其与字符串 "Ch" 进行比较。此外，你还添加了另一个条件，即 age 列的值...

import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} import org.apache.spark.sql.functions._ object turbine_analysis01 { def main(args: Array[String]): Unit = { //创建SparkSQL的运行环境 val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Task01") val spark =SparkSession.builder().config(sparkConf).getOrCreate() //文件路径 val path = "/data/bigfiles/b18905c9-028a-4475-9c57-a35c8323d484.csv" / Begin / // 读取 Turbine.csv数据，分析风车 2019年每月有功功率、无功功率、总功率（总功率等于有功功率与无功功率之和）的生产情况,根据月份升序排序 // 将统计结果保存至 turbine数据库中的 power_info表中(保存方式中 overwrite是重新建表并覆盖原数据, append是在原有表基础上追加数据) / End / spark.close() } }

from pyspark.sql.functions import col, month, year, sum # 创建 SparkSession spark = SparkSession.builder \ .appName("Turbine Power Analysis") \ .enableHiveSupport() \ .getOrCreate() # 设置输入...

package com.university.demo.util.spark; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.DataFrame; import org.apache.spark.sql.Row; import org.apache.spark.sql.SQLContext; import org.springframework.stereotype.Component; import java.util.Properties; @Component public class Sparkdao { private final String DB_URL = "jdbc:mysql://localhost:3396/kaoyan?useSSL=false&serverTimezone=Asia/Shanghai"; private final String DB_USERNAME = "root"; private final String DB_PASSWORD = "123456"; private SparkConf sparkConf; private JavaSparkContext javaSparkContext; private SQLContext sqlContext; public Properties getDBProperties(){ Properties props = new Properties(); props.put("user", DB_USERNAME); props.put("password", DB_PASSWORD); return props; } /* * 初始化Load * 创建sparkContext, sqlContext, hiveContext * / public Sparkdao() { initSparckContext(); initSQLContext(); } / * 创建sparkContext * / private void initSparckContext() { String warehouseLocation = System.getProperty("user.dir"); sparkConf = new SparkConf() .setAppName("from-to-mysql") .set("spark.sql.warehouse.dir", warehouseLocation) .setMaster("local"); javaSparkContext = new JavaSparkContext(sparkConf); } / * 创建sqlContext * 用于读写MySQL中的数据 * */ private void initSQLContext() { sqlContext = new SQLContext(javaSparkContext); } public Integer count(String table) { DataFrame rows = sqlContext.read().jdbc(DB_URL, table, getDBProperties()).where("1=1"); JavaRDD<Row> testRdd= rows.toJavaRDD(); return testRdd.collect().size(); } public Integer countLog(String type) { DataFrame rows = sqlContext.read().jdbc(DB_URL, "tb_log", getDBProperties()). where("opt ='" + type + "'"); JavaRDD<Row> testRdd= rows.toJavaRDD(); return testRdd.collect().size(); } }

1. **核心作用**：通过Apache Spark连接MySQL数据库，统计指定表的记录总数，或按类型统计日志表记录数。 2. **依赖组件**： - SparkConf：配置Spark应用（本地模式）。 - JavaSparkContext：Spark执行入口。 ...

import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.sql._ import org.apache.spark.sql.functions._ class Sale { } object Sale { case class Sale(cardId:String,productId:Int,quantity:Int,money:Double) def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("Pharmacy Sales Analysis").setMaster("local") val sc = new SparkContext(conf) sc.setLogLevel("ERROR") val sqlContext = new SQLContext(sc) // load data val data = sc.textFile(args(0)) // parse data val salesRDD: RDD[Sale] = data.map(line => line.split(" ")).map(arr => Sale(arr(0), arr(1).toInt, arr(2).toInt, arr(3).toDouble)) import sqlContext.implicits._ val df = salesRDD.toDF() val nameMoneyDF = df.select("productId","money","quantity") nameMoneyDF.show(5) val totalSales = nameMoneyDF.groupBy("productId").sum("quantity") //totalSales.show(5) val topSales = totalSales.select(totalSales("productId"),totalSales("sum(quantity)").as("Totalquantity")) .orderBy(desc("Totalquantity")) topSales.show(5) val totalbuy = df.groupBy("cardId").sum("quantity") //totalbuy.show(5) val topbuy = totalbuy.select(totalbuy("cardId"),totalbuy("sum(quantity)").as("Totalquantity")) .orderBy(desc("Totalquantity")) topbuy.show(5) val Oneproduct:Dataset[Row]= topSales.select("productId","Totalquantity").filter(row=>row.getAs[String]("productId") == 230010) Oneproduct.show() sc.stop() }}帮我写个注释

import org.apache.spark.sql.functions._ class Sale { } object Sale { case class Sale(cardId:String,productId:Int,quantity:Int,money:Double) def main(args: Array[String]): Unit = { val conf = new...

Scala ratings.csv文件文件里面的内容包含了每一个用户对于每一部电影的评分。数据格式如下： userId, movieId, rating, timestamp userId: 每个用户的id movieId: 每部电影的id rating: 用户评分，是5星制 timestamp: 自1970年1月1日零点后到用户提交评价的时间的秒数 movies.csv文件 movieId: 每部电影的Id title：每部电影的名字编程实现RDD转DataFrame，并选择一个合理的SQL分析。import org.apache.spark.sql.Row import org.apache.spark.sql.types._

import org.apache.spark.sql.functions._ // 计算每部电影的平均评分 val avgRatingsDF = ratingsDF.groupBy("movieId").agg(avg("rating").alias("avgRating")) // 将电影名称与平均评分进行关联 val ...

package com.twq import org.apache.avro.generic.GenericData.StringType import org.apache.spark.sql.SparkSession import org.apache.spark.sql.types.DoubleType import org.apache.spark.{SparkConf, SparkContext} object FlightsDelayPredictor { def main(args: Array[String]): Unit = { //1.Spark应用的配置 val conf = new SparkConf() if (!conf.contains("spark.master")) { conf.setMaster("local[3]").setAppName("FlightsDelayPredictor") } val sc = new SparkContext(conf) sc.setLogLevel("Warn") val spark = SparkSession.builder() .config(conf) .getOrCreate() //提供很多隐式转换功能 //2.加载数据 var flightsDF = spark.read .option("header", "true") .csv("data/2008.csv") .select(col("Year").cast(StringType), //年 col("Month").cast(StringType), //月 col("DayofMonth").cast(StringType), //日 col("DayofWeek").cast(DoubleType), //星期 col("CRSDepTime").cast(StringType), //计划离开时间 col("CRSArrTime").cast(StringType), //预计到达时间 col("UniqueCarrier").cast(StringType), col("CRSElapsedTime").cast(DoubleType), col("ArrDelay").cast(DoubleType), col("DepDelay").cast(DoubleType), col("Origin").cast(StringType), col("Dest").cast(StringType), col("Distance").cast(DoubleType), col("TaxiOut").cast(DoubleType), val flightsDF: DataFrame = spark.read.format("csv").option("header", "true").load("path/to/flights.csv")flightsDF.show() flightsDF.show() ) } }

1. 缺少 org.apache.spark.sql.functions._ 的 import 语句，导致 col 函数无法使用。你需要在代码中加入以下 import 语句： scala import org.apache.spark.sql.functions._ 2. 变量 flightsDF ...

import org.apache.spark.SparkConf import org.apache.spark.sql.{SaveMode, SparkSession} object DataAnalysis03 { def main(args: Array[String]): Unit = { /Begin/ //读取数据 //车费是以分为单位转换成以元为单位的数值 /End/ } }

import org.apache.spark.sql.functions._ object FareConversionExample { def main(args: Array[String]): Unit = { // 创建 SparkSession val spark = SparkSession.builder() .appName("Fare Conversion ...

import org.apache.log4j.{Level, Logger} import org.apache.spark.SparkConf import org.apache.spark.sql.functions._ import org.apache.spark.sql.{DataFrame, SparkSession} import java.sql.Timestamp import java.text.SimpleDateFormat import java.util.Calendar object prac1 { def main(args: Array[String]): Unit = { System.setProperty("HADOOP_USER_NAME","root") Logger.getLogger("org").setLevel(Level.ERROR) val sparkConf = new SparkConf().setMaster("local[*]").setAppName("task1") val spark = new SparkSession.Builder().config(sparkConf) .config("spark.sql.warehouse.dir", "hdfs://node1:8020/user/hive/warehouse") .config("spark.sql.shuffle.partitions", "1500") .config("dfs.replications", "3") .config("hive.exec.dynamic.partition.mode", "nonstrict") .config("hive.exec.max.dynamic.partitions", "3000") .enableHiveSupport() .getOrCreate() val table=Array("customer_inf","product_info","order_master","order_detail") table.foreach(x=>{ println(s"===================抽取数据：$x=====================") val mysql = new Tools().loadMysql(spark, x).cache() mysql.show() println("====================获取增量字段=====================") var incre: Any = null val simple = new SimpleDateFormat("yyyyMMdd") val calendar=Calendar.getInstance() calendar.add(Calendar.DATE,-1) val etl_date = simple.format(calendar.getTime) val simple1 = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss") if (x=="customer_inf"){ incre = spark.table(s"ods.customer_inf").select(max("modified_time")).collect()(0).get(0) if (incre==null){ incre=Timestamp.valueOf(simple1.parse("0").getTime.toString) } } else { incre = spark.table(s"ods.$x").select(max("modified_time")).collect()(0).get(0) if (incre==null){ incre=Timestamp.valueOf(simple1.parse("0").getTime.toString) } } println(s"======================Final incre:$incre=======================") mysql.where(col("modified_time")>incre) .withColumn("etl_date",lit(etl_date).cast("string")) // .show() .write.format("hive").mode("append").partitionBy("etl_date").saveAsTable(s"ods.$x") }) spark.close() } } class Tools { def loadMysql(spark:SparkSession,table:String): DataFrame ={ val prop=Map( "url"->"jdbc:mysql://node1/ds_db01?useSSL=false", "driver"->"com.mysql.jdbc.Driver", "user"->"root", "password"->"8888", "dbtable"->table ) spark.read.format("jdbc") .options(prop) .load() } }用这里小白我该怎么写这个代码，还有怎么记

- Spark SQL：spark.read.format("jdbc") - Hive集成：saveAsTable写入 - 时间处理：SimpleDateFormat用法 2. 再掌握增量逻辑： - 通过modified_time字段判断新增/更新 - 使用max()函数获取最新时间...

package com.yy import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, Dataset, SparkSession} object edu{ /Begin/ // 此处可填写相关代码 /End/ def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .appName("Spark SQL") .master("local") .config("spark.some.config.option", "some-value") .getOrCreate() val rdd = spark.sparkContext.textFile("file:///root/files/part-00000-4ead9570-10e5-44dc-80ad-860cb072a9ff-c000.csv") /Begin/ // 清洗脏数据（字段长度不足 23 的数据视为脏数据） // 将出生日期改为 xxxx-xx-xx 格式（例如 19000101：1900-01-01，如果该属性为空不做处理，结果只取前 10 行） // 将结果保存成 csv 格式到 file:///root/files-out 目录下 /End/ spark.stop() } }

from pyspark.sql.functions import col, length, to_date, expr # 创建SparkSession spark = SparkSession.builder \ .master("local[*]") \ .appName("DataCleaningWithDF") \ .getOrCreate() # 假设输入数据...

import org.apache.log4j.{Level, Logger} import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.graphx._ object farthest_distance{ def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("farthest distance").setMaster("local[4]") val sc = new SparkContext(conf) //屏蔽日志 Logger.getLogger("org.apache.spark").setLevel(Level.WARN) Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF) //构造图 val myVertices = sc.parallelize(Array((1L,"Ann"),(2L,"Bill"),(3L,"Diane"),(4L,"Cody"),(5L,"Adam"),(6L,"Bob"))) val myEdges = sc.parallelize(Array(Edge(1L,2L,""),Edge(2L,3L,""),Edge(2L,4L,""),Edge(3L,4L,""),Edge(4L,5L,"C"),Edge(4L,6L,""),Edge(5L,6L,""))) //构造EdgeRDD val myGraph = Graph(myVertices,myEdges) //**Begin* //使用pregel函数找到距离Ann（1号）最远的顶点 //得到返回的新图的顶点集合 println("") //输出结果 //End**************** } }

from pyspark.sql.functions import lit # 初始化图，顶点属性为距离 initialGraph = graph.mapVertices(lambda vid, attr: float('inf') if vid != 1 else 0) # 定义Pregel参数 result = initialGraph.pregel( ...

毕业设计-weixin257基于大学生社团活动管理的微信小程序的设计与实现ssm.zip

源码+数据库+配套文档+答辩教程

毕业设计-java jsp ssm mysql 023废旧家电回收管理系统-qlkrp.zip

源码+数据库+配套文档+答辩教程

相关推荐

高级Java人才培训专家-3-Structured Streaming.doc

hbase-1.4.10-bin.tar.gz

sparkOptics:Spark DataFrame的光学元件

毕业设计-weixin257基于大学生社团活动管理的微信小程序的设计与实现ssm.zip

毕业设计-java jsp ssm mysql 023废旧家电回收管理系统-qlkrp.zip

大家在看

ChromeStandaloneSetup 87.0.4280.66（正式版本） （64 位）

HVDC_高压直流_cigre_CIGREHVDCMATLAB_CIGREsimulink

白盒测试基本路径自动生成工具制作文档附代码

vindr-cxr:VinDr-CXR

基于遗传算法的机场延误航班起飞调度模型python源代码

最新推荐

毕业设计-weixin257基于大学生社团活动管理的微信小程序的设计与实现ssm.zip

毕业设计-java jsp ssm mysql 023废旧家电回收管理系统-qlkrp.zip

梅卡曼德1.5.3软件安装包 Mech-Center-1.5.2-465cabf-2022-05-11-a237ad44.exe

MongoDB基础操作与实战案例汇总.doc

llcom-硬件开发资源

飞思OA数据库文件下载指南

Qt信号与槽优化：提升系统性能与响应速度的实战技巧

D8流向算法

精选36个精美ICO图标免费打包下载

【Qt数据库融合指南】：MySQL与Qt无缝集成的技巧

ChromeStandaloneSetup 87.0.4280.66（正式版本）（64 位）