sample 算子_算子:sample(false, 0.1)抽样数据

这篇博客展示了如何在Spark SQL中使用HiveContext进行数据抽样,特别是使用`sample(false, 0.1)`算子从数据集中抽取10%的样本数据。通过Scala代码示例,解释了如何导入HiveContext,切换数据库,以及执行SQL查询以获取样本数据。最后,展示了抽样数据的计数结果。" 129737818,14913603,MATLAB仿真分析:锁相环环路稳态频率响应,"['MATLAB', '锁相环', '信号处理', '频率合成', '控制理论']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

抽样示例操作:

scala> import org.apache.spark.sql.hive.HiveContext

import org.apache.spark.sql.hive.HiveContext

scala> val hiveContext = new HiveContext(sc)

17/11/07 17:19:36 WARN SessionState: load mapred-default.xml, HIVE_CONF_DIR env not found!

17/11/07 17:19:37 WARN SessionState: load mapred-default.xml, HIVE_CONF_DIR env not found!

hiveContext: org.apache.spark.sql.hive.HiveContext = org.apache.spark.sql.hive.HiveContext@14cc2fdd

scala> hiveContext.sql("use my_hive_db")

17/11/07 17:19:40 WARN SessionState: METASTORE_FILTER_HOOK will be ignored, since hive.security.authorization.manager is set to instance of HiveAuthorizerFactory.

17/11/07 17:19:40 WARN UserGroupInformation: No groups available for user acount_rc

res20: org.apache.spark.sql.DataFrame = [result: string]

scala> val sampledPairs = hiveContext.sql("select objectid from myobjectid")

.map(s=>(s.getAs[String]("objectid"),1))

.sample(false, 0.1)

17/11/07 17:19:40 WARN UserGroupInformation: No groups available for user acount_rc

17/11/07 17:19:40 WARN UserGroupInformation: No groups available for user acount_rc

sampledPairs: org.apache.spark.rdd.RDD[(String, Int)] = PartitionwiseSampledRDD[1059] at sample at :32

scala> val sampledWordCounts = sampledPairs.countByKey

sampledWordCounts: scala.collection.Map[String,Long] = Map(193700355 -> 32348, 101549569 -> 81388, 100890370 -> 66425, 184703237 -> 60943,

184563457 -> 77401, 100692995 -> 55021, 184756482 -> 88707, 193611009 -> 1588, 185257985 -> 16457, 190035714 -> 14209, 153225089 -> 41515,

100811782 -> 115963, 100782849 -> 54729, 184581890 -> 70271, 185388291 -> 76225, 185278978 -> 40917, 80085891 -> 66957, 184957442 -> 59129,

153127554 -> 146, 101362179 -> 18600, 193658626 -> 48758, 79805058 -> 17477, 101623810 -> 263451, 184637699 -> 23640, 185363457 -> 24341,

153561730 -> 19010, 184722690 -> 2516, 79906177 -> 21106, 193805313 -> 78224, 184739585 -> 34405, 101342210 -> 60860, 193511427 -> 77125,

101244675 -> 624, 80425606 -> 12167, 189870594 -> 6944, 101441025 -> 39970, 185549825 -> 322, 101125633...

scala> sampledWordCounts.foreach(println(_))

(193700355,32348)

(101549569,81388)

(100890370,66425)

(184703237,60943)

(184563457,77401)

(100692995,55021)

(184756482,88707)

(193611009,1588)

(185257985,16457)

(190035714,14209)

(153225089,41515)

(100811782,115963)

(100782849,54729)

(184581890,70271)

数据库 定义 bit 类型 (true=1,false=0)

当Sql Server数据库定义 数据 为 bit 类型时, 编写代码时 要用 true or false 赋值. 例如: OffTheShelf  定义类型为  bit 后台赋值时 OffTheSh ...

java实现spark常用算子之Sample

import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...

Spark算子总结及案例

spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key-Value数据类型的Tran ...

spark Transformations算子

在java中,RDD分为javaRDDs和javaPairRDDs.下面分两大类来进行. 都必须要进行的一步. SparkConf conf = new SparkConf().setMaster(& ...

SparkCore| 算子

RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象.代码中是一个抽象类,它代表一个弹性的.不可变.可分区.里面的元素可并行 ...

Spark算子总结(带案例)

Spark算子总结(带案例) spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key ...

Spark常用算子-value数据类型的算子

package com.test; import java.util.ArrayList; import java.util.Arrays; import java.util.Iterator; im ...

spark算子(二)

1.collect算子 *使用foreachACTION操作 ,collect在远程集群中遍历RDD的元素 *使用collect操作,将分布式在远程集群中的数据拉取到本地 *这种方式不建议使用,如果数 ...

随机推荐

求50-100内的素数(java)

实现代码: public class sushu { public static void main(String[] args) { for(int i=50 ; i<=100; i++){ ...

使用ZIM桌面维基做笔记

最近尝试了使用ZIM做笔记,感觉还不错 ubuntu下直接到软件中心即可安装,或者 sudo apt-get install zim windows下的到此下载http://www.glump.net ...

oracle表数据类型number对应java中BIgDecimal转int

oracle中id为number类型,在java获取id时用getBigDecimal 相匹配, 如果想转换成int,重写model中的getInt方法: public Integer getInt( ...

递归算法(二)&mdash&semi;&mdash&semi;前缀转后缀

源码:pretopost.cpp #include "stdafx.h" #include #include /**** ...

在eclipse中进行Struts2项目的配置

Struts2是一个比较出色的基于MVC设计模式的框架,是由Struts1和WebWork发展而来的,性能也比较稳定,现在是Apache软件基金会的一个项目,下面就来配置Struts2进行初始化的开发 ...

c语言中通过指针将数值赋值到制定内存地址

1.一种直观的方法 假设现在需要往内存0x12ff7c地址上存入一个整型数0x100.我们怎么才能做到呢? 我们知道可以通过一个指针向其指向的内存地址写入数据,那么这里的内存地址0x12ff7c其本质 ...

Python的 is 运算符

1. is运算符判断的是同一性而不是相等性. #x和y都绑定到同一个列表,而z被绑定在另外一个具有相同数值和顺序的列表上 x = y = [1, 2, 3] z = [1, 2, 3] x == y ...

Spring各种注解标签作用详解

@Autowired和@Resource等注解是将Spring容器中的bean注入到属性,而@Component等注解是将bean放入Spring容器中管理. @Autowired spring2.1 ...

hdu 1548 A strange lift &lpar;bfs&rpar;

A strange lift Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Others) T ...

C&num; Windows Phone 8 WP8 开发,将WebClient的DownloadStringCompleted事件改成非同步的awiat方法。

原文:C# Windows Phone 8 WP8 开发,将WebClient的DownloadStringCompleted事件改成非同步的awiat方法. 一般我们在撰写Windows Phone ...

对下面faster_lio的config中rshelios.yaml文件进行修改common: lid_topic: "/rslidar_points" imu_topic: "/imu/data" # IMU 话题名称 imu_gravity_align: true # 自动对齐重力方向 frame_id_base: "base_link" voxel_size: 0.1 # 根据雷达精度调整体素降采样参数 time_sync_en: false # ONLY turn on when external time synchronization is really not possible preprocess: lidar_type: 2 # 1 for Livox serials LiDAR, 2 for Velodyne LiDAR, 3 for ouster LiDAR, scan_line: 32 blind: 2 time_scale: 1e-3 # 兼容不同数据集的时间单位,仅对Velodyne LiDAR(lidar_type=2)生效 mapping: acc_cov: 0.1 gyr_cov: 0.1 b_acc_cov: 0.0001 b_gyr_cov: 0.0001 fov_degree: 70 det_range: 200.0 extrinsic_est_en: true # true: enable the online estimation of IMU-LiDAR extrinsic extrinsic_T: [ 0.188, 0, 0.28 ] extrinsic_R: [ 1, 0, 0, 0, 1, 0, 0, 0, 1 ] publish: path_publish_en: false scan_publish_en: true # false: close all the point cloud output scan_effect_pub_en: true # true: publish the pointscloud of effect point dense_publish_en: true # false: low down the points number in a global-frame point clouds scan. scan_bodyframe_pub_en: true # true: output the point cloud scans in IMU-body-frame path_save_en: true # 保存轨迹,用于精度计算和比较 pcd_save: pcd_save_en: true interval: -1 # how many LiDAR frames saved in each pcd file; # -1 : all frames will be saved in ONE pcd file, may lead to memory crash when having too much frames. feature_extract_enable: false point_filter_num: 1 # 降采样率(1 表示不降采样,2 表示保留 50% 点云) voxel_size: 0.5 # 体素滤波分辨率(单位:米,越小精度越高) max_iteration: 3 filter_size_surf: 0.5 filter_size_map: 0.5 cube_side_length: 1000 filter_size: 0.3 ivox_grid_resolution: 0.5 # default=0.2 ivox_nearby_type: 18 # 6, 18, 26 esti_plane_threshold: 0.1 # default=0.1
03-13
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值