- 博客(168)
- 收藏
- 关注
原创 Transformer理解
3.多头注意力机制详解_哔哩哔哩_bilibili11.【李宏毅机器学习2021】自注意力机制 (Self-attention) (下)_哔哩哔哩_bilibili
2024-10-09 14:14:24
198
原创 【Spark】计算LSH引入新jar包-LinkedInAttic ScANNS
目前是想在100万白用户的基础上,在2000万未知用户中,找到与100万用户最相近的一定量级用户当做白用户。
2022-07-27 17:01:51
735
原创 【RDD】Pair RDD Functions
Spark用几个函数定义了PairRDDFunctions类来操作Pair RDD或RDD key-value pair。当需要应用像hash partition, set operations, joins等transformations时,Pair RDD就派上了用场。这段代码通过在RDD中的每个元素上按空格分割来创建pair RDD,并将其拉平,在RDD中的每个元素上形成一个单词字符串,最后为每个单词分配一个整数“1”,运行结果如下:sortByKey – Transformation r
2022-07-08 16:51:51
312
原创 【RDD】Transformations
RDD Transformations是Spark在RDD上执行的操作,它会产生一个或多个新的RDD。由于RDD在本质上是不可变的,Transformations总是创建新的RDD,而不更新现有的RDD,因此,这就创建了一个RDD lineage。 RDD谱系(RDD Lineage)也被称为RDD操作图或RDD依赖图。RDD Transformations是惰性操作,这意味着除非在Spark RDD上调用一个action,否则不会执行任何Transformation。由于RDD是不可变的,任何对它的转换都
2022-07-08 14:29:03
313
原创 【RDD】创建RDD及读取文件
Spark shell提供了SparkContext变量,使用创建RDD。使用scala时,从中获取对象,并使用来创建rdd,这个函数还有另一个signature,它附加了一个整数参数来指定分区的数量。分区是Apache Spark中并行性的基本单位。Apache Spark中的RDD是分区的集合。(Partitions are basic units of parallelism in Apache Spark. RDDs in Apache Spark are a collection of pa
2022-07-08 11:54:59
2374
原创 【Python】pandas读取亿级数据
思想是分块读取,通过read_csv或read_table的两种方式(两个参数:chunksize和iterator)。
2022-07-01 14:29:41
1960
转载 【Python】data[item].astype(‘category’).cat.codes类别型变量映射到整数型
Category可以很好的节省在时间和空间的消耗。
2022-06-14 19:44:05
2409
原创 【Pyspark】提取Hive数据报错 java.lang.AssertionError: assertion failed: No plan for HiveTableRelation
一般来说这种错误的产生是因为在创建SparkSession对象的时候HiveContext没有被启用。创建SparkSession对象记得启用HiveContext。
2022-06-02 00:25:26
1220
1
原创 【Scala】数据集成(join)
数据集成是将多文件或者多数据库中的数据进行合并,然后存放在一个一致的数据存储中 。 数据集成一般通过 join、 union 或 merge 等关键字把两个(或多个)数据集连接在一起, SparkSQL (包括DataFrame)有join方法, Pandas下有merge方法。 数据集成往往需要耗费很多资源 ,尤其是大数据间的集成涉及 shuffle 过程, 有时需要牵涉多个节点,所以 除了数据一致性外,性能问题常常不请自来,需要我们特别留心。 传统数据库 一般是在单机上采用 hash jo
2022-06-01 23:30:42
692
原创 【Scala】SparkContext与SparkSession的区别与联系
在 2.0之前的 Spark版本中, SparkShell会自动创建一个 SparkContext对象sc。 SparkContext与驱动程序(Driver Program)和集群管理器(Cluster Manager)间的关系如图所示。 从图中可以看到, SparkContext起中介的作用,通过它来使用Spark其他的功能。每一个 JVM 都有一个对应的 SparkContext,Driver Program 通过 SparkContext 连接到集群管理器来实现对集群中任务的控制。S
2022-06-01 22:42:09
777
原创 【Scala】值类型和条件表达式
1. Scala的值类型有7种:(无引用类型)Byte Char Short Int Long Float Double2. Scala 条件表达式scala>val x = 3x:Int = 3scala>val y = if(x 1)1 else -1y:Int = 1scala>println (y)1scala>val z = if(x 1)1 else "error" //混合类型表达式z:Any = 1 //返回的是sc
2022-05-30 11:04:26
126
原创 【Pyspark】在jupyter中运行pyspark,且为yarn-client模式
1. 预备操作已经有的环境包括:spark 2.4.5 集群 anaconda 虚拟环境python3.7 (由于集群spark环境为2.4.5,python版本必须<3.8) 配置好$SPARK_HOME、$JAVA_HOME 环境变量2. 本次操作命令行操作:# 查看并进入相应虚拟环境conda info --envsconda deactivateconda activate caret# 进入相应虚拟环境后,安装包conda search pyspark
2022-05-26 01:23:36
1397
原创 【Scala】SparseMatrix存储格式CSC理解
参考文献:Data Types - RDD-based API - Spark 3.2.1 Documentation python - sparse Matrix/ CSC Matrix in pyspark - Stack Overflow 稀疏矩阵的存储格式CSC理解。(Local Matrix)_时间_实践的博客-CSDN博客_csc格式 Spark 3.2.1 ScalaDoc - org.apache.spark.mllib.linalg.SparseMatrix想要表示矩阵1
2022-05-23 12:19:33
366
原创 【Hive】计算分位数
hive中有两个函数可以用来计算分位数:percentile和percentile_approx具体使用方如下:(1)percentile:percentile(col, p)col是要计算的列(值必须为int类型),p的取值为0-1,若为0.5,那么就是2分位数,即中位数。(2)percentile_approx:percentile_approx(col, p)。列为数值类型都可以。percentile_approx还有一种形式percentile_approx(col, p, .
2022-05-16 18:40:21
10966
转载 pandas-dataframe与spark-dataframe操作的区别
转载自Spark SQL 及其DataFrame的基本操作 - hhhhhh1122 - 博客园item pands pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism,不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop,能处理..
2022-05-16 18:01:01
576
转载 【Hive】like与rlike的区别
摘自Hive中rlike,like,not like,regexp区别与使用详解_涤生大数据的博客-CSDN博客_rlike1.like的使用详解1.语法规则:格式是A like B,其中A是字符串,B是表达式,表示能否用B去完全匹配A的内容,换句话说能否用B这个表达式去表示A的全部内容,注意这个和rlike是有区别的。返回的结果是True/False.B只能使用简单匹配符号_和%,”_”表示任意单个字符,字符”%”表示任意数量的字符like的匹配是按字符逐一匹配的,使用B从A的第一个字符开始匹配,所.
2022-05-11 14:50:28
632
原创 【DGL】定义邻居采样器和数据加载器
6.1 Training GNN for Node Classification with Neighborhood Samplinghttps://docs.dgl.ai/en/0.6.x/guide/minibatch-node.html#guide-minibatch-node-classification-samplerDGL提供了几个邻居采样类,这些类会生成需计算的节点在每一层计算时所需的依赖图。 最简单的邻居采样器是MultiLayerFullNeighborSampler,它可获取节点.
2022-04-14 00:25:37
3772
原创 【DGL】dgl邻居节点采样器MultiLayerNeighborSampler
dgl.dataloading.neighbor.MultiLayerNeighborSamplerhttps://docs.dgl.ai/en/0.6.x/api/python/dgl.dataloading.html?highlight=multilayerneighborsampler#neighbor-sampler基于 `dgl.dataloading.dataloader.BlockSampler`采样器,通过多层 GNN 的邻居采样建立节点表示的计算依赖。该采样器将使每个节点从每种边缘
2022-04-13 15:46:27
2623
转载 【Pytorch】OSError: libc10_cuda.so: cannot open shared object file: No such file or directory
摘自https://githubhot.com/repo/rusty1s/pytorch_geometric/issues/3904https://githubhot.com/repo/rusty1s/pytorch_geometric/issues/3904It looks like you have installed PyTorch with CUDA support (there exists a cudatoolkitconda package). As such,torch-scat..
2022-04-07 14:29:58
7126
原创 【Python】「argparse基本用法」及「jupyter中使用 args = parser.parse_args()并传参」
【argparse基本用法】及【jupyter中使用 args = parser.parse_args()并传参】
2022-03-22 17:09:18
5207
原创 【Scala】MinHash for Jaccard Distance
来源:LSHMinHashimport org.apache.spark.ml.feature.MinHashLSHimport org.apache.spark.ml.linalg.Vectorsimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.functions.colval dfA = spark.createDataFrame(Seq( (0, Vectors.sparse(6, Seq((0,
2022-01-13 16:37:22
960
原创 【Hive】动态分区
1. 建表,包含2个分区CREATE TABLE temp_exp20211226_shutao_generalAndZs(src string,dst string) PARTITIONED BY (dt string,type string )row format delimited fields terminated by "\t"STORED AS orc;2. 设置参数--是否开启动态分区功能,默认false关闭。使用动态分区时候,该参数必须设置成true
2021-11-29 14:41:00
1209
原创 【Pyspark】Read and Save data
数据格式如下:1. 读取csv数据from pyspark.sql.types import *#All datatypes for PySpark SQL have been defined in the submodule named pyspark.sql.types.idColumn = StructField("id",StringType(),True)#Let’s look at the arguments of StructField(). The first arg
2021-09-24 15:19:36
171
原创 【Python】深拷贝和浅拷贝
import torcha = torch.arange(12)b = a.reshape((3,4))b[:] = 2a #里面的元素也都变成2了
2021-05-16 19:09:45
122
原创 【Neo4j】MAC配置neo4j和jdk11环境变量
#jdk-11#download url:https://adoptopenjdk.net/installation.html?variant=openjdk11&jvmVariant=openj9export JAVA_HOME=/Library/Java/JavaVirtualMachines/adoptopenjdk-11.jdk/Contents/Homeexport PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=$JAVA_HOME/lib/.
2021-05-07 17:26:22
735
原创 MAC openjdk11安装与配置
1.openjdk11下载地址:AdoptOpenJDK Installation2. 配置vi ~/.zshrc#jdk-11#download url:https://adoptopenjdk.net/installation.html?variant=openjdk11&jvmVariant=openj9JAVA_HOME=/Library/Java/JavaVirtualMachines/adoptopenjdk-11.jdk/Contents/HomePATH=$J.
2021-05-07 12:20:46
2531
转载 Mac下 .bash_profile 和 .zshrc 两者之间的区别
转自Mac下 .bash_profile 和 .zshrc 两者之间的区别.bash_profile 中修改环境变量只对当前窗口有效,而且需要 source ~/.bash_profile才能使用.zshrc 则相当于 windows 的开机启动的环境变量你也可以在 .zshrc 文件中加一行 source .bash_profile 解决需要 source 才能使用的问题...
2021-05-07 11:05:47
2880
原创 MAC安装anaconda后zsh:command not find:conda解决办法
vi ~/.zshrc#加入这一行export PATH=/Users/yourname/opt/anaconda3/bin:$PATHsource ~/.zshrcconda --version #验证效果
2021-05-06 17:24:23
538
原创 【Word】正则替换
根据Word正则表达式用法及实例进行了学习。例1.将其中的期刊替换为斜体。查找期刊的正则表达式为:\) [a-zA-Z ]{1,} (方括号中有空格别忽略)替换后效果:只需要再将括号的格式替换即可......
2021-03-11 23:45:17
1532
原创 vim退出保存时报E505错误
在修改执行命令vi /etc/hosts修改完文件:wq退出时,报错如下:E505: "vimrc" is read-only (add ! to override)此时应该用:wq!退出,但是又会报这个错误:"vimrc" E212: Can't open file for writingPress ENTER or type command to continue其实应该用sudo运行命令,sudovi /etc/hosts...
2021-01-06 01:17:21
9441
1
原创 【Leetcode】罗马数字转整数python实现
方法1:#判断当前位置和下一个位置两个字母是否在mydict中class Solution: def romanToInt(self, s: str) -> int: itemList = [] mydict = {'I':1,'V':5,'X':10,'L':50,'C':100,'D':500,'M':1000,'IV':4,'IX':9,'XL':40,'XC':90,'CD':400,'CM':900} i = 0
2020-12-29 11:07:54
314
原创 【Leetcode】判断是否为回文数python实现
方法1:将整数转为字符串,然后将字符串分割为数组,只需要循环数组的一半长度进行判断对应元素是否相等即可。class Solution: def isPalindrome(self, x: int) -> bool: if x<0: return False else: strx = str(x) for i in range(len(strx)//2): ...
2020-12-24 16:50:07
314
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人