- 博客(15)
- 收藏
- 关注
原创 Flink:pyflink安装配置和hive连接配置
配置python环境普通安装时如果用python api去编写脚本就会出现python脚本要大于3.5的错误,由于centos7自带的python版本为2.7,需要安装python3然后配置路径,原来的python2.7不能卸载,不然有些工具不能使用安装python3.8略配置python3的环境(每个节点都需要设置)ln -s /usr/local/python3 /usr/bin/python3ln -s /usr/local/python3/bin/pip3.8 /usr/bin/pip
2021-11-09 14:22:08
2828
原创 centos7网络问题:识别不到网卡
碰到的问题在安装contos7的时候,安装就显示本机没有网卡安装完成进入/etc/sysconfig/network-scripts/查看网络配置文件发现除了ifcfg-lo这个本地的并没有其他网络配置文件尝试使用nmtui配置创建新的网络配置文件ifcfg-enp重启network服务报错无法识别网卡(事后记录,具体报错未记录)打开网络配置文件发现没有生成网卡的mac地址探索问题在ifcfg-enp配置文件种加入网卡的mac地址(好在还有个windows系统可以查看mac地址)发现还
2021-11-03 10:53:16
15232
原创 Hadoop:Flink on Yarn服务配置与设置
之前打算直接在ambari上安装配置flink服务方便管理,但是发现ambari集成的flink会出现很多问题反而不方便管理(可能是没找到正确的方法),于是打算单独配置服务下载两个文件文件flink-1.10.1文件:https://archive.apache.org/dist/flink/flink-1.10.1/flink-1.10.1-bin-scala_2.11.tgzHadoop依赖包:https://repo.maven.apache.org/maven2/org/apache/flin
2021-10-27 10:29:00
2527
原创 Hadoop:ambari安装Flink服务
1.安装git查看是否安装了gitgit --help如果没有git,那就安装yum install git2.设置version变量VERSION=`hdp-select status hadoop-client | sed 's/hadoop-client - \([0-9]\.[0-9]\).*/\1/'`echo $VERSION3.下载ambari-flink-service服务sudo git clone https://github.com.cnpmjs.org/ab
2021-10-14 14:47:51
631
原创 numpy:Python好用的判断函数numpy.where()
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码
2021-04-20 08:34:15
1075
原创 pandas:找出、删除重复的数据(Python)
pandas:找出、删除重复的数据(Python)前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言pandas.DataFrame.duplicated提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.py
2021-03-22 13:57:38
49633
4
原创 TensorFlow:好用的时间序列训练测试集生成器(Python)
TensorFlow:好用的时间序列训练测试集生成器(Python)前言一、tf.keras.preprocessing.sequence.TimeseriesGenerator介绍二、使用步骤1.引入库2.读入数据总结前言当我们使用TensorFlow框架搭建时间序列训练模型的时候,如何处理时间序列数据,生成训练集和测试集往往是一个不那么重要但是很麻烦的步骤,很多人选择自己写程序,但是有工具干嘛不用?官方教程使用的是timeseries_dataset_from_array,但是这个是适用Tenso
2021-03-15 09:51:07
1568
原创 pandas:超级方便的插值函数interpolate
pandas:超级方便的插值函数interpolate前言一、pandas.DataFrame.interpolate()?二、使用步骤1.引入库2.读入数据总结前言前段时间做个项目,处理缺失值时选择线性插值的方法,自己麻烦的写了个函数去实现,后来才发现pandas其实自带一个很强大的插值函数:interpolate。interpolate可以用在DataFrame对象上,也可以用在Series对象上。一、pandas.DataFrame.interpolate()?DataFrame.inte
2021-01-12 15:43:22
41526
1
原创 pandas:缺失值处理
pandas:缺失值处理前言一、isnull()二、notnull()三、dropna()四、fillna()总结前言当我们在处理数据时,总会遇到数值缺失的问题,pandas在处理缺失值的方面提供了很全面的方法,主要包括:isnull()——找出缺失值;notnull()——找出非缺失值;dropna()——剔除缺失值;fillna()——填充缺失值。具体使用方法请往下看。提示:以下是本篇文章正文内容,下面案例可供参考一、isnull()isnull()用来找出缺失值的位置,返回一个布尔类型的
2020-12-28 17:11:51
6194
10
原创 TensorFlow:升级TensorFlow2.3踩坑记录(Python)
升级TensorFlow2.3踩坑记录前言一、CUDA版本问题二、使用步骤1.引入库2.读入数据总结前言原本是使用的TensorFlow2.0,处理时间序列数据时发现一个很好用的函数:tf.keras.preprocessing.timeseries_dataset_from_array。不料报错没有此函数,才知道这个函数要TensorFlow2.3及以上才有,于是打算升级至TensorFlow2.3,过程中踩了几个坑,记录一下。一、CUDA版本问题示例:pandas 是基于NumPy 的一种工
2020-12-17 11:43:18
4861
5
原创 pandas:计算时内存不足怎么办(eval和query)
pandas:让计算再提速(eval和query)前言一、eval()和query()的由来二、eval()的介绍1.pandas.DataFrame.eval2.pandas.eval总结前言前面几篇文章笔者介绍了如何使pandas计算得到大幅提升,其中包括pandas快速处理字符串方法和使用map、apply和applymap函数批量处理数据,并且比普通循环操作处理数据快500多倍,本文将再次谈及为pandas计算加速,希望能帮助大家。提示:为方便快捷地解决问题,本文仅介绍函数的主要用法,并非
2020-12-09 15:30:57
1539
原创 Python小碗菜:and/or 与 &/| 到底有什么区别
Python小碗菜:and/or 与 &/| 到底有什么区别前言一、什么是逻辑运算?二、两者区别1.and/or用于整个对象2.读入数据总结前言在对Python的学习过程中,经常有人会问:对于逻辑运算,and/or 与 &/| 的区别在哪里?用哪个好?真的是哪个输入简单一点用哪个吗?其实他们是有内在区别的:and和or判断的是整个对象,而&和| 判断的是每个对象中的比特位。如果一脸懵逼请往下看。提示:为方便快捷地解决问题,本文仅介绍主要区别,并非全面介绍一、什么是逻辑运算
2020-12-04 14:36:57
329
2
原创 pandas:使用函数批量处理数据(map、apply、applymap)
数据预处理方法:如何有效去除单点毛刺前言一、DataFrame.resample()是什么?二、DataFrame.resample()函数参数及说明主要参数说明使用函数聚合时间数据总结前言我们在使用传感器传回的数据时会发现数据经常会有一些毛刺,提示:为方便快捷地解决问题,本文仅介绍函数的主要用法,并非全面介绍一、DataFrame.resample()是什么?DataFrame.resample()函数是频率转换和时间序列重采样的便捷方法。对象必须具有datetime类似的索引。二、Dat
2020-11-26 14:02:13
4965
5
原创 pandas:快速处理字符串方法
pandas:快速处理字符串方法前言前言当我们遇到一个超级大的DataFrame,里面有一列类型为字符串,要将每一行的字符串都用同一方式进行处理,一般会想到遍历整合DataFrame,但是如果直接这样做的话将会耗费很长时间,有时几个小时都处理不完。于是就有了本篇文章所要分享给大家的:pandas快速处理字符串方法。...
2020-11-18 10:25:17
4513
原创 pandas: DataFrame 将时间按小时分钟等方式聚合
pandas: DataFrame 将时间按小时分钟等方式聚合前言一、DataFrame.resample()是什么?二、DataFrame.resample()函数参数及说明说明2.读入数据总结前言在实际应用过程中,会出现不少时间序列相关数据,为了让不同频率数据统一时间标准,需要将数据按小时、分钟等方式进行分组,然后取组的平均值或中位数最为组的值,如果自己写算法会比较麻烦且耗时,pandas提供了一个函数可以快速解决此类问题:DataFrame.resample()。提示:为方便快捷地解决问题,
2020-11-04 17:29:38
16918
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人