- 博客(215)
- 收藏
- 关注
原创 python数据分析之航空公司客户价值分析
一.引言本篇文章是根据航空公司提供的乘客个人信息,通过建立合理的客户价值评估模型,对客户进行分群,比较分析不同客户群的特点和价值,来指定相应的营销策略,从而减少客户流失,挖掘出潜在客户,实现盈利。在这里是用K-means聚类方法来对乘客进行分群的。源数据部分如下图所示:各属性解释如下:-交通路标自动识别实战与神经网络算法
这一节主要涉及神经网络算法,由此展开交通路标自动识别的应用。交通路标的自动识别其实就是一个分类问题。对于分类问题,我们有很多的方法来实现,比如KNN,贝叶斯等。关键点在于图片转文本。本节采用人工神经网络算法来进行识别。人工神经网络(Artificial NeuralNetwork)是简称神经网络(NN),是基于生物学中神经网络的基本原理,在理解和抽象了人脑结构和外界刺激响应机制后,以网络拓扑知识为理论基础,模拟人脑的神经系统对复杂信息的处理机制的一种数学模型。其结构为:对于一系列输入变量(信号)
2021-07-13 20:12:16
700
原创 Python数据分析与挖掘实战总结第三章 数据探索第四章 数据预处理第五章 挖掘建模
Python数据分析与挖掘实战第三章 数据探索* 3.1 数据质量分析 * 3.1.1 缺失值分析 3.1.2 异常值分析3.2 数据特征分析 * 3.2.1 统计量分析 3.2.2 贡献度分析3.2.3 相关性分析3.2.4 统计特征函数3.2.5 绘图函数第四章 数据预处理* 4.1 数据清洗 * 4.1.1 缺失值处理 4.2 数据变换 * 4.1.1 数据归一化 4.1.2 数据离散化(聚类)4.3
2021-07-13 19:50:59
764
原创 Python数据分析与挖掘实战-基础篇总结(一)1、数据挖掘基础2、python数据分析简介3、数据探索
目录1、数据挖掘基础1.1 数据挖掘的基本任务:1.2数据挖掘建模过程:1.3常用的数据挖掘建模工具2、python数据分析简介2.1 python环境搭建2.2 python数据分析第三方库2.2.1 Numpy基本操作2.2.2 Pandas简单例子3、数据探索3.1 数据质量分析3.1.1 缺失值分析3.1.2 异常值分析3.1.3 一致性分析3.2 数据特征分析3.2.1 分布分析3.2.2 对比分析3.2.3 统计量分析3.2.4 周期性分析3.2.5 贡献
2021-07-13 19:50:19
1150
原创 python数据分析与挖掘实战-第六章拓展偷漏税用户识别
第六章分别使用了LM神经网络和CART 决策树构建了 电力窃漏电用户自动识别模型,章末提出了拓展思考–偷漏税用户识别。第六章及拓展思考完整代码 https://github.com/dengsiying/Electric_leakage_users_automatic_identify.git项目要求:汽车销售行业在税收上存在多种偷漏税情况导致政府损失大量税收。汽车销售企业的部分经营指标能在一定程度上评估企业的偷漏税倾向,附件数据提供了汽车销售行业纳税人的各个属性和是否偷漏税标识,请结合各个属性,
2021-07-13 19:34:18
626
原创 Python数据分析与可视化(基础知识)Python基础
Python基础本文首先介绍一下做数据分析与可视化所必备的Python基础,涉及Python的组合数据类型、控制流以及常用的内置函数。数据类型我们将讨论数据处理常见的数据类型。Python中的列表Python中的字典Python中的集合Python中的列表列表是Python中常用的数据类型。列表中的元素是有序的,可变的,并且允许重复。我们可以用[]来创建一个列表。同时我们还可以对一个列表进行分割也就是进行切片。切片意味着提取列表的一部分。切片的时候,第一个数字包含在返回集中,最后一个数
2021-07-13 19:22:51
4890
原创 python数据分析与机器学习实战-专题视频课程
python数据分析与机器学习实战—79430人已学习课程介绍课程风格通俗易懂,真实案例实战。精心挑选真实的数据集为案例,通过python数据科学库numpy,pandas,matplot结合机器学习库scikit-learn完成一些列的机器学习案例。课程以实战为基础,所有课时都结合代码演示如何使用这些python库来完成一个真实的数据案例。算法与项目相结合,选择经典kaggle项目,从数据预处理开始一步步代码实战带大家入门机器学习。学习收益: 1.掌握Python数据科学工具包,包括矩阵数据处理
2021-07-13 19:22:03
293
原创 python数据分析小练习----科赛
_[ https://www.kesci.com/apps/home/project/5a8afe517f2d695222327e14](https://www.kesci.com/apps/home/project/5a8afe517f2d695222327e14) ___练习1-开始了解你的数据步骤6 数据集中有多少个列(columns): chipo . shape [ 1 ]步骤9 被下单数最多商品(item)是什么: chipo . item_name . value_counts ()
2021-07-13 18:58:20
4225
原创 python数据分析(分析文本数据和社交媒体)
1、安装NLTK pip install nltk[/code]至此,我们的安装还未完成,还需要下载NLTK语料库,下载量非常大,大约有1.8GB。可以直接运行代码下载、代码如下:```code import nltk nltk.download()[/code]python数据分析(分析文本数据和社交媒体)这样可以直接下载NLTK语料库了。## 2、滤除停用词、姓名和数字进行文本分析时,我们经常需要对停用词(Stopwords)进行剔除,这里所谓停用词就是
2021-07-12 15:13:00
395
原创 Python数据分析(4)-numpy数组的属性操作1. ndarray的属性2. ndarray元素的属性3. ndarray元素的类型
numpy数组也就是ndarray,它的本质是一个对象,那么一定具有一些对象描述的属性,同时,它还有元素,其元素也有一些属性。本节主要介绍ndarray以及其元素的属性和属性的操作。1. ndarray的属性ndarray有两个属性:维度(ndim)和每个维度的大小shape(也就是每个维度元素的个数) import numpy as np a = np.arange(24) a.shape=(2,3,4) print('数组为:', a) print('数组
2021-07-12 15:12:34
409
原创 python数据分析(1)——获取微信好友的统计信息
本文主要是尝试下一个比较有意思的python模块: wxpy ,导入此模块之后,可以很方便的来创建一个 微信机器人 和做一些和微信相关 的有意思的分析。1. wxpy 安装首先,通过pip方式进行安装,在命令行模式下输入: pip install -U wxpy[/code]如下图所示:
一、爬虫部分爬虫说明:1、本爬虫是以面向对象的方式进行代码架构的2、本爬虫是通过将前程无忧网页转换成一定端来进行求职信息爬取的3、本爬虫爬取的数据存入到MongoDB数据库中4、爬虫代码中有详细注释代码展示 import time from pymongo import MongoClient import requests from lxml import html class JobSpider(): def __i
2021-07-12 15:09:13
4032
3
原创 python爬虫基础与数据分析及可视化基础一、Python基础二、Python爬虫三、数据分析基础四、数据可视化基础
python基础、爬虫、数据分析学习笔记一、Python基础* I. 基本数据类型 * i. int、float、str、bool数据类型的定义 ii. tuple(元组):iii. list(列表)iv. set(集合):v. dict(字典)II. 基本控制结构 * i. if-elif-else语句: ii. for语句:iii. while语句iv. in,and,or,break,contiue语句III. 函数定义:IV. 文件读取
2021-07-12 15:07:51
711
原创 Python金融大数据分析-回归分析
1.pandas的线性回归回归分析是金融中一个绕不过的话题,其实最好的工具应该是R语言,但是pandas其实也是能够胜任绝大部分工作的。这里我们就简单介绍一下。 import pandas as pd import numpy as np import matplotlib.pyplot as plt noise = np.random.normal(0,12,100) x= np.array(range(100)) y = 0.7*x + noise
2021-07-12 15:04:24
671
原创 Python金融大数据分析——第11章 统计学(1)正态性检验 笔记第11章 统计学
第11章 统计学11.1 正态性检验11.1.1 基准案例11.1.2 现实世界的数据第11章 统计学11.1 正态性检验可以说 , 正态分布是金融学中最重要的分布 , 也是金融理论的主要统计学基础之一。尤其是下面这些金融理论基础 , 在很大程度上依赖于股票市场收益的正态分布。投资组合理论当股票收益呈正态分布时,最优化投资组合可以在这样的环境中选择:只有平均收益和收益的方差(或者波动率)以及不同股票之间的协方差与投资决策(即最优化投资组合构成)相关。资本性资产定价模型同.
2021-07-12 15:02:50
1082
1
原创 Python金融大数据分析——第9章 数学工具 笔记第9章 数学工具
第9章 数学工具9.1 逼近法9.1.1 回归9.1.2 插值9.2 凸优化9.2.1 全局优化9.2.2 局部优化9.2.3 有约束优化9.3 积分9.3.1 数值积分9.3.2 通过模拟求取积分9.4 符号计算9.4.1 基本知识9.4.2 方程式9.4.3 积分9.4.4 微分第9章 数学工具9.1 逼近法在给定区间内通过回归和差值求取该函数的近似值。 首先,我们生成该函数的图形,更好地观察逼近法所实现的结果。我们感兴趣的区间是[.
2021-07-09 14:35:30
426
原创 Python金融大数据分析:金融学中最常用的数学技术之一逼近法11.1.1 回归11.1.2 插值
首先,是通常的导入工作: In [1]: import numpy as np from pylab import plt, mpl In [2]: plt.style.use('seaborn') mpl.rcParams['font.family'] = 'serif' %matplotlib inline[/code]本节使用的主函数示例如下,由一个三角函数项和一个线性项组成:```code
2021-07-09 14:34:49
291
原创 Python的数据分析可视化十种技能总结
常见的可视化试图列举可视化视图可以分成4大类:比较、联系、构成和分布。他们的特点如下:1、比较:比较数据之间的各类别的关系,或者是他们随着时间的变化趋势,比如折线图;2、联系:查看两个或者两个以上的变量之间的关系,比如散点图;3、构成:每个部分占整体的百分比,或者是随着时间的百分比变化,比如饼状图;4、分布:关注单个变量,或者多个变量的分布情况,比如直方图。同样,按照变量的个数,可以把可视化视图划分成为单变量分析和多变量分析:1、单变量分析指的是一次只关注一个变量。比如只关注“身高”这个
2021-07-09 14:34:19
6527
原创 Python大数据分析(三):大数据统计分析技术(一)概率论数理统计中的概念(二)统计分析的常见指标(三)统计分析的特点(四)统计分析的基本步骤(四)数据统计分析pandas工具使用(共12节入门教程
文章目录(一)概率论数理统计中的概念* (1)随机分布 (2)统计分布(二)统计分析的常见指标* (1)均值,方差,标准差,中位数,众数 (2)总量指标(3)相对指标(4)平均指标(5)变异指标(三)统计分析的特点(四)统计分析的基本步骤(四)数据统计分析pandas工具使用(共12节入门教程)* pandas学习笔记(一):对象创建(Object creation) pandas学习笔记(二):查看数据(Viewing data)pandas学习笔
2021-07-09 14:33:50
1133
原创 Python操纵 Excel 文件实现复杂数据分析
一、明确功能需求项目功能需求如下图所示,假设有1000行数据即1000名患者,已知每名患者的西医指标值和医生给出的证候结果。共有3个证候结果:气虚证、肾虚证、阳虚证,列序号分别为1、2、3列;值为1表示患者存在该证候,值为0表示不存在该证候,一个患者可以同时存在多个证候,证候起始和终止序号为2-4。共有12个西医指标:白细胞、红细胞、血红蛋白等,列序号分别为4、5、6…,指标值为浮点数值。西医指标起始和终止序号为5-16。需求:对所有数据,考虑每个证候,计算出存在证候和不存在该证候的两组数据
2021-07-09 14:26:17
945
2
原创 Python-Matplotlib实现新冠病毒疫情数据分析-超细致流-逐行注解
(1)需求背景我将扮演一名数据工作者。在目前国内的新冠病毒疫情背景下,你觉得应该用数据做重新剖析一下疫情状况,恰好现在有一份2020.1.22至2020.2.13的全国疫情数据,我将对疫情现状做一个基本分析作为一名python数据分析是,面对元素数据,我将完成以下工作:a.读取数据,初步了解数据结构b.清洗数据,使数据能做进一步分析c.呈现结果1.全国疫情确诊病例Top10那些省市2.查看不同日期的疫情情况3.提取某一地区多日的疫情情况(2)手撸代码 # 导包 import
2021-07-09 14:20:12
1101
3
原创 Python3数据分析处理库pandas
用pandas封装函数对数据进行读取,预处理,数据分析等操作。pandas库是基于numpy库编写的, 在命令行窗口安装完numpy后,安装pandas:pip install pandas。相关numpy库的内容参考 http://blog.csdn.net/cymy001/article/details/78163468通常需要pandas读取的数据文件的文本格式为.txt,.csv,.jsonpandas里定义的数据类型:(1.)object字符值(2.)int整型(3.)float浮点
2021-07-09 14:17:01
281
3
原创 Python3实战Spark大数据分析及调度 学习 资源
Python3实战Spark大数据分析及调度 学习资源一、实例分析1.1 数据 student.txt1.2 代码 基本框架和年龄计算
一、基本框架项目任务 :每个人的体能测试有单杠、仰卧起坐、30米x2蛇形跑、3000米跑四个项目,外加体型是否合格(BMI身体质量指数或者PBF体脂百分比),每项原始测试数据,通过不同项目各自规定的标准转换成100分制的分数,最终汇总得出个人的评定成绩,而且能够批量计算。算法思路 :1.总体思路。通过读取Excel表上该
2021-07-09 14:10:09
1604
原创 Python_数据分析_numpy模块
numpy可以说是Python运用于人工智能和科学计算的一个重要基础,关于库的引入不做赘述,主要分享一些总结的numpy库的用法。1. numpy数组对象Numpy中的多维数组称为ndarray,这是Numpy中最常见的数组对象。ndarray对象通常包含两个部分:ndarray数据本身描述数据的元数据Numpy数组的优势Numpy数组通常是由相同种类的元素组成的,即数组中的数据项的类型一致。这样有一个好处,由于知道数组元素的类型相同,所以能快速确定存储数据所需空间的大小。Numpy数组
2021-07-09 14:02:05
192
3
原创 GIS基本理论之四:空间数据分析基本理论
GIS基本理论系列是在《地理信息系统原理和应用》读书报告基础上完成的,当作自己对GIS理论的一次复习回顾。空间信息分析的内容包括哪些操作?有哪些功能?空间信息分析通常是指 GIS 为用户提供的解决问题的方法。空间信息分析的基本方法包括以下一些内容:( 1 )空间信息量算:质心计算、几何量算、形态量算等( 2 )空间信息分类:主成分分析 (PCA) 、层次分析 (AHP) 、聚类分析、判别分析等( 3 )叠加分析:视觉信息复合;属性层叠合( 4 )网络分析:路径分
2021-07-08 12:10:56
6991
2
原创 Forest数据分析及可视化
Forest数据分析及可视化文章目录* Forest数据分析及可视化 * 说在前面 1.导入csv数据集2.分析种树种类3.分析种树标签4.种植树木的成功率5.基于周和月的种树时间分析6.总结附源代码说在前面这次python作业是数据分析及可视化,这里我采用的是一个APP “Forest” ,从软件中导出 “Plants of forest.csv”,这是csv格式的数据集Forest是一个让你规划时间,放下手机保持专注的APP,当需要专注的时候
2021-07-08 12:10:25
949
1
原创 flask + pyecharts 疫情数据分析 搭建交互式动态可视化疫情趋势分析、舆情监测平台(附代码实现)
该项目是浙江大学地理空间数据库课程作业8:空间分析中,使用 flask + pyecharts搭建的简单新冠肺炎疫情数据可视化交互分析平台的一部分,完整的实现包含疫情数据获取、态势感知、预测分析、舆情监测等任务;包含完整代码、数据集和实现的github地址: https://github.com/yunwei37/COVID-19-NLP-vis项目分析报告已部署到网页端,可点击 http://flask.yunwei123.tech/ 进行查看,数据已更新到6.17本项目采用flask作为
2021-07-08 12:10:02
1074
1
原创 flask + pyecharts 疫情数据分析 搭建交互式动态可视化新冠肺炎疫情地图(附代码实现)
该项目是浙江大学地理空间数据库课程作业8:空间分析中,使用 flask + pyecharts搭建的简单新冠肺炎疫情数据可视化交互分析平台的一部分,完整的实现包含疫情数据获取、态势感知、预测分析、舆情监测等任务;包含完整代码、数据集和实现的github地址: https://github.com/yunwei37/COVID-19-NLP-vis项目分析报告已部署到网页端,可点击 http://flask.yunwei123.tech/ 进行查看,数据已更新到6.17最终效果:动态交互展示
2021-07-08 12:08:52
1034
原创 Excel自带数据分析工具
对于数据分析的初学者,有的时候并不需要去购买SPSS,或者苦学R语言等专业工具,Excel默认安装以后自带了数据分析和数据计算插件,只需要将插件激活,便可以进行方差分析、傅里叶分析、直方图绘制等等一系列专业的统计计算。以下是插件的激活方式:Excel中自带了数据分析工具,可以用于基础的数据统计和分析功能,只要在插件中进行选择即可,以Excel2013为例1、文件–>选项—>加载项2、管理下拉框中选择Excel加载项,点击“转到”3、勾选分析工具库、规划求解加载(Solver)项即可
2021-07-08 12:08:13
453
原创 Elastic Stack (ELK 5)- 运维数据分析系统概述简介安装配置 Elastic Stack 5.0总结
概述本文将简单介绍运维数据分析系统 Elastic Stack,并描述其基础部署过程。简介ELK(Elasticsearch + Logstash + Kibana)用于日志集中分析系统,Elasticsearch用于存储、搜索、分析数据,Logstash 用于接收并处理数据,Kibana 提供 Web UI 管理数据,客户端通过 Logstash-Forwarder将指定的日志数据传递数据给 ELK 系统,大体流程如下图:后来Elastic 团队收购了 Packetbeat 团队,就建立了
2021-07-08 12:07:43
3490
原创 CSDN爬虫(四)——博客专家(所有)爬取+数据分析
CSDN爬虫(四)——博客专家(所有)爬取+数据分析说明开发环境:jdk1.7+myeclipse10.7+win74bit+mysql5.5+webmagic0.5.2+jsoup1.7.2爬虫框架:webMagic建议:建议首先阅读webMagic的文档,再查看此系列文章,便于理解,快速学习: http://webmagic.io/ 开发所需jar下载(不包括数据库操作相关jar包): 点我下载 该系列文章会省略webMagic文档已经讲解过的相关知识。概述我们会从博客专家首页
2021-07-08 12:07:07
1086
2
原创 ChIP-seq 数据分析1 ChIP-Seq技术2 ChIP-Seq数据分析
1 ChIP-Seq技术1.1 概念1.2 ChIP-seq技术原理2 ChIP-Seq数据分析2.1 数据下载2.2 质量控制(data_assess)2.3 比对到参考基因组(mapping_analysis)2.4 搜峰(Peak_calling)MACS22.4.1 MACS2 核心: callpeak 用法2.4.2 callpeak 结果文件说明2.4.3 bdg file → wig file2.5 峰注释(Peak_anno)ChIPseek.
2021-07-08 12:06:42
3590
原创 CentOS 6 64bit下,Python数据分析环境搭建
首先是基础环境安装: yum install zeromq-devel yum install gcc-gfortran yum install freetype-devel yum install libpng-devel yum install atlas-devel yum install bzip2-devel yum install tk-devel yum install tcl-devel # Use the s
2021-07-08 12:06:03
115
原创 CDA数据分析师 - 备考指南
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar
2021-07-08 12:04:52
995
原创 google play store的app数据分析
google play store app数据源 提取码: 38jkgoogle play store的app数据分析1. 加载数据加载数据分析使用的库加载数据前,先用文本编辑器简单浏览一下数据加载好数据之后,第一步先分别使用shape、head、count、describe和info方法看下数据 import numpy as np import pandas as pd import matplotlib.pyplot as plt # 加载文件
2021-07-07 10:17:47
1213
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人