- 博客(22)
- 收藏
- 关注

原创 【Python】用pip安装python库下载超时的解决办法
【Python】用pip安装python库下载超时的解决办法 File "C:\Users\Administrator\Miniconda3\lib\site-packages\pip\_vendor\urllib3\response.py", line 307, in _error_catcher raise ReadTimeoutError(self._pool, ...
2018-07-09 14:34:54
3416
1

原创 Python面试20题
1、Python如何实现单例模式?Python有两种方式可以实现单例模式,下面两个例子使用了不同的方式实现单例模式:1.class Singleton(type):def __init__(cls, name, bases, dict):super(Singleton, cls).__init__(name, bases, dict)cls.instance = Nonedef __call__(...
2018-07-04 11:22:15
303

原创 Hive和不同关系型数据库的差异
Hive采用了SQL的产应语言HQL,因此很容易理解为数据库。Hive和数据库除了拥有类似的查询语言,接下来就阐述Hive 和数据库的差异。数据库可以在Online的应用中,但是Hive是为数据仓库设计。查询语言:由于SQL被广泛的应用在数据仓库中,因此针对Hive的特征设计了类SQL的查询语言HQL。数据存储位置:Hive是建立在Hadoop之上的,所有Hive的数据都是存储到H
2017-12-15 13:48:51
2684
原创 原因解密 “4.67年” VS“4个月”
原因解密 “4.67年” VS“4个月”“中国基金经理的任职平均时长少于生一个孩子的时间,实际上是120天左右”。120天的任职平均时长有多短呢?按惯例员工新入职试用期基本是3个月起,如果经常出差的话,可能你每次回公司看到的都是新面孔。在这120天里,二级市场基金管理人能做些什么?这和一级市场基金管理人的任职时间相比有什么相同、不同点?遗憾的是,通过大量的搜索和查阅现有文献,我们并没有找到...
2018-12-24 09:15:01
398
原创 浅谈爬虫-爬虫与反爬虫①
1. 爬虫是什么?爬虫最早源于搜索引擎,它是一种按照一定的规则,自动从互联网上抓取信息的程序。搜索引擎是善意的爬虫,它爬取网站的所有页面,提供给其他用户进行快速搜索和访问,给网站带来流量。为此,行业还达成了 Robots 君子协议,让互联网上的搜索与被搜索和谐相处。原本双赢的局面,很快就被一...
2018-12-18 15:19:28
1401
原创 电脑延迟较大,1分钟搞定
1Win+R打开界面输入cmd2在弹窗出的黑框中输入“chkdsk”,然后按下回车;3如果提示没有权限以管理员 运行,在输入“chkdsk”按下回车 4等待执行完毕后,再次输入“sfc/scannow”,按下回车,运行完启动重启后你就会发现,电脑顺畅很多。。。...
2018-12-14 12:53:58
5160
1
转载 python+Eclipse+pydev环境搭建
python+Eclipse+pydev环境搭建本文重点介绍使用Eclipse+pydev插件来写Python代码, 以及在Mac上配置Eclipse+Pydev 和Windows配置Eclipse+Pydev 编辑器:Python 自带的 IDLE简单快捷, 学习Python或者编写小型软件的时候。非常有用。 编辑器: Eclipse + pydev插件...
2018-08-24 17:22:42
181
转载 用 Python 吃鸡是一种什么样的体验
用 Python 吃鸡是一种什么样的体验 大吉大利,今晚吃鸡~ 今天跟朋友玩了几把吃鸡,经历了各种死法,还被嘲笑说论女生吃鸡的 100 种死法,比如被拳头抡死、跳伞落到房顶边缘摔死 、把吃鸡玩成飞车被车技秀死、被队友用燃烧瓶烧死的。这种游戏对我来说就是一个让我明白原来还有这种死法的游戏。但是玩归玩,还是得假装一下我沉迷学习,所以今天就用吃鸡比赛的真实数据来看看如何提高你吃鸡的概率...
2018-08-09 16:45:22
2087
10
转载 Python爬虫:一些常用的爬虫技巧总结
Python爬虫:一些常用的爬虫技巧总结爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。1、基本抓取网页get方法import urllib2url "http://www.baidu.com"respons = urllib2.urlopen(url)print response.read()post方法import urllibimport urllib2 url = "h...
2018-07-12 10:39:43
160
转载 Python爬虫:一些常用的爬虫技巧总结
Python爬虫:一些常用的爬虫技巧总结爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。1、基本抓取网页get方法import urllib2url "http://www.baidu.com"respons = urllib2.urlopen(url)print response.read()post方法import urllibimport urllib2 url = "h...
2018-07-12 10:39:42
176
原创 Python爬虫:一些常用的爬虫技巧总结
Python爬虫:一些常用的爬虫技巧总结爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。1、基本抓取网页get方法import urllib2url "http://www.baidu.com"respons = urllib2.urlopen(url)print response.read()post方法import urllibimport urllib2 url = "h...
2018-06-28 14:45:06
181
原创 Python——词频统计
from string import punctuation #对文本的每一行计算词频的函数 def processLine(line,wordCounts): #用空格替换标点符号 line=replacePunctuations(line) words = line.split() for word in words: if w...
2018-06-15 10:32:55
675
转载 使用Python一步一步地来进行数据分析总结
使用Python一步一步地来进行数据分析总结原文链接:Step by step approach to perform data analysis using Python 你已经决定来学习Python,但是你之前没有编程经验。因此,你常常对从哪儿着手而感到困惑,这么多Python的知识需要去学习。以下这些是那些开始使用Python数据分析的初学者的普遍遇到的问题:需要多久来学习Python?我需...
2018-06-13 12:05:13
543
原创 Python_数据清洗
python--数据清洗1.数据错误:错误类型– 脏数据或错误数据• 比如, Age = -2003– 数据不正确• ‘0’ 代表真实的0,还是代表缺失– 数据不一致• 比如收入单位是万元,利润单位是元,或者一个单位是美元,一个是人民币– 数据重复2.缺失值处理:处理原则–缺失值少于20%•连续变量使用均值或中位数填补•分类变量不需要填补,单算一类即可,或者用众数填补–缺失值在20%-80%•填补...
2018-06-13 12:02:30
648
转载 像Excel一样使用python进行数据分析
像Excel一样使用python进行数据分析Excel是数据分析中最常用的工具,本篇文章通过python与excel的功能对比介绍如何使用python通过函数式编程完成excel中的数据处理及分析工作。在Python中pandas库用于数据处理 ,我们从1787页的pandas官网文档中总结出最常用的36个函数,通过这些函数介绍如何通过python完成数据生成和导入,数据清洗,预处理,以及最常见的...
2018-06-13 11:56:47
3363
转载 Python 数据呈现
数据呈现数据呈现采用词频统计和词云展示,通过词频可以了解到微信好友的生活态度。词频统计用到了 jieba、numpy、pandas、scipy、wordcloud库。如果电脑上没有这几个库,执行安装指令:pip install jiebapip install pandaspip install numpypip install scipypip install wordcloud4.2.1 读取...
2018-06-08 15:38:29
644
原创 如何查看MySQL的版本?
查看MySQL的版本,主要有以下几个方法:1. 没有连接到MySQL服务器,就想查看MySQL的版本。打开cmd,切换至mysql的bin目录,运行下面的命令即可:e:\mysql\bin>mysql -Vmysql Ver 14.14 Distrib 5.6.32, for Win32 (AMD64)(版本为 5.6.32)或
2018-04-09 15:52:35
511
原创 爬虫项目笔记
爬虫数据从哪里来? 传统的数据库、web日志信息,转移到HDFS/Hive/HBase等等中进行存储。 百度,google等等这些搜索引擎公司中为用户提供搜索服务的数据从哪里来? 获取互联网中海量数据的过程或者行为就是爬虫。爬虫分为垂直爬虫;全网爬虫两种;垂直爬虫:爬取一个网站各个分类的数据。全网爬虫:爬取多个网站的数据。①爬虫的基础架构:数据下载:运用到httpclient下载技术,通过一个A...
2018-03-29 16:45:08
261
原创 Hadoop 核心介绍
Hadoop各个核心项目架构hdfs2的架构负责数据的分布式存储,主从结构主节点-------->namenode可以有两个①接收用户的请求操作,使用户操作入口②维护文件系统目录结构,称为命名空间。从节点-------->datanode 至少一个,存储真实 数据。Yarn的结构是一个资源调度和管理的平台,也是只从结构主节点-------->resourcema
2017-12-12 21:52:37
484
原创 Hadoop生态系统(1)
Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠,高效,可伸缩的特点。Hadoop最核心的分为hdfs分布式存储和MapReduce分布式计算。hdfs是Hadoop体系中数据存储管理的基础,他是一个高度容错系统,能够检测和应对硬件故障。(用于低成本的通用硬件上运行)简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能。(适合带有大量数据集的应用
2017-12-12 20:45:29
351
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人