- 博客(22)
- 收藏
- 关注
转载 【转】数据库的几种去重方法总结
一、数据库中的去重操作(删除数据库中重复记录的SQL语句)主要有三种方法(1)、rowid方法(2)、group by 方法(3)、distinct方法1、用rowid方法根据Oracle带的rowid属性,可以进行判断是否存在重复语句;(1)、查出表1和表2中name相同的数据Select * from table1 aWhere rowid !=(se...
2019-09-15 20:47:00
282
转载 MySQL调优之数据类型
1.选择优化的数据类型几个原则:更小的通常更好 简单就好 尽量避免NULL选择数据类型时,先选合适的大类型:数字,字符串,时间等。下一步选择具体类型。具体类型包括:1.1 整数类型如果存储整数,可以使用以下几种数据类型:TINYINT, SMALLINT, MEDIUMINT, INT, BIGINT。分别使用8,16,24,32,64位存储空间。可选UNSI...
2019-09-01 18:07:00
169
转载 数据分析模型
1.行为事件分析场景:研究某行为事件的发生对企业组织价值的影响以及影响的程度。举例:在日常工作中,运营、市场、产品、数据分析师根据实际工作情况而关注不同的事件指标。如最近三个月来自哪个渠道的用户注册量最高?变化趋势如何?各时段的人均充值金额是分别多少?上周来自北京发生过购买行为的独立用户数,按照年龄段的分布情况?每天的独立 Session 数是多少?诸如此类的指标查看的过...
2019-08-31 16:19:00
297
转载 Ubuntu16.04+Docker部署Hadoop集群[转]
前两天在破船(K650D)上试图搭建Hadoop伪分布式失败(一直报3.1.2 hadoop-master: ssh: Could not resolve hostname hadoop-master: Name or service not known),现在打算在Ubuntu16.04上用Docker部署Hadoop集群。Docker安装sudo apt-get inst...
2019-08-28 07:32:00
238
转载 Hive学习笔记
1 入门1.Hive官网地址http://hive.apache.org/2.文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3.下载地址http://archive.apache.org/dist/hive/4.github地址https://github.com/...
2019-08-23 10:49:00
149
转载 The Bits and Bytes of Computer Networking Week 1 笔记
描述计算机网络的模型有很多,这门课选择TCP/IP 五层模型。本课程也会讲其他计网模型,七层的OSI模型。每层的协议都会封装好上层的协议,从而实现数据传输。The TCP/IP Five-Layer Network Model物理层:物理层表示互连计算机的物理设备。这包括网络电缆的规范和将设备连接在一起的连接器以及描述如何通过这些连接发送信号的规范。...
2019-08-19 14:06:00
235
转载 MySQL慢查询的可能原因及解决思路
要有高性能的MySQL服务,不仅需要设计好的库表结构、好的索引,还需要有好的查询。也就是说,一个慢查询的出现,可以从服务器、库表结构、索引、查询语句等方面着手。对查询进行性能剖析有两种方式,一种是剖析服务器负载,另一种是剖析单条查询。1.剖析服务器负载1.1捕获慢查询使用慢查询日志。慢查询日志是开销最低、精度最高的测量查询时间的工具,而且I/O开销可以忽略...
2019-08-17 20:30:00
293
转载 手写朴素贝叶斯分类器及其Adaboost(待更新)
这个分类器是大三下学期写的,那时在找数据挖掘的暑期实习,朋友向我求助说有个数据挖掘作业他不会写,我就当作做一个项目,把这个作业做一下。前前后后花了我两个多星期,最后完成的时候十分感动。转载于:https://www.cnblogs.com/earsonlau/p/11361394.html...
2019-08-16 00:27:00
375
转载 从业务角度出发思考
“从业务的角度出发去思考问题”是靖说的最多的一句话,也是我在momenta实习期间思考最多的一个问题(当然也是我被jing说的最多的一个点)那么如何从业务角度出发去思考?最重要的是理解业务。而业务是一群人共同协作完成的,为了理解业务,就需要和不同部门的人去聊,去探索业务里面涉及的每一个环节的具体的细节。ICC(Inside cabin camera)的数据流程是不同部门的人去...
2019-08-16 00:01:00
1786
转载 如何正确备考雅思
雅思分为四块:听力,阅读,写作,口语。最容易提高的是听力和阅读,最难提高的是写作和口语。首先是阅读。阅读这种东西,词汇一边积累,但是题目照做。雅思的题目是按顺序来的,这点非常的友好,方便我们定位文中关键句。首先,把剑7做一遍,每个section掐表。要求:最难的一篇不超过20min,最简单的不超过16min。考试要求一小时内完成三篇文章的阅读,也就是说每篇文章最多20...
2019-08-15 23:14:00
154
转载 凸优化教材(2017-12-15发布于知乎)
我学习的教材是Numerical Optimization, 作者是JorgeNocedal 和Stephen Wright。JorgeNocedal 大叔现在在西北大学,研究的方向是优化和优化在机器学习中的应用等等。本科墨西哥国立大学,莱斯大学读的phd。老爷子今年55,15年和16年每年都发了三篇paper。优化领域顶级大牛。放一张老爷子的照片。Step...
2019-08-15 22:06:00
1155
转载 一些凸优化的基本概念(2017-12-20发布于知乎)
本文参考了[原创]关于 最优化/Optimization 的一些概念解释的基础上加入了一些新东西参考了牛顿法与拟牛顿法学习笔记中的部分内容[1]关于 凸顾名思义,凸就是曲线是一个山谷形状,凹就是曲线是山峰形状。凸函数是一个凸子集(区间)上的实值函数,如果在其定义域上的任意两点,以及,有也就是说,一个函数是凸的当且仅当其上境图(在函...
2019-08-15 22:01:00
251
转载 对平底锅和垃圾的O奖论文的整理和学习[2](2018-02-08发布于知乎)
其实这篇论文看了一段时间,愣是没看出来这个模型怎么建立的。虽然看不懂,但是有一些部分还是很喜欢。首先是摘要:摘要分为八段第一段:背景引入,太空垃圾的问题日益严重。第二段:本文工作,包括基本的idea和做法。第三段:要算profit,就得知道income和cost。第四段:额外费用和索赔由保险费率决定,建立分析模型和改进现有模型来求解有效撞击概率;为了把这个...
2019-08-15 21:59:00
175
转载 对平底锅和垃圾的O奖论文的整理和学习[1](2018-02-08发布于知乎)
今天和杉杉同志在Pacific Coffee坐了0.4天,目前两人都处于放空状态。这种天气有暖气真的太棒了。我今天看的论文是这两篇:MCM2013B题O奖论文MCM2016B题O奖论文先说第一篇:这篇论文给出了两个模型,一个算法。第一个模型描述了锅边缘的热分布,第二个模型寻找了在两个假定因素(空间利用率最大,和温度分布不均程度最小)下各自的最优解。属于之前...
2019-08-15 21:58:00
180
转载 数据挖掘笔记(2018-03-22发布于知乎)
单选题1.哪些是基于规则的分类器?C4.5KNN?Bayes?ANN?C4.5?K-NN是一种基于实例的学习,或者是局部近似和将所有计算推迟到分类之后的惰性学习。k-近邻算法是所有的机器学习算法中最简单的之一。基于规则的分类器有如下特点:规则集的表达能力几乎等价于决策树,因为决策树可以用互斥和穷举的规则集表示。基于规则分类器和决策树分类器都对属性空间进行...
2019-08-15 21:57:00
622
转载 使用Graphlab参加Kaggle比赛(2017-08-20 发布于知乎)
之前用学生证在graphlab上申了一年的graphlab使用权(华盛顿大学机器学习课程需要)然后今天突然想到完全可以用这个东东来参加kaggle.下午参考了一篇教程,把notebook上面的写好了本文很多代码参考了turi官网的一个教程,有兴趣的同学可以去看原版https://turi.com/learn/gallery/notebooks/who_survived...
2019-08-15 21:55:00
184
转载 大数据笔记
1.Hadoop是什么?为什么要使用Hadoop?平常如何使用Hadoop完成工作?Hadoop是一个大数据开源框架。The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of com...
2019-08-14 23:26:00
200
转载 2018网易游戏数据挖掘实习生笔试面经
面试地点:网易游戏-广州周日晚上看到有网易游戏的招聘启事,就投了一个简历过去。隔天看一下邮箱,发现周三有个笔试。然后这两天一直在学习数据挖掘(尽管不知道考什么)后来笔试的时候才发现!我复习的东西还是有点用处的~不至于全都不会考试题型为 单选,多选,sql,分析,挖掘,仓库,平台,NLP,爬虫。考察的算法不是很多,对游戏,用户的思考比较多。现在做记录。单选题1.哪些是...
2018-03-21 23:45:00
598
转载 数据库课程设计之图书借阅管理系统
经过长达四天的咸鱼,我在课设的进展只有一个ER图。这对我来说是远远落后于理想中进度的。所以在昨天下午我到达学校宿舍,给自己营造一个不受干扰的环境,好好开始做课设了。课程设计题目图书借阅管理系统系统基本功能要求1.登录连接数据库管理系统 系统须有登录连接数据库管理系统的功能。2.增、删、改、查询功能系统须有增加、删除、修改、查...
2018-01-26 02:10:00
5205
转载 随机微积分说了什么
最近学习杨国庆老师的《应用随机过程》,上周学到了均方收敛和均方导数。今晚想要写一波作业但是课本却没有带(带了一本实变函数2333),所以上网看看随机微积分的东西。在经管之家发现了08年一位大神的总结,觉得还蛮不错的,转载到这里。原链接:http://bbs.pinggu.org/thread-324657-1-1.html以下是原文:1. 随机微积分(Stoc...
2017-11-27 19:42:00
554
转载 Kaggle初入门
今天成功的进驻kaggle社区了!所以以后就要跟kaggle上面的各位一起学习啦!今天十分成功的在tensorflow的环境里面装了一堆库……什么seaborn啊pandas啊都一次过然后……并不懂titanic那个要怎么弄……就是……只给了数据集但是根本不知道从何做起啊……所以好好看看别人是怎么做的先 参考一波转载于:https://www.cnblogs.com/...
2017-07-31 10:43:00
77
转载 暑假计划
要达成的目标:1、看完GOT2、70KG3、8.11:上课 学习论文排版 阅读GOT 8.12:上课 学习论文排版 健身 学习论文排版8.13:上课 综合示例:边缘检测 健身8.14:综合示例:霍夫变换 健身8.15:实现多种重映射 健身8.16:直方图均衡化 查找并绘制轮廓 8.17:寻找和绘制物体的凸包矩形边界 圆形...
2016-08-10 23:15:00
135
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人