
机器之心
文章平均质量分 76
AI专家
待完善。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
sklearn技巧总结
本文转载自:http://www.jianshu.com/p/516f009c0875最近看了《Python数据挖掘入门与实战》,网上有说翻译地不好的,但是说实话,我觉得这本书还是相当不错的。作者Robert Layton是sklearn的开发者之一,书中介绍了很多sklearn使用的技巧和拓展的方法。这里就书中关于sklearn的部分,还有自己学习sklearn的知识,我做一个总结的笔记。另外,...转载 2018-06-20 13:16:07 · 403 阅读 · 0 评论 -
机器学习之十大经典算法(九)EM算法
EM算法EM算法简介:EM 算法是Dempster,Laind,Rubin于1977年提出的求参数极大似然估计的一种方法,它可以从非完整数据集中对参数进行MLE估计,是一种非常简单实用的学习算法。这种方法可以广泛地应用于处理缺损数据、截尾数据以及带有噪声等所谓的不完全数据。具体地说,我们可以利用EM算法来填充样本中的缺失数据、发现隐藏变量的值、估计HMM中的参数、估计有限混合分布中的参数以及可...原创 2018-06-09 14:45:01 · 5271 阅读 · 1 评论 -
机器学习之经典算法(十六) Birch算法
(一) Birch算法简介: BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)全称是:利用层次方法的平衡迭代规约和聚类。BIRCH算法是1996年由Tian Zhang提出来的。Birch算法就是通过聚类特征(CF)形成一个聚类特征树,root层的CF个数就是聚类个数。 整个算法实现共分...原创 2018-06-16 10:04:14 · 13111 阅读 · 1 评论 -
基于文本模式的主题模式识别
前面几篇博文都介绍了几种不同的分类器,基于分类,好像其他场合应用的监督学习,但有时我们不知道主题分类,这时,相当于无监督学习,如果能实现,先用机器进行主题识别,再加上人工标记,这样就能实现强大的主题库。 下面的时间,我们来探讨一下:(1) 加载数据,包括需要分类的输入数据,还有停用词、词干提取和标记解析等。def load_data(input_file): data = [...原创 2018-06-09 10:07:43 · 3294 阅读 · 0 评论 -
情感分析器设计
情感分析器设计 情感分析是NLP最受欢迎之一,其主要目的就是判断一段文字是否是积极的。当然,有些是中性的。情感分析在营销活动、社交媒体、电子商务客户分析等应用广泛,而这些都间接反馈很多问题,而当数据量很大时,人工无法完成分类,这时机器学习大显身手! 下面,我们来看看如何来进行情感分析器设计: 这里,我们用nltk.corpus下moive_reviews关...原创 2018-06-09 09:12:45 · 1016 阅读 · 0 评论 -
机器学习经典算法之(二十三) 随机梯度下降法
(一) 随机梯度下降法: 上一篇博文,已经介绍了梯度下降算法。在实际中,为了实现梯度下降,往往分为随机梯度下降法和批量梯度下降法。 随机梯度下降法基本思路: for j in range(j): 对于每一次更新参数,不必遍历所有的训练集合,仅仅使用了一个数据,来变换一个参数。这样做不如完全梯度下降的精确度高,可能会走很多弯路,但整体趋势是走向minmum。这样做可以节省更...原创 2018-06-23 21:37:23 · 2015 阅读 · 0 评论 -
性别分类器设计
性别分类器 无论中文还是英文,男女名字上都有很重要的特征,比如:中文:军,兵这样的名字,男性占绝大多数;霞、燕这样的名字,女性占绝大多数;当然英文中:Jack、John为男性较多,amy、Cassie等等,女性占绝大多数,并且结尾是一个很重要特征,而性别与消费行为、消费心理很多方面都息息相关,而当数据量大时,人工无法完成分类,这是机器学习就是一个好帮手! 下面,我们来看...原创 2018-06-09 00:07:00 · 1461 阅读 · 0 评论 -
机器学习之十大经典算法(八) PageRank算法
PageRank算法 (一) PageRank算法简介: Google的创始人之一LarryPage于1998年提出了PageRank,并应用在Google搜索引擎的检索结果排序上,该技术也是Google早期的核心技术之一。 Larry Page是Google的创始首席执行官,2001年4月转任现职产品总裁。他目前仍与Eric Schmidt和Serge...原创 2018-06-08 22:11:43 · 3411 阅读 · 0 评论 -
文本分类器设计
文本分类的目的是将文本文档分为不同的类,这是NLP中非常重要的分析手段。这里将使用一种技术,它基于一种叫作tf-idf的统计数据,它表示词频逆文档频率(term frequency—inversedocument frequency)。这个统计工具有助于理解一个单词在一组文档中对某一个文档的重要性。它可以作为特征向量来做文档分类。实际上就是利用现有数据或者已有模型来预测输入的文档的类别...原创 2018-06-08 21:30:11 · 1592 阅读 · 1 评论 -
读《数据挖掘-实用机器学习技术》笔记
数据挖掘是通过分析存在于数据库里的数据来解决问题。在激烈的竞争市场上,客户忠诚度摇摆问题就是一个经常提到的事例,一个有关客户商品选择以及客户个人资料的数据库是解决这个问题的关键。以前客户的行为模式能够被用来分析并识别哪些喜欢选购不同的商品。甄别出那些善变的客户群体,并加以特殊对待,须知对整个客户群都加以特殊对待的成本是高昂的。数据挖掘被定义为找出数据中的模式的过程。这个过程必须是自动的或半自动的。...原创 2018-06-16 21:57:20 · 1669 阅读 · 0 评论 -
Python合成音乐
我们可以利用Python合成音频,同样也能合成一些音乐,这里我们有个文件music.json里定义了A~F以及对应的频率,简单合成了两段音乐music1、music2,供读者参考学习。import jsonimport numpy as npfrom scipy.io.wavfile import writeimport matplotlib.pyplot as plt#--------...原创 2018-06-09 21:27:11 · 3868 阅读 · 1 评论 -
机器学习经典算法之(十九)多项式回归
(一)多项式回归简介:在上一篇的一般线性回归中,使用的假设函数是一次方程,假设数据集呈简单线性关系,但实际上,很多不是非线性的,直线方程无法很好的拟合数据的情况,这个时候可以尝试使用多项式回归方式。多项式回归中,加入了特征的更高次方,也相当于增加了模型的自由度,用来捕获数据中非线性的变化。添加高阶项的时候,也增加了模型的复杂度。随着模型复杂度的升高,模型的容量以及拟合数据的能力增加,可以进一步降低...原创 2018-06-19 23:20:44 · 3437 阅读 · 0 评论 -
机器学习经典算法之(十八) Linear Regression
一、线性回归简介: 在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。 为了了解这个定义,我们先举个简单的例子:假设一个线性方程y=2x+30, x变量为体重(k...原创 2018-06-18 21:33:26 · 2755 阅读 · 0 评论 -
隐马尔科夫模型HMM学习最佳范例
<div id="article_content" class="article_content clearfix csdn-tracking-statistics" data-pid="blog" data-mod="popu_307" data-dsm="post"> <link rel="stylesheet&am转载 2018-06-10 15:33:37 · 783 阅读 · 0 评论 -
SVM在手写体数字识别应用举例
from sklearn import datasetsimport numpyfrom numpy import *from sklearn import svm print ('''加载数据集''')digits = datasets.load_digits() # 例如在digits数据集中,digits.data是可以用来分类数字样本的特征print(digits.data,"type(d...原创 2018-06-18 09:16:45 · 2451 阅读 · 0 评论 -
scipy处理多项式方法
# -*- coding:utf-8 -*-from scipy import poly1dimport numpy as npp = poly1d([1, 2, 3])print (p)print (p*p)print (p.integ(k=1)) #求p(x)的不定积分,指定常数项为1print (p.deriv()) #求p(x)的一阶导数p([4, 5]) ...原创 2018-06-18 08:58:05 · 1102 阅读 · 1 评论 -
机器学习之经典算法(十七)二分Kmeans算法
(1) 二分Kmeans算法简介:二分KMeans(Bisecting KMeans)是基于KMeans算法之上,KMeans聚类结果易受到初始聚类中心点选择的影响。如果不需要选取初始值呢。二分KMeans克服初始中心点影响,各簇中心点的距离较远,这就完全避免了初始聚类中心会选到一个类别上,一定程度上克服了算法陷入局部最优状态。基本思想:首先将所有点作为一个簇,然后将该簇一分为二,每次选...原创 2018-06-17 21:57:06 · 3235 阅读 · 0 评论 -
机器学习之十大经典算法(十) 随机森林算法
一、随机森林算法简介: 在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而 "Random Forests" 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的...原创 2018-06-10 14:13:07 · 31943 阅读 · 2 评论 -
机器学习经典算法之(二十四) 独立成分分析法
(一)独立成分分析简介: ICA是20世纪90年代提出的,起初是神经网络的研究中有一个重要的问题,独立成分分析是一个解决问题的新方法。Ica(独立成分分析法)又称盲源分离(Blind source separation, BSS),它假设观察到的随机信号x服从非高斯分布模型,其中s为未知源信号,其分量相互独立,A为一未知混合矩阵。ICA的目的是通过且仅通过观察x来估计...原创 2018-06-24 21:36:49 · 1324 阅读 · 0 评论 -
sklearn中生成数据集samples_generator.py源代码
"""Generate samples of synthetic data sets.""" # Authors: B. Thirion, G. Varoquaux, A. Gramfort, V. Michel, O. Grisel,# G. Louppe, J. Nothman# License: BSD 3 clause import numbersimport array...转载 2018-06-07 18:37:17 · 4199 阅读 · 1 评论 -
机器学习之十大经典算法(七) Apriori算法
(一) Apriori算法简介 Apriori算法是经典的挖掘频繁项集和关联规则的数据挖掘算法。A priori在拉丁语中指"来自以前"。当定义问题时,通常会使用先验知识或者假设,这被称作"一个先验"(a priori)。Apriori算法的名字正是基于这样的事实:算法使用频繁项集性质的先验性质,即频繁项集的所有非空子集也一定是频繁的。Apriori算法使用一种称为逐层搜索的迭...原创 2018-06-07 17:49:39 · 5042 阅读 · 0 评论 -
数据挖掘数据集汇总
转:http://bbs.w3china.org/blog/more.asp?name=idmer&id=24017大家做数据挖掘研究时,常常为找不到合适的数据而发愁。在KDNuggets上有Datasets栏目,提供一些数据集,网址为:http://www.kdnuggets.com/datasets/还有另外一个很好的资源网址为:http://kdd.ics.uci.edu/,里面包含...转载 2018-06-07 17:32:19 · 5869 阅读 · 1 评论 -
机器学习之经典算法(十二) 维特比算法
机器学习经典算法(十二)维特比算法 (一)维特比算法简介: 维特比算法由安德鲁·维特比(Andrew Viterbi)于1967年提出,用于在数字通信链路中解卷积以消除噪音。此算法被广泛应用于CDMA和GSM数字蜂窝网络、拨号调制解调器、卫星、深空通信和802.11无线网络中解卷积码。现今也被常常用于语音识别、关键字识别、计算语言学和生物信息学中。例如在语音(语音识别)中,声音信号作...原创 2018-06-12 17:16:12 · 2429 阅读 · 0 评论 -
机器学习之十大经典算法(五) AdaBoost算法
机器学习之十大经典算法(五) AdaBoost算法一、AdaBoost算法简介:Adaboost 是一种迭代算法,本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的...原创 2018-06-05 14:47:15 · 3578 阅读 · 1 评论 -
维特比算法
维特比算法维特比算法(Viterbi algorithm)是在一个用途非常广的算法,本科学通信的时候已经听过这个算法,最近在看 HMM(Hidden Markov model) 的时候也看到了这个算法。于是决定研究一下这个算法的原理及其具体实现,如果了解动态规划的同学应该很容易了解维特比算法,因为维特比算法的核心就是动态规划。对于 HMM 而言,其中一个重要的任务就是要找出最有可能产生其观测序列的...转载 2018-06-12 13:21:51 · 2475 阅读 · 0 评论 -
通俗易懂条件随机场CRF
条件随机场CRF 条件随机场(Conditional Random Fields, 以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型,在自然语言处理中得到了广泛应用。本系列主要关注于CRF的特殊形式:线性链(Linear chain) CRF。本文关注与CRF的模型基础。1.什么样的问题需要CRF模型 和HMM类似,在讨论CRF之前,我们来看看什么样的问题需要CRF...转载 2018-06-11 21:28:17 · 8699 阅读 · 1 评论 -
机器学习之经典算法(十一) 条件随机场
一、条件随机场(CRF)简介: 条件随机域(场)(conditionalrandom fields,简称 CRF,或CRFs),是一种判别式概率模型,是随机场的一种。条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。常用于标注或分析序列资料,如自然...原创 2018-06-11 21:17:40 · 3758 阅读 · 0 评论 -
机器学习之路
从3月份开始机器学习,到今天有两个月时间了。读了《概率论与数理统计》、线性代数、白话大数据与机器学习、数学之美、大嘴巴漫画数据挖掘,重点学习了十个经典机器学习算法,并用python实现或者matlab或者C++实现,理论性比较强,6月份主要攻克机器学习实战和Python机器学习经典实例电子版两本书,机器学习实战从原理角度,目前看到了第11章Apriori算法了,经典实例应用角度撰写,...原创 2018-05-29 06:29:57 · 377 阅读 · 0 评论 -
绘制时间序列数据
时间序列数据转换后,如何进行绘制,能不能绘制一段时间数据呢。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltclass My_data_timers_transform: def __init__(self,input_file='data_timeseries.txt'): self.in...原创 2018-06-11 18:20:57 · 2840 阅读 · 0 评论 -
机器学习之路(二)
大数据目前应用广泛,在我看来,现在社会,数据无处不在。大数据是以数据为核心,是一个围绕大数据生命周期不断循环往复的生产过程,但也需要很多行业协作和配合。 数据主要分为:收集、存储、建模、分析和产品输出几个阶段。目前,收集是通过各种软件应用收集或者设备收集;存储通过网络,云计算进行存储,通过数据科学家或者行业专家进行建模或者加工,最后数据分析得到知识,最终输出产品,提供给用...原创 2018-05-29 20:13:24 · 833 阅读 · 0 评论 -
学习心得----matplotlib实现动态图效果
经常会用到动态图,下面给段代码供大家参考,祝大家学习愉快!import numpy as npimport matplotlib.pyplot as plt from matplotlib import animationfig,ax = plt.subplots()x = np.arange(0,100,0.1)line, = ax.plot(x,np.sin(x))def animat(i):...原创 2018-05-29 20:56:22 · 2087 阅读 · 1 评论 -
Sklearn提供的常用数据集
一、自带的小数据集(packageddataset):sklearn.datasets.load_<name>1) 鸢尾花数据集:load_iris():用于分类任务的数据集2) 手写数字数据集:load_digits():用于分类任务或者降维任务的数据集3) 乳腺癌数据集load-barest-cancer():简单经典的用于二分类任务的数据...原创 2018-06-07 20:41:50 · 20282 阅读 · 3 评论 -
机器学习经典算法之(二十一) 岭回归
(一) 岭回归简介:线性回归最主要问题是对异常值敏感。在真实世界的数据收集过程中,经过会遇到错误的度量结果。而线性回归使用的普通最小二乘法,其目标是使平方误差最小化。这时,由于异常值误差的绝对值很大,因此破坏整个模型。如何解决呢?我们引入正则化项的系数作为阈值来消除异常的影响。这个方法称为岭回归。(具体原理待完善,读者可参考其他文献)(二) 岭回归实现原理(代码参考《机器实战》):fromnu...原创 2018-06-21 22:23:30 · 1723 阅读 · 0 评论 -
SVM回归器应用
利用SVM回归器预测车辆数量,数据集为traiffic_data.txt,可以在https://archive.ics.uci.edu/ml/dataset下面,数据中存为:星期、时间、对手棒队、棒球比赛是否正在继续、通过汽车数量,输入测试数据,预测车辆数量。 代码封装成一个类,测试单个数据要注意编码器中进行转换,这一点花了我较长时间,读者也要注意。 # SVM regress...原创 2018-06-07 11:35:19 · 2286 阅读 · 0 评论 -
SVC实现分类算法实现
import numpy as npimport matplotlib.pyplot as pltfrom sklearn.svm import SVCclass MySVM: X=[];y=[] m=0;n=0 fignum=1 def __init__(self,params={'kernel': 'linear'}): self.modu...原创 2018-06-07 00:20:13 · 4198 阅读 · 0 评论 -
机器学习之十大经典算法(六) SVM算法
(一) SVM支持向量机简介: 全名:SupportVector Machine(支持向量机)。基于统计学习理论的一种机器学习方法。SVM是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性之间寻求最佳折衷,以期获得最好的推广能力(或泛化能力)。支持向量:支持或支撑平面上把两类类别划分开来的超平面的向量点。简单的说,就是将数据单元表示在多...原创 2018-06-06 22:01:03 · 4987 阅读 · 1 评论 -
Python凝聚层次聚类实例
import numpy as npimport matplotlib.pyplot as pltfrom sklearn.cluster import AgglomerativeClusteringfrom sklearn.neighbors import kneighbors_graphclass MyAgglomerative: def __init__(self,t=0,n...原创 2018-06-05 21:02:05 · 2510 阅读 · 0 评论 -
主成分分析PCA
基本思路:(1)对所有的样本进行demean处理。(2)梯度上升法求系数。注意:和线性回归不同点。 每次求一个单位向量;初始化w不能为0向量;不能使用sklearn进行标准化了。(3)批量和随机梯度同样适用梯度上升法。(4) 第一主成分和后续主成分。先将数据进行改变,将数据在第一主分上的分量去掉。在新的数据上求第二主成分。这是循环往复过程。...原创 2018-05-29 23:25:18 · 239 阅读 · 0 评论 -
matplotlib画图之美妙!
如果要画出更多复杂的图,怎么办呢?下面,我们举个例子:import numpy as npimport matplotlib.pyplot as plt# 创建画布1plt.figure(1)plt.title("exp") #加标题# 在画布2中创建子图1、子图2plt.figure(2)# 创建画布2plt.suptitle("sin&cos") #由于存在子图,所以title应该为...原创 2018-05-29 21:35:18 · 278 阅读 · 0 评论 -
机器学习之十大经典算法(四) 朴素贝叶斯算法
(一)朴素贝叶斯算法简介。朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。算法的基础是概率问题,分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。朴素贝叶斯假设是约束性很强的假设,假设特征条件独立,但朴素贝叶斯算法简单,快速,具有较小的出错率。在朴素贝叶斯的应用中,主要研究了电子邮件过滤以及文本分类研究。...原创 2018-06-04 18:54:26 · 3553 阅读 · 0 评论