
python
文章平均质量分 77
smallcases
天道酬勤good
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第一个基于scrapy框架的python程序
前一段时间做过一些爬虫的小项目,用的都是urllib基础库,后来听说用scrapy做爬虫效率高。经过一段时间的学习,做了一个基于scrapy框架的爬虫项目,爬取图片并且保存在本地。首先在item.py文件中定义我们要获取的内容:# -*- coding: utf-8 -*-# Define here the models for your scraped items## See doc原创 2017-08-24 18:06:52 · 940 阅读 · 0 评论 -
python中的可变数据类型和不可变数据类型的区别
最近在研究某一博主的代码时偶然发现了一个问题,第一反应肯定是我自己知识上的欠缺。然后经过各种百度啊之类的终于找到了原因。原创 2017-09-28 11:15:49 · 4337 阅读 · 2 评论 -
LSH(局部敏感哈希算法)实现文本的相似性比对
源码见github:https://github.com/smallsmallcase/lsHash1.LSH算法简介:我们将这样的一族hash函数 H={h:S→U} 称为是(r1,r2,p1,p2)敏感的,如果对于任意H中的函数h,满足以下2个条件:如果d(O1,O2)如果d(O1,O2)>r2,那么Pr[h(O1)=h(O2)]≤p2其中,O1,O2∈S,表示两个具有多维原创 2017-10-19 19:47:41 · 3145 阅读 · 2 评论 -
机器学习算法笔记之K近邻算法(KNeighborsClassifier)
介绍:在sklearn库中,KNeighborsClassifier是实现K近邻算法的一个类,一般都使用欧式距离进行测量。这个类的结构如下:sklearn.neighbors.KNeighborsClassifierclass sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, weights=’uniform原创 2017-10-14 19:55:06 · 61288 阅读 · 8 评论