自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

叶小乙研习社

关注ML&DL、Python及跨境电商领域学习及实践~

  • 博客(16)
  • 收藏
  • 关注

转载 【无标题】

链接:https://huggingface.co/datasets/CaptionEmporium/anime-caption-danbooru-2021-sfw-5m-hq。原文链接:https://www.reddit.com/r/Open_Diffusion/comments/1dnnovb/dataset_of_datasets_ie_i_will_not_spam_the_group/。链接:https://huggingface.co/datasets/google/docci。

2024-08-02 00:30:43 73

原创 国内修改NPM镜像地址

解决方案npm config set registry http://registry.npm.taobao.org/将npm默认设置为淘宝镜像地址发布包当你想发布自己的包时,需要将地址修改回来npm config set registry https://registry.npmjs.org/

2022-04-18 17:25:37 404

原创 Python pip3可替换的国内源

在使用pip3更新相关包时,总是连接不上或者下载速度特别慢,为了彻底解决这个问题,最好更换为国内源,大大地提高安装成功率和速度。国内可用的源如下:清华:https://pypi.tuna.tsinghua.edu.cn/simple中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学:http://pypi.hustunique.co...

2020-05-06 18:14:28 800

原创 Mac下Hadoop+ spark + Hbase + Kafka + zookeeper环境的搭建

安装必备的环境:操作系统:Mac 10.15.4软件包管理工具:brew依赖包JDK: 1.8.01、安装java版本Mac默认安装版本11.0,安装hadoop、hbase、kafka时都要求jdk1.8+, 建议首先安装java8,同时,可以系统保持2个版本参考:Mac上Homebrew安装多版本Java2、安装hadoop2.1 配置ssh配置ssh就是为了能够实现免密登录...

2020-05-06 15:17:33 561

转载 Mac上Homebrew安装多版本Java

一、安装jdk默认最新版本安装命令brew cask install java安装过程==> Satisfying dependencies==> Downloading https://download.java.net/java/GA/jdk11/13/GPL/openjdk-11.0.1_osx-x64_bin.tar.gz################# ...

2020-05-04 15:23:13 2621

转载 TF-IDF与余弦相似性的应用(三):自动摘要

有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大量阅读时间。由人完成的摘要叫"...

2020-04-22 00:40:54 132

转载 TF-IDF与余弦相似性的应用(二):找出相似文章

为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手。句子A:我喜欢看电视,不喜欢看电影。句子B:我不喜欢看电视,也不喜欢看电影。请问怎样才能计算上面两句话的相似程度?基本思路是:如果这两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度。第一...

2020-04-22 00:35:25 222

转载 TF-IDF与余弦相似性的应用(一):自动提取关键词

有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分钟就可以理解,这就是我今天想要介绍的TF-IDF算法。让我们从一个...

2020-04-22 00:12:23 176

原创 sklearn进行人脸数据集加载fetch_lfw_people()报错

sklearn进行人脸数据集加载fetch_lfw_people()报错在使用sklearn自带人脸识别数据集进行训练,出现加载超时或失败from sklearn.datasets import fetch_lfw_people# 读入数据faces = fetch_lfw_people(min_faces_per_person=60)# 数据的规模print(faces.targe...

2020-04-20 19:03:31 7583 11

原创 更新packages失败raw.githubusercontent.com port 443

由于某些因素,导致GitHub的raw.githubusercontent.com域名解析被污染了。解决方法:通过修改hosts解决此问题。操作步骤:1、查询真实IP在https://www.ipaddress.com/查询raw.githubusercontent.com的真实IP。2、修改本地hosts文件sudo vi /etc/hosts添加ip对应199.232.2...

2020-04-17 18:45:06 908

原创 机器学习实践项目数据集资源下载

机器学习实践项目数据集资源下载超神经kaggle陆续继续收集,欢迎发现更好资源的朋友,留言告知~~

2020-04-16 04:26:04 326

原创 Python+WordCloud绘制京东评论词云图实践

WordCloud绘制词云图实践案例作为文本分析,其中常用库jieba、wordcloud等用法演示,以作记录~~import osimport randomimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport jiebaimport jieba.analyseimport word...

2020-04-12 18:10:20 1135

原创 Python文本分析-常用中文停用词表(Chinese Stop Words)

在做jieba中文分词处理,进行文本分析,必不可少的停用词处理,国内比较常用的中文停用词库,有以下几个:中文停用词表哈工大停用词表百度停用词表四川大学机器智能实验室停用词库而@elephantnose 对以上4个词库进行了合并去重,共计2311个,可在github直接下载使用~~链接:GitHub链接...

2020-04-12 13:52:24 18446

转载 Python+Selenium基础入门及实践

转载于:千夜 ( 链接:https://www.jianshu.com/p/1531e12f8852 )一、Selenium+Python环境搭建及配置1.1 selenium 介绍selenium 是一个 web 的自动化测试工具,不少学习功能自动化的同学开始首选 selenium ,因为它相比 QTP 有诸多有点:免费,也不用再为破解 QTP 而大伤脑筋小巧,对于不同的语言它只是一...

2020-04-10 13:12:42 434

原创 Pandas怎样找出最影响结果的哪些特征--SelectKBest

Pandas怎样找出最影响结果的特征当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。来简单看下SelectKBest的用法:SelectKBest模型原型class sklearn.feature_selection.SelectKBest(score_func=,k=10)参数score_func: 给出统计指标sklearn.feature_sele...

2020-03-31 01:09:17 3490

原创 Pandas分析某眼TOP100电影都来自于谁?

史上TOP100电影分析某眼TOP100电影数据分析准备数据网页抓取数据分析数据清洗和处理分析1:最耀眼的明星排行分析2:TOP100诞生于哪些年份?分析3:TOP100最受欢迎的题材分析4:TOP100都诞生哪些国家地区?分析5:TOP100 评分分布某眼TOP100电影数据分析2018年有一段时间稍微看了一段时间数据分析,稀里糊涂地做过一些demo,后来忙于创业项目的开发,风风火火地搞了1...

2020-03-30 01:09:01 932

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除