机器学习Python处理中出现的问题汇总
在机器学习过程中出现的问题还是蛮多的,原因大概就是像数据集太大引起的,产生的冗杂文件过多,堆积文件过多或者算法复杂度过大引起的运行缓慢等等问题。
其实不难理解的就是,本来机器学习的训练调参过程就是一个极其缓慢的学习过程,少则十几万的数据量使得你的算法一旦有一点点问题,稍微复杂一点点就会引起运算速度按照指数级堆积,时间就会耗很久,又幸苦电脑(大黑天天面对俺的辣鸡代码欲哭无泪)cpu资源,又浪费我的时间(时间即金钱)!
so这里大概整理一下在run code的时候出现的各种各样毛病,以后在coding的时候也可以多加注意,同样的错误一次解决!
一、Pycharm一直indexing造成无法run
这点是因为python有自动将文件(你的运行文件夹下的code文件或者其他文件)进行排序index的功能,这里大概猜想是方便降低时间冗杂度吧,提升runing的效率。
虽然很棒但是一旦数据量大了起来(就像我在训练arima模型的时候数据集基本上是一个表有几万加的数据,共计几十万张表),一个个indexing就算是大黑也吃不消亚,所以这时候就需要,将数据文件夹与coding的主程序区分出来。
这时indexing的文件就只剩下你的main code了,万事大吉,顺利run!
二、安装第三方宏包出现的问题
1、安装宏包的常见方法
(1)通过GitHub或者是宏包官网下载zip文档
针对比较新的,也就是正处于beta版的一些开源项目宏包,可以通过进入项目组的GitHub网站进行下载。
方法:登陆GitHub官网 https://github.com/ 直接进行查询
然后将下载好的zip文件解压,放进anaconda的site-package(我这里是\anaconda\Lib\site-packages)
进入安装的目标文件夹:cd pandas
用python指令运行setup程序:python setup.py install
(2)下载whl文档
很多网站可以通过下载whl文件对宏包进行直接安装,
方法:将下载的whl文件放入(\anaconda\Scripts)
最后直接:pip install xxx.whl(xxx就是宏包名称)
(3)通过pycharm的console进行pip
应该可以说是最简单的方法,直接在pycharm的console命令行运行pip install xxx(你想安装的宏包名称)格式:
- pip install pandas
- pip install pandas == 1.0.0(下载pandas1.0.0版本)
- pip install ’pandas <= 1.0.0’(下载小于1.0.0版本的pandas)
但是需要事先设置好下载环境
- 进入pycharm
- 修改系统默认的pip系统全局变量(我这里是C:\Users\11745\AppData\Roaming\pip)
[global]
timeout = 6000
index-url = https://pypi.tuna.tsinghua.edu.cn/simple
trusted-host = pypi.tuna.tsinghua.edu.cn
2、宏包版本更改
有些时候一些大型项目(比如pycaret、auto_kerua、auto_ml)这些,往往需要其他很多第三方宏包进行支持,而且版本也要求不一致,于是很容易在安装的时候出现:‘xx‘ has no attribute 的问题,于是就需要对版本进行手动选择(升级,降级),但是宏包不同的版本也有不同的选取:
-
根据你需要装的版本选择版本号(1.0.0这种)降版本操作(先删再装):
pip uninstall xx pip install xx = xxx
-
根据你自身机型选择解决方案(这里出现的问题如下,应该是我python的版本太高了)
后来改用了的代码:
import wheel.pep425tags as w print(w.get_supported())
得出最终结果(根据我自己的机型):
[('cp37', 'cp37m', 'win_amd64'), ('cp37', 'none', 'win_amd64'), ('cp37', 'none', 'any'), ('cp3', 'none', 'any'), ('cp36', 'none', 'any'), ('cp35', 'none', 'any'), ('cp34', 'none', 'any'), ('cp33', 'none', 'any'), ('cp32', 'none', 'any'), ('cp31', 'none', 'any'), ('cp30', 'none', 'any'), ('py3', 'none', 'win_amd64'), ('py37', 'none', 'any'), ('py3', 'none', 'any'), ('py36', 'none', 'any'), ('py35', 'none', 'any'), ('py34', 'none', 'any'), ('py33', 'none', 'any'), ('py32', 'none', 'any'), ('py31', 'none', 'any'), ('py30', 'none', 'any')]
3、第三方开源镜像网站
国外:
python的默认库:https://pypi.python.org/pypi
LFD:https://www.lfd.uci.edu/~gohlke/pythonlibs/
国内:
清华开源:https://pypi.tuna.tsinghua.edu.cn/simple
阿里开源:https://mirrors.aliyun.com/pypi/simple/
中科院:https://pypi.mirrors.ustc.edu.cn/simple/