【北京理工大学-Python 数据分析-1.2-NumPy数据存储与函数】

本文介绍了Python数据分析库NumPy中处理CSV文件的方法,包括np.savetxt()和np.loadtxt()用于一维和二维数据的读写,以及多维数据的存储与读取。同时,讲解了np.save()和np.load()在二进制文件中的应用,以及NumPy的随机函数和统计函数在数据分析中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、数据CSV文件的存取

  • CSV文件(Comma-Separated Value,逗号分隔值)
  • 是一种常见的文件格式,用来存储批量数据。
    如常见的数据存储为CSV后
    在这里插入图片描述
    NumPy中有两个函数可以写入CSV格式,并从CSV文件中读取数据。

CSV文件的存储

  • np.savetxt(),原则上可以存储任意格式的文件。
np.savetxt(frame,array,fmt='%.18e',delimiter=None
  • frame:文件、字符串或产生器,可以是.gz或者bz2的压缩文件。
  • array:存入文件的数组。
  • fmt:写入文件的格式,例如:%d;%.2f;%.18e。
  • delimiter:分割字符串,默认是任何空格。
a=np.arange(100).reshape(5,20)
np.avetxt('a.csv',a,fmt='%d',delimiter=',')
np.avetxt('a.csv',a,fmt='%.2f',delimiter=',')

CSV文件的读取

  • np.loadtxt()
np.loadtxt(frame,dtype=np.float,delimiter=None,unpack=False)
  • frame:文件、字符串或产生器,可以是.gz或者bz2的压缩文件。
  • dtype:数据类型,可选。
  • delimiter:分割字符串,默认是任何空格。
  • unpack:如果是False,则将读入的数据写入同一个数组,否则如果是True,读入属性将分别写入不同变量。
b=np.loadtxt('a.csv',delimiter=',')
b
b=np.loadtxt('a.csv',dtype=np.int,delimiter=',')
b

CSV文件可以很好的进行数据的存储与读取,但是CSV只能有效存储一维和二维数组,np.savetxt()和np.loadtxt()只能有效存取一维和二维数据

二、多维数据的存取
数据的储存

a.tofile(frame,sep='',format='%s')
  • frame:文件、字符串。
  • sep:数据分隔字符串,如果是空串,写入文件为二进制格式。
  • format:写入数据的格式。
a=np.arange(100).reshape(5,10,2)
a.tofile("b.dat",sep=",",format='%d')
a.tofile("b.dat",format='%d')###去掉分隔符后,存储的为二进制的文件,比商议中更节省空间。

数据的读取

np.fromfile(frame,dtype=float,count=-1,sep='')
  • frame:文件、字符串。
  • dtype:读取的数据类型。
  • count:读入元素个数,-1表示读入整个文件。
  • sep:数据分隔字符串,如果是空串,写入文件为二进制。
a=np.arange(100).reshape(5,10,2)
a.tofile("b.dat",sep=",",format='%d')
c=np.fromfile("b.dat",dtype=np.int,sep=",")##读出的是一个一维文件,使得原文件的维度丢失
c=np.fromfile("b.dat",dtype=np.int,sep=",").reshape(5,10,2)##在知道原数据的维度信息和元素类型的时候,使用reshape()函数,可以还原原数据的数据维度和元素,但是前提需要提前知道数据的维度信息

numpy的便捷文件存取

np.save(fname,array)或者np.savez(fname,array)
np.load(fname)
np.save(fname,array)
  • frame:文件名,以.npy为扩展名,压缩扩展名为.npz。
  • array:数组变量。
np.load(fname)
  • fname:文件名,以.npy为扩展名,压缩扩展名为.npz。
 a=np.arange(100).reshape(5,10,2)
 np.save("a.npy",a)
 b=np.load("a.npy")
 b

为什么np.save()函数能这么神奇的还原数据的维度和元素信息呢?
使用二进制的方式读取np.save()保存的数据,可以看到存储的数据是以二进制的形式储存的,且在储存的文件的第一行中记录了原文件的维度和数据类型,因此在使用np.load()函数读取的时候,直接将原来存储的二进制文件按原格式进行读取了,因此很便捷还原原文件的信息。

介绍多种数据读取和存储的方法的原因是:

  • 程序间需要使用数据文件缓存,可以便捷的使用save和load函数进行文件读取
  • 如果需要与其他的程序间进行数据交互和对接,需要采用通用的数据格式如CSV进行程序间的数据交换,此时就需要使用tofile()和fromfile()函数进行读取和存储。

NumPy库的随机函数子库random
四个基本函数

函数说明
rand(d0,d1,…,dn)根据d0-dn创建随机数数组,浮点数,[0,1),均匀分布
randn(d0,d1,…,dn)根据d0-dn创建随机数数组,标准正态分布
randint(low[,high,shape])根据shape创建随机整数或整数数组,范围是[low,high)
seed(s)随机种子数,s是给定的种子值
import numpy as np
a=np.random.rand(3,4,5)##随机生成0-1之间的随机数组
a

sn=np.random.randn(3,4,5)##随机生成一组正态分布的随机数(包括负数)
sn

b=np.random.randint(100,200,(3,4))##根据shape生成整数型的随机数组
b

c=np.random.seed(10)##使用随机数种子可以保证每次生成的随机数组相同,当后续如果需要再次使用该随机数组,调用相同的种子序列,可获得相同的随机序列数组用于后续测试。

较高级的随机序列函数

函数说明
shuffle(a)根据数组a的第一轴进行随机排序,改变数组X,是一个混淆函数
permutation(a)根据数组a的第一轴产生一个新的乱序数组,不改变数组X
choice(a[,size,replace,p])从一维数组a中依概率p抽取元素,形成size形状新数组,replace表示是否可以重用元素,默认为False
import numpy as np
a=np.random.randint(100,200,(3,4))
np.random.shuffle(a)##根据数组a的第一轴进行随机排序,改变数组X
np.random.permutation(a)##根据数组a的第一轴产生一个新的乱序数组不改变数组X
a
import numpy as np
b=np.random.randint(100,200,(8,))
b
np.random.choice(b,(3,2))##随机放回抽取,可以抽到重复的数字
np.random.choice(b,(3,2),replace=False)##replace=Flase表示,随机不放回的抽取,因此抽取的结果是不重复的数据
np.random.choice(b,(3,2),p=b/np.sum(b))##这里的p是抽取的概率,这里设置的概率是元素的值越大,抽取的概率越大

np.random的随机函数

函数说明
uniform(low,high,size)产生具有均匀分布的数组,low起始值,high结束值,size是形状
normal(loc,scale,size)产生具有正态分布的数组,loc均值,scale标准差,size形状
poisson(lam,size)产生具有泊松分布的数据,lam随机事件发生率,size形状
import numpy as np
u=np.random.uniform(0,10,(3,4))
u
n=np.random.normal(10,5,(3,4))
n
p=np.random.poisson(10,(2,5))
p

NumPy的统计函数
np.random的统计函数(1)

函数说明
sum(a,axis=None)根据给定轴axis计算数组a相关元素之和,axis整数或元组
mean(a,axis=None)根据给定轴axis计算数组a线管元素的期望,axis整数或元组
average(a,axis=None,weights=None)根据给定轴axis计算数组a相关元素的加权平均值
std(a,axis=None)根据给定轴axis计算数组a相关元素的标准差
var(a.axis=None)根据给定轴axis计算数组a相关元素的方差

说明:axis=None是统计函数的标配参数

import numpy as np
a=np.arange(15).reshape(3,5)
a
np.sum(a)
np.mean(a,axis=1)
np.mean(a,axis=0)
np.average(a,axis=0,weights=[10,5,1])
np.std(a)
np.var(a)

np.random的统计函数(2)

函数说明
min(a);max(a)计算数组a中元素的最小值、最大值
argmin(a);argmax(a)计算数组a中元素最小值、最大值的降一维后的下标
unravel_index(index,shappe)根据shape将一维下标index转换成多为下标
ptp(a)计算数组中元素最大值与最小值的差
median(a)计算数组a中元素的中位数(中值)
import numpy as np
b=np.arange(15,0,-1).reshape(3,5)##这里的-1表示倒序生成数组
np.max(b)
np.argmax(b)##扁平化后的下标
np.unravel_index(np.argmax(b),b.shape)##重塑成多维下标
np.ptp(b)
np.median(b)

Numpy的梯度函数

函数说明
np.gradient(f)计算数组f中元素的梯度,当f为多维时,返回每个维度梯度

梯度:连续值之间的变化率,即斜率。

举个例子:在XY坐标轴连续三个X坐标对应的Y轴值是:a,b,c,其中b的梯度是:(c-a)/2

import numpy as np
a=np.random.randint(0,10,(5))
##:array([9, 1, 6, 9, 0])##对于起始端点的值,梯度为后一个值减去自身然后除以距离,终点值是其自身,减去上一个值,然后除以距离(为1)。
np.gradient(a)
##:array([-8. , -1.5,  4. , -3. , -9. ])##-1.5为两侧值,为该点的后一个值和前一个值的差除以距离(距离为2)。
b=np.random.randint(0,20,(5))
##:array([11,  6,  7, 11, 13])
np.gradient(b)
##:array([-5. , -2. ,  2.5,  3. ,  2. ])

多维数组

import numpy as np
c=np.random.randint(0,50,(3,5))
np.gradient(c)

在这里插入图片描述
单元小结:
数据的存取与函数

CSV文件

  • np.loadtxt()

  • np.savetxt()
    多维数据存取

  • a.tofile()

  • np.fromfile()

  • np.save()

  • np.savez()

  • np.load()
    随机函数

  • np.random.rand()

  • np.random.randn()

  • np.random.randint()

  • np.random.seed()

  • np.random,choice()

  • np.random.permutation()
    NumPy的统计函数

  • np.sum()

  • np.mean()

  • np.average()

  • np.std()

  • np.var()

  • np.median()

  • np.min()

  • np.max()

  • np.argmin()

  • np.argmax()

  • np.unravel_index()

  • np.ptp()
    NumPy的梯度函数

  • np.gradient() 用于分析数据的变化速率,可用于图象、声音等数据的分析。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值