【北京理工大学-Python 数据分析-1.2-NumPy数据存储与函数】

最新推荐文章于 2025-01-09 09:10:14 发布

原创最新推荐文章于 2025-01-09 09:10:14 发布 · 295 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #numpy #数据分析

学习充电同时被 2 个专栏收录

60 篇文章

订阅专栏

Python 学习之旅

22 篇文章

订阅专栏

本文介绍了Python数据分析库NumPy中处理CSV文件的方法，包括np.savetxt()和np.loadtxt()用于一维和二维数据的读写，以及多维数据的存储与读取。同时，讲解了np.save()和np.load()在二进制文件中的应用，以及NumPy的随机函数和统计函数在数据分析中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、数据CSV文件的存取

CSV文件（Comma-Separated Value,逗号分隔值）
是一种常见的文件格式，用来存储批量数据。
如常见的数据存储为CSV后

NumPy中有两个函数可以写入CSV格式，并从CSV文件中读取数据。

CSV文件的存储

np.savetxt()，原则上可以存储任意格式的文件。

np.savetxt(frame,array,fmt='%.18e',delimiter=None

frame:文件、字符串或产生器，可以是.gz或者bz2的压缩文件。
array:存入文件的数组。
fmt:写入文件的格式，例如：%d；%.2f；%.18e。
delimiter:分割字符串，默认是任何空格。

a=np.arange(100).reshape(5,20)
np.avetxt('a.csv',a,fmt='%d',delimiter=',')
np.avetxt('a.csv',a,fmt='%.2f',delimiter=',')

CSV文件的读取

np.loadtxt()

np.loadtxt(frame,dtype=np.float,delimiter=None,unpack=False)

frame:文件、字符串或产生器，可以是.gz或者bz2的压缩文件。
dtype:数据类型，可选。
delimiter:分割字符串，默认是任何空格。
unpack:如果是False，则将读入的数据写入同一个数组，否则如果是True，读入属性将分别写入不同变量。

b=np.loadtxt('a.csv',delimiter=',')
b
b=np.loadtxt('a.csv',dtype=np.int,delimiter=',')
b

CSV文件可以很好的进行数据的存储与读取，但是CSV只能有效存储一维和二维数组，np.savetxt()和np.loadtxt(）只能有效存取一维和二维数据。

二、多维数据的存取
数据的储存

a.tofile(frame,sep='',format='%s')

frame:文件、字符串。
sep:数据分隔字符串，如果是空串，写入文件为二进制格式。
format:写入数据的格式。

a=np.arange(100).reshape(5,10,2)
a.tofile("b.dat",sep=",",format='%d')
a.tofile("b.dat",format='%d')###去掉分隔符后，存储的为二进制的文件，比商议中更节省空间。

数据的读取

np.fromfile(frame,dtype=float,count=-1,sep='')

frame:文件、字符串。
dtype:读取的数据类型。
count:读入元素个数，-1表示读入整个文件。
sep:数据分隔字符串，如果是空串，写入文件为二进制。

a=np.arange(100).reshape(5,10,2)
a.tofile("b.dat",sep=",",format='%d')
c=np.fromfile("b.dat",dtype=np.int,sep=",")##读出的是一个一维文件，使得原文件的维度丢失
c=np.fromfile("b.dat",dtype=np.int,sep=",").reshape(5,10,2)##在知道原数据的维度信息和元素类型的时候，使用reshape()函数，可以还原原数据的数据维度和元素，但是前提需要提前知道数据的维度信息

numpy的便捷文件存取

np.save(fname,array)或者np.savez(fname,array)
np.load(fname)

np.save(fname,array)

frame:文件名，以.npy为扩展名，压缩扩展名为.npz。
array:数组变量。

np.load(fname)

fname:文件名，以.npy为扩展名，压缩扩展名为.npz。

 a=np.arange(100).reshape(5,10,2)
 np.save("a.npy",a)
 b=np.load("a.npy")
 b

为什么np.save()函数能这么神奇的还原数据的维度和元素信息呢？
使用二进制的方式读取np.save(）保存的数据，可以看到存储的数据是以二进制的形式储存的，且在储存的文件的第一行中记录了原文件的维度和数据类型，因此在使用np.load(）函数读取的时候，直接将原来存储的二进制文件按原格式进行读取了，因此很便捷还原原文件的信息。

介绍多种数据读取和存储的方法的原因是：

程序间需要使用数据文件缓存，可以便捷的使用save和load函数进行文件读取
如果需要与其他的程序间进行数据交互和对接，需要采用通用的数据格式如CSV进行程序间的数据交换，此时就需要使用tofile()和fromfile(）函数进行读取和存储。

NumPy库的随机函数子库random
四个基本函数

函数	说明
rand(d0,d1,…,dn)	根据d0-dn创建随机数数组，浮点数，[0,1),均匀分布
randn(d0,d1,…,dn)	根据d0-dn创建随机数数组，标准正态分布
randint(low[,high,shape])	根据shape创建随机整数或整数数组，范围是[low,high)
seed(s)	随机种子数，s是给定的种子值

import numpy as np
a=np.random.rand(3,4,5)##随机生成0-1之间的随机数组
a

sn=np.random.randn(3,4,5)##随机生成一组正态分布的随机数（包括负数）
sn

b=np.random.randint(100,200,(3,4))##根据shape生成整数型的随机数组
b

c=np.random.seed(10)##使用随机数种子可以保证每次生成的随机数组相同，当后续如果需要再次使用该随机数组，调用相同的种子序列，可获得相同的随机序列数组用于后续测试。

较高级的随机序列函数

函数	说明
shuffle(a)	根据数组a的第一轴进行随机排序，改变数组X，是一个混淆函数
permutation(a)	根据数组a的第一轴产生一个新的乱序数组，不改变数组X
choice（a[,size,replace,p])	从一维数组a中依概率p抽取元素，形成size形状新数组，replace表示是否可以重用元素，默认为False

import numpy as np
a=np.random.randint(100,200,(3,4))
np.random.shuffle(a)##根据数组a的第一轴进行随机排序，改变数组X
np.random.permutation(a)##根据数组a的第一轴产生一个新的乱序数组不改变数组X
a
import numpy as np
b=np.random.randint(100,200,(8,))
b
np.random.choice(b,(3,2))##随机放回抽取，可以抽到重复的数字
np.random.choice(b,(3,2),replace=False)##replace=Flase表示，随机不放回的抽取，因此抽取的结果是不重复的数据
np.random.choice(b,(3,2),p=b/np.sum(b))##这里的p是抽取的概率，这里设置的概率是元素的值越大，抽取的概率越大

np.random的随机函数

函数	说明
uniform(low,high,size)	产生具有均匀分布的数组，low起始值，high结束值，size是形状
normal(loc,scale,size)	产生具有正态分布的数组，loc均值，scale标准差，size形状
poisson(lam,size)	产生具有泊松分布的数据，lam随机事件发生率，size形状

import numpy as np
u=np.random.uniform(0,10,(3,4))
u
n=np.random.normal(10,5,(3,4))
n
p=np.random.poisson(10,(2,5))
p

NumPy的统计函数
np.random的统计函数（1）

函数	说明
sum(a,axis=None)	根据给定轴axis计算数组a相关元素之和，axis整数或元组
mean(a,axis=None)	根据给定轴axis计算数组a线管元素的期望，axis整数或元组
average(a,axis=None,weights=None)	根据给定轴axis计算数组a相关元素的加权平均值
std(a,axis=None)	根据给定轴axis计算数组a相关元素的标准差
var(a.axis=None)	根据给定轴axis计算数组a相关元素的方差

说明：axis=None是统计函数的标配参数

import numpy as np
a=np.arange(15).reshape(3,5)
a
np.sum(a)
np.mean(a,axis=1)
np.mean(a,axis=0)
np.average(a,axis=0,weights=[10,5,1])
np.std(a)
np.var(a)

np.random的统计函数（2）

函数	说明
min(a);max(a)	计算数组a中元素的最小值、最大值
argmin(a);argmax(a)	计算数组a中元素最小值、最大值的降一维后的下标
unravel_index(index,shappe)	根据shape将一维下标index转换成多为下标
ptp(a)	计算数组中元素最大值与最小值的差
median(a)	计算数组a中元素的中位数（中值）

import numpy as np
b=np.arange(15,0,-1).reshape(3,5)##这里的-1表示倒序生成数组
np.max(b)
np.argmax(b)##扁平化后的下标
np.unravel_index(np.argmax(b),b.shape)##重塑成多维下标
np.ptp(b)
np.median(b)

Numpy的梯度函数

函数	说明
np.gradient(f)	计算数组f中元素的梯度，当f为多维时，返回每个维度梯度

梯度：连续值之间的变化率，即斜率。

举个例子：在XY坐标轴连续三个X坐标对应的Y轴值是：a,b,c,其中b的梯度是：（c-a)/2

import numpy as np
a=np.random.randint(0,10,(5))
##：array([9, 1, 6, 9, 0])##对于起始端点的值，梯度为后一个值减去自身然后除以距离，终点值是其自身，减去上一个值，然后除以距离（为1）。
np.gradient(a)
##：array([-8. , -1.5,  4. , -3. , -9. ])##-1.5为两侧值，为该点的后一个值和前一个值的差除以距离（距离为2）。
b=np.random.randint(0,20,(5))
##：array([11,  6,  7, 11, 13])
np.gradient(b)
##：array([-5. , -2. ,  2.5,  3. ,  2. ])

多维数组

import numpy as np
c=np.random.randint(0,50,(3,5))
np.gradient(c)

在这里插入图片描述
单元小结：
数据的存取与函数

CSV文件

np.loadtxt()
np.savetxt()
多维数据存取
a.tofile()
np.fromfile()
np.save()
np.savez()
np.load()
随机函数
np.random.rand()
np.random.randn()
np.random.randint()
np.random.seed()
np.random,choice()
np.random.permutation()
NumPy的统计函数
np.sum()
np.mean()
np.average()
np.std()
np.var()
np.median()
np.min()
np.max()
np.argmin()
np.argmax()
np.unravel_index()
np.ptp()
NumPy的梯度函数
np.gradient() 用于分析数据的变化速率，可用于图象、声音等数据的分析。