介紹
NumPy是Python數值計算最重要的基礎包,大多數提供科學計算的包都是用NumPy的數組作為構建基礎。NumPy本身并沒有提供多么高級的數據分析功能,理解NumPy數組以及面向數組的計算,將有助于你更加高效地使用諸如Pandas之類的工具。
雖然NumPy提供了通用的數值數據處理的計算基礎,但大多數讀者可能還是想將Pandas作為統(tǒng)計和分析工作的基礎,尤其是處理表格數據時。
NumPy的部分功能如下:
ndarray,一個具有矢量算術運算和復雜廣播能力的快速且節(jié)省空間的多維數組。
用于對整組數據進行快速運算的標準數學函數(無需編寫循環(huán))。
用于讀寫磁盤數據的工具以及用于操作內存映射文件的工具。
線性代數、隨機數生成以及傅里葉變換功能。
用于集成由C、C++、Fortran等語言編寫的代碼的A C API。
NumPy之于數值計算特別重要是因為它可以高效處理大數組的數據。這是因為:
比起Python的內置序列,NumPy數組使用的內存更少。
NumPy可以在整個數組上執(zhí)行復雜的計算,而不需要Python的for循環(huán)。
使用下面格式約定,引入NumPy包:
import numpy as np
NumPy的ndarray:N維數組對象
NumPy最重要的是其N維數組對象(即ndarray),其中的所有元素必須是相同類型的。該對象是一個快速而靈活的大數據集容器,可以利用這種數組對整塊數據執(zhí)行數學運算,其語法跟標量元素之間的運算一樣。
創(chuàng)建ndarray
使用np.array(list/tuple, dtype=np.float32)函數,產生一個新的含有傳入數據的ndarray對象。
第一個參數為元組、列表(相同數據類型),第二個參數為ndarray數組中的數據類型。當第二個參數為空時,NumPy將根據數據情況指定一個類型。
返回值為[ ]形式,元素間由空格分割。
In [20]: arr1 = np.array([6, 7.5, 8, 0, 1]) #從列表創(chuàng)建
In [21]: pring(arr1)
Out[21]: [ 6. , 7.5, 8. , 0. , 1. ] #NumPy根據數據情況,指定了float類型
In [23]: arr2 = np.array([[1, 2, 3, 4], [5, 6, 7, 8],(1.2 , 2.3)])
In [24]: pring(arr2)
Out[24]: [[1, 2, 3, 4] [5, 6, 7, 8] (1.2 , 2.3)]
使用NumPy中的內置函數
np.arange(begin,end,step,dtype=np.float32):begin為元素起始值(包含),end為元素結束值(不包含),step為步長(默認值為1),dtype為元素類型。如果只有一個參數n,則為從0到n-1;如有有兩個參數n和m,則為從n到m-1;
np.linspace(begin,end,number):創(chuàng)建包含number個元素的數組,并在指定的開始值(包含)和結束值(包含)之間平均間隔;
np.ones(shape):根據shape生成一個全1數組,shape是元組類型,比如(2,3);
np.zeros(shape):根據shape生成一個全0數組,shape是元組類型,比如(2,3,4);
np.full(shape,val):根據shape生成一個數組,每個元素值都是val;
np.eye(n):創(chuàng)建一個正方的n*n單位矩陣,對角線為1,其余為0;
np.ones_like(a):根據數組a的形狀生成一個全1數組;
np.zeros_like(a):根據數組a的形狀生成一個全0數組;
np.full_like(a,val):根據數組a的形狀生成一個每個元素值都是val的數組;
np.concatenate() 將兩個或多個數組合并成一個新的數組。
In [30]: arr3 = np.zeros((3, 6))
In [31]: print(arr3)
Out[30]: [[ 0., 0., 0., 0., 0., 0.] [ 0., 0., 0., 0., 0., 0.] [ 0., 0., 0., 0., 0., 0.]]
從磁盤讀取數據創(chuàng)建ndarray數組,將ndarray數組保存到磁盤(大部分情況會使用pandas或其它工具加載文本或表格數據)
np.load(fname)
• fname : 文件名,以.npy為擴展名,壓縮擴展名為.npz
np.save(fname, array) 或 np.savez(fname, array)
• fname : 文件名,以.npy為擴展名,壓縮擴展名為.npz
• array : 數組變量
ndarray數組對象的屬性
.ndim:秩,即軸的數量或維度的數量
.shape:ndarray對象的尺度,對于矩陣,n行m列
.size:ndarray對象元素的個數,相當于.shape中n*m的值
.dtype:ndarray對象的元素類型
.itemsize:ndarray對象中每個元素的大小,以字節(jié)為單位
ndarray數組對象的類型和維度變換
.astype(np.float64):將ndarray數組元素從一個類型轉換成另一個類型,返回一個新數組。如果將浮點數轉換成整數,則小數部分將會被截取刪除。(類型變換)
.reshape(shape):不改變原數組元素,返回一個新的shape維度的數組(維度變換)
.resize(shape):與.reshape()功能一致,但修改原數組(維度變換)
.swapaxes(ax1,ax2) 將數組n個維度中兩個維度進行調換(維度變換)
.flatten():對數組進行降維,返回折疊后的一維數組,原數組不變(維度變換)
.tolist():將N維數組轉換成列表(維度變換)
ndarray數組的索引和切片
具體使用參考
https://seancheney.gitbook.io/python-for-data-analysis-2nd/di-04-zhang-numpy-ji-chu-shu-zu-he-shi-liang-ji-suan#ji-ben-de-suo-yin-he-qie-pian
https://docs.scipy.org/doc/numpy/user/quickstart.html#indexing-slicing-and-iterating
https://blog.csdn.net/zheng_weibin/article/details/79358986
ndarray數組的運算
數組與標量之間的運算,都會作用于數組的每一個元素;
大小相同的數組之間的任何算術運算,都會將運算應用到元素級;
大小相同的數組之間的比較運算,都會將運算應用到元素級并生成布爾值數組;
np.abs(arr)\np.fabs(arr):計算數組arr各元素的絕對值
np.sqrt(arr):計算數組arr各元素的平方根
np.square(arr):計算數組arr各元素的平方
np.log(arr)\np.log10(arr)\np.log2(arr):計算數組arr各元素的自然對數、10底對數和2底對數
np.ceil(arr)\np.floor(arr):計算數組arr各元素的ceiling值 或 floor值
np.rint(arr) 計算數組arr各元素的四舍五入值
np.modf(arr) 將數組arr各元素的小數和整數部分以兩個獨立數組形式返回
np.cos(arr)\np.cosh(arr)\np.sin(arr)\np.sinh(arr)\np.tan(arr)\np.tanh(arr)計算數組arr各元素的普通型和雙曲型三角函數
np.exp(arr) 計算數組arr各元素的指數值
np.sign(arr) 計算數組arr各元素的符號值,1(+), 0, ‐1(‐)
利用ndarray進行數據處理
排序
ndarray數組通過.sort()函數排序,多維數組時傳入軸編號
NumPy的隨機數函數
np.random.rand(d0,d1,..,dn):根據d0‐dn創(chuàng)建隨機數數組,浮點數,[0,1),均勻分布
np.random.randn(d0,d1,..,dn):根據d0‐dn創(chuàng)建隨機數數組,標準正態(tài)分布
np.random.randint(low[,high,shape]):根據shape創(chuàng)建隨機整數或整數數組,范圍是[low, high)
np.random.seed(s):隨機數種子,s是給定的種
np.random.shuffle(a):根據數組a的第1軸進行隨排列,改變數組x
np.random.permutation(a):根據數組a的第1軸產生一個新的亂序數組,不改變數組x
np.random.choice(a[,size,replace,p]):從一維數組a中以概率p抽取元素,形成size形狀新數組 replace表示是否可以重用元素,默認為False
np.random.uniform(low,high,size):產生具有均勻分布的數組,low起始值,high結束值,size形狀
np.random.normal(loc,scale,size):產生具有正態(tài)分布的數組,loc均值,scale標準差,size形狀
np.random.poisson(lam,size):產生具有泊松分布的數組,lam隨機事件發(fā)生率,size形狀
NumPy的統(tǒng)計類函數
np.sum(a, axis=None):根據給定軸axis計算數組a相關元素之和,axis整數或元組
np.mean(a, axis=None):根據給定軸axis計算數組a相關元素的期望,axis整數或元組
np.average(a,axis=None,weights=None):根據給定軸axis計算數組a相關元素的加權平均值
np.std(a, axis=None):根據給定軸axis計算數組a相關元素的標準差
np.var(a, axis=None):根據給定軸axis計算數組a相關元素的方差
np.min(a)\max(a):計算數組a中元素的最小值、最大值
np.argmin(a)\argmax(a):計算數組a中元素最小值、最大值的降一維后下標
np.unravel_index(index, shape):根據shape將一維下標index轉換成多維下標
np.ptp(a):計算數組a中元素最大值與最小值的差
np.median(a):計算數組a中元素的中位數(中值)
NumPy的梯度函數
梯度:連續(xù)值之間的變化率,即斜率
XY坐標軸連續(xù)三個X坐標對應的Y軸值:a, b, c,其中,b的梯度是:(c‐a)/2
np.gradient(f):計算數組f中元素的梯度,當f為多維時,返回每個維度梯度