Numpy和 Pandas快速入门

一. Numpy 是一个开源的数据计算库

python 两者都可以处理多维数组

Numpy优点

1.减少编程量
2 .增加运算效率
3. 减少内存消耗

ndarray 数组包括数据指针数据类型维度跨度。

1. 特殊数组的创建 Numpy.zeros

全1数组 numpy.ones
等间距数组1 numpy.arrange()
等间距数组2 numpy.linspace()
array: [0,1,2, 3, 4, 5, 6, 7, 8, 9]

2. numpy 数组之切片与索引 (1)

 索引 按照下标取值a[1] ->  从 0 开始
 数组切片 a[0:5] ->  array([0,1, 2, 3,4 ])   左闭右开
slice函数 s = slice(0, 5, 2)  a[s] -> array([0, 2, 4])   
类似于切片操作

3. Numpy 数组之切片与索引

 切片参数  (start:stop, step )
 start--  起始范围   stop -- 终止范围  不包括  step  间距默认是1。
 进行数据的操作
 numpy.reshape()   改变数组的形状
 numpy.flat()  # 将数组展示为一维数组
 numpy.transpose()  # 控制反转
 numpy.stack()   #  连接数组
 numpy.append()  # 在 数组末尾增加元素
 numpy.inset()  # 在 指定的元素位 上插入元素
 numpy.delete()   返回删除后的新数组

4.NumPy 矩阵操作

np.matlib.empty()  返回未初始化的新矩阵
np.matlib.zero  返回全0 矩阵
np.matlib.ones  返回全1 矩阵
np.matlib.eye  对角矩阵
np.matlib.identity   返回给定大小的单位矩阵
np.matlib.rand   返回指定的随机数 填充 矩阵

5. 数组转化为矩阵

直观区别: 矩阵和数组的区别,矩阵没有用逗号隔开.
np.mat()
matrix() 确保数据的安全性

二. Pandas 数据处理

1. Pandas 处理的数据类型

数据格式  Pandas 包含了高级的数据结构 DataFrame  和 Series
日期处理  Pandas 包含了时间序列化的处理方法 ，可以生成或者处理日期数据
文件操作  Pandas  可方便快捷的对CSV excel 和 TSV  文进行读写操作
数据分析  Pandas   中提供了大量的方法 用于数据得处理和分析

2. Pandas 中的数据结构 Series

Series  可简单的看作是一维数组
Series具有索引 默认 是 0 - n. 
Series  可以使用字典 数组 等数据进行创建.

3. Pandas 中的数据结构 DataFrame

(1).DataFrame是由数个series 按行合并而成的二维数据结构(表格型)。
(2) 具有行索引和列索引
(3) 可以使用字典 数组 series 等数据进行创建

DataFrame 常见操作

1. 创建 DataFrame   pd.DataFrame(data) 
2. 查看数据   
	Df.head(n)  查看前 n条数据   Df.tail(n)：查看后n 条数据 
3. 数据属性
	Df.index()  查看索引 
	Df.columns()  列索引
	Df.values() 查看数据 
4. 数据量统计 
	Df.describe(): 纯数值数据的统计信息。 
5. 数据索引
   	Df.iloc 按照下标选取数据  
   	Df. loc: 按照索引选取 
   	Df.ix  按照下标和索引混合取值 
6.  切片 
  	 和列表相同
  	 按照bool 切片

4. 时间序列

4.1 时间序列
时间戳: timestamp 特定的时刻。
固定时间: period 如2019 年全年或者某个月份
时间间隔: interval 由起始和结束时间戳标识。

时间序列常用操作

1. 时间索引 pd.DatatimeIndex() 
2. 时间格式解析 pd.to_datetime()
3. 时间错 pd.date_range() 
4. 生成日期 pd.period_range()
5. 时间差 pd.timedelta_range() 
6. 日期的减法操作 
    时间序列-日期  或者日期 - 日期

5. 数据处理

1. 缺失值  Pandas 中提供了缺失值数据处理的常用方法 包括填充，删除等操作 
2.  统计值  数据统计信息  Pandas  中提供了数据统计方法，如均值 求和 累计 等操作 
3. 可视化    数据可视化 Pandas  数据可以直接使用绘图的形式来查看 。

5.1 缺失处理

空值/ 缺失值判断  Df.isnull/Df.isna() ;
缺失值填充    Df.fillna(data) 
空值和缺失值 空值: "" """ NaN , Nat 
删除  Df.dropna()

5.2 数据处理方法

	(1)  计算
		Df.sum()  求和 
		Df.mean()  求均值   
	(2) 统计量  
	    Df.max()  最大值 
	    Df.min()    最小值
	    Df.count()： 非NaN  统计 
	    Df.median() : 中位数 
	    Df.std() 标注差 
	 (3)  累计
	    Df.cumsum()  累计求和 
	 (4) 排序 
	 	Df.sort__index()  按照索引排序 
	 	Df.rank()  按照rank 值 排名 
	(5) 分组
		df.groupby(col)  按照列col 分组
	(6) 其他
	 	Df.cov() : 协助方差矩阵
	 	Df.corrwith(df2) 相关系数 
	 	pd.cut()  一维数据的区间分布

5.3 Pandas 其他操作

1.Pandas  中提供了 操作excel  文件的方法 
to_excel/read_excel 
2.Pandas 中 提供了 csv  文件操作的方法 
to_csv/ read_csv
3. 合并两个dataframe 中的数据
df.append()/ df.concat()

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/77120.html

numpy和 Pandas快速入门