Numpy和 Pandas快速入门
一. Numpy 是一个开源的数据计算库
python 两者都可以处理多维数组
Numpy优点
1.减少编程量
2 .增加运算效率
3. 减少内存消耗
ndarray 数组 包括 数据指针 数据类型 维度 跨度。
1. 特殊数组的创建 Numpy.zeros
全1数组 numpy.ones
等间距数组1 numpy.arrange()
等间距数组2 numpy.linspace()
array: [0,1,2, 3, 4, 5, 6, 7, 8, 9]
2. numpy 数组之 切片 与索引 (1)
索引 按照下标取值a[1] -> 从 0 开始
数组切片 a[0:5] -> array([0,1, 2, 3,4 ]) 左闭右开
slice函数 s = slice(0, 5, 2) a[s] -> array([0, 2, 4])
类似于切片操作
3. Numpy 数组之切片与 索引
切片参数 (start:stop, step )
start-- 起始范围 stop -- 终止范围 不包括 step 间距默认是1。
进行数据的操作
numpy.reshape() 改变数组的形状
numpy.flat() # 将数组展示为一维数组
numpy.transpose() # 控制反转
numpy.stack() # 连接数组
numpy.append() # 在 数组末尾增加元素
numpy.inset() # 在 指定的元素位 上插入元素
numpy.delete() 返回删除后的新数组
4.NumPy 矩阵操作
np.matlib.empty() 返回未初始化的新矩阵
np.matlib.zero 返回全0 矩阵
np.matlib.ones 返回全1 矩阵
np.matlib.eye 对角矩阵
np.matlib.identity 返回给定大小的单位矩阵
np.matlib.rand 返回指定的随机数 填充 矩阵
5. 数组转化为矩阵
直观区别: 矩阵和数组的区别,矩阵没有用逗号隔开.
np.mat()
matrix() 确保数据的安全性
二. Pandas 数据处理
1. Pandas 处理的数据类型
数据格式 Pandas 包含了高级的数据结构 DataFrame 和 Series
日期处理 Pandas 包含了时间序列化的处理方法 ,可以生成或者处理日期数据
文件操作 Pandas 可方便快捷的对CSV excel 和 TSV 文进行读写操作
数据分析 Pandas 中提供了大量的方法 用于数据得处理和分析
2. Pandas 中的数据结构 Series
Series 可简单的看作是一维数组
Series具有索引 默认 是 0 - n.
Series 可以使用字典 数组 等数据进行创建.
3. Pandas 中的数据结构 DataFrame
(1).DataFrame是由数个series 按行合并而成的二维数据结构(表格型)。
(2) 具有行索引和列索引
(3) 可以使用字典 数组 series 等数据进行创建
DataFrame 常见操作
1. 创建 DataFrame pd.DataFrame(data)
2. 查看数据
Df.head(n) 查看前 n条数据 Df.tail(n):查看后n 条数据
3. 数据属性
Df.index() 查看索引
Df.columns() 列索引
Df.values() 查看数据
4. 数据量统计
Df.describe(): 纯数值数据的统计信息。
5. 数据索引
Df.iloc 按照下标选取数据
Df. loc: 按照索引选取
Df.ix 按照下标和索引混合取值
6. 切片
和列表相同
按照bool 切片
4. 时间序列
4.1 时间序列
时间戳: timestamp 特定的时刻。
固定时间: period 如2019 年全年或者某个月份
时间间隔: interval 由起始和结束时间戳标识。
时间序列常用操作
1. 时间索引 pd.DatatimeIndex()
2. 时间格式解析 pd.to_datetime()
3. 时间错 pd.date_range()
4. 生成日期 pd.period_range()
5. 时间差 pd.timedelta_range()
6. 日期的减法操作
时间序列-日期 或者日期 - 日期
5. 数据处理
1. 缺失值 Pandas 中提供了缺失值数据处理的常用方法 包括填充,删除等操作
2. 统计值 数据统计信息 Pandas 中提供了数据统计方法,如均值 求和 累计 等操作
3. 可视化 数据可视化 Pandas 数据可以直接使用绘图的形式来查看 。
5.1 缺失处理
空值/ 缺失值判断 Df.isnull/Df.isna() ;
缺失值填充 Df.fillna(data)
空值和缺失值 空值: "" """ NaN , Nat
删除 Df.dropna()
5.2 数据处理方法
(1) 计算
Df.sum() 求和
Df.mean() 求均值
(2) 统计量
Df.max() 最大值
Df.min() 最小值
Df.count(): 非NaN 统计
Df.median() : 中位数
Df.std() 标注差
(3) 累计
Df.cumsum() 累计求和
(4) 排序
Df.sort__index() 按照索引排序
Df.rank() 按照rank 值 排名
(5) 分组
df.groupby(col) 按照列col 分组
(6) 其他
Df.cov() : 协助方差矩阵
Df.corrwith(df2) 相关系数
pd.cut() 一维数据的区间分布
5.3 Pandas 其他操作
1.Pandas 中提供了 操作excel 文件的方法
to_excel/read_excel
2.Pandas 中 提供了 csv 文件操作的方法
to_csv/ read_csv
3. 合并两个dataframe 中的数据
df.append()/ df.concat()
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/77120.html