Pandas 记录

seven_ • 2023年2月21日下午10:10 • Python • 阅读 297

记录在学习过程中遇到的Pandas操作，也算是对自己的提醒吧~

文章目录

- - - 1.基础操作
    - 2.如何将DataFrame中的 NaN 转化为指定值

第一部分的整理使用的数据集是Kaggle上的一个经典题目：
Sentiment Analysis on Movie Reviews

1.基础操作

一般常见的数据格式也就是excel、csv和tsv文件，区别简单了解可见：.tsv .csv格式文件

# 如果数据文件是csv，那么可以直接使用：
df = pd.read_csv('train.csv')

# 注意如果是tsv文件，那么要添加delimiter参数
df = pd.read_csv('train.tsv', delimiter='\t')

返回的对象的类型：

print(type(df))

#  输出
<class 'pandas.core.frame.DataFrame'>

打印数据的表头名称：

print(df.dtypes)

# 输出格式例如，这里object也就是string
PhraseId       int64
SentenceId     int64
Phrase        object
Sentiment      int64
dtype: object

关于读取部分数据，有几种方式，首先：

print(df.head())     # 默认打印前5行
print(df.head(3))   # 传入数据表示从头（正向）开始输出数据

print(df.tail())      # tail相反，取的是最后5条数据
print(df.tail(3))    # 也可以传入指定数量 （输出仍然是正序，只是数量从末尾开始）

DataFrame也可以直接打印shape：

print(df.shape)

如果输出指定行：

print(df.loc[3])

这里不要直接这样写:print(df[3])，这样会报 KeyError错误，可以使用切片的方式：

print(df[2:3])

不过，输出的形式还有点区别：

print(df.loc[2])      # 如果是切片，那么就是 df.loc[3:5]类似

print(df[2:3])

输出的数据为：

PhraseId             3
SentenceId           1
Phrase        A series
Sentiment            2
Name: 2, dtype: object


   PhraseId  SentenceId    Phrase  Sentiment
2         3           1  A series          2

如果要使用某一列的数据：

X_train = df['Phrase']
Y_train = df['Sentiment']

# 使用type函数可以查看返回对象的类型：
<class 'pandas.core.series.Series'>

也可以同时取出多列数据：

columns = ['PhraseId', 'SentenceId']    # 注意多列的时候要使用列表的形式传入
temp = df[columns]

2.如何将DataFrame中的 NaN 转化为指定值

使用函数：

raw_data = raw_data.filln(the value you want)

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/116708.html

Pandas 记录

文章目录

1.基础操作

2.如何将DataFrame中的 NaN 转化为指定值

相关推荐

发表回复

分享到: