(2024年5月)学习pandas(最基础操作)

使用titanic.csv,学习一些pandas的最基本操作。
前置内容
读文件
生成空DataFrame
获取所有column name
判断df内容相同
series和dataframe
区分
series转list以及numpy array
series转dataframe
series转dict
List转Series
索引(index和Integer-location based index)
总结
row index可以不是自然数(来自reset_index)
row index可以重复(来自drop)
row index不是物理意义的index(来自iloc, loc和at)
Unnamed: 0的出现原因(来自to_csv)
iloc操作
基本介绍
获取一行(pandas series)
获取一行(dataframe)
获取多行(连续)
获取多行(离散)
获取一列/多列
非iloc操作
使用列名获取一列或多列
使用loc获得一列或多列
获得/更改 第x行yyy列的数值
row index
物理意义的index
其他loc/iloc用法
遍历dataframe每一个元素
通过concat合并行/列
容易出现的问题
合并多行(dataframe)
合并多行(series和dataframe)
合并多列(dataframe和series)
往df加List,List作为新的一列
往df加List,List作为新的一行
常见错误
正确方法1:指定dataframe column name
正确方法2:指定Series index
合并/过滤大量的列
NaN判断
类SQL查询操作
pandas逻辑符号
select * where
select (column1, column2) where
select COUNT(*) where
select distinct(查找一列/多列的不重复元素)
group by
order by
LIKE %xxx% 模糊查询(StringMethods)
LIKE %xxx% 模糊查询(apply lambda)
统计
统计某一列的平均/最大/最小
统计整张表的所有列各自的平均数
使用df.mean或np.average
针对特殊类型
column dtype判断
介绍
方法1:pandas.api.types
方法2:dtype==np.xxx
增加(空白的)一行/一列
新增一列(空列)
新增一行(空行)
删除行/删除列
df.apply(lambda)
对一整列的每个元素都进行操作
对一整行的每个元素都进行操作(不常用)
筛选特定的列(不常用)