pandas系列之熟悉数据结构和基本特征1.数据预览2.

获取或者生成数据源之后,在分析数据之前,应当先熟悉数据,大致了解数据形态以及结构后再去做分析。

本文使用到的Excel文件内容如下:

QQ拼音截图未命名.png

1.数据预览

当文件中数据过多或者数据库记录太大时,一次性全部获取或者查询逐条查看不可取。可以先看一下前几行数据,了解其数据结构
head():预览前几行数据,默认情形下是钱5行数据

import pandas as pd


df = pd.read_excel(r'C:\Users\admin\Desktop\data_test.xlsx')
print(df.head())
复制代码

result:

   区域  省份  城市         时间  指标
0  东北  辽宁  大连 2019-09-06  12
1  西北  陕西  西安 2019-09-07  87
2  华南  广东  深圳 2019-09-08  23
3  华北  北京  北京 2021-05-13  45
4  华中  湖北  武汉 2012-04-13  21
复制代码
df = pd.read_excel(r'C:\Users\admin\Desktop\data_test.xlsx')
print(df.head(7))
复制代码

result:

   区域   省份   城市         时间  指标
0  东北   辽宁   大连 2019-09-06  12
1  西北   陕西   西安 2019-09-07  87
2  华南   广东   深圳 2019-09-08  23
3  华北   北京   北京 2021-05-13  45
4  华中   湖北   武汉 2012-04-13  21
5  东北  黑龙江  哈尔滨 2019-09-11  42
6  西北   甘肃   兰州 2019-09-12   3
复制代码

2.获取数据表的大小

shape:获取数据表大小,即数据表有几行几列。其结果为一个元组,由(行数,列数)组成

df = pd.read_excel(r'C:\Users\admin\Desktop\data_test.xlsx')
print(df.shape)
复制代码

result:

(12, 5)

注:这里的行数不计算表头,要比表格的实际行数少1,要引起注意

3.获取数据类型

info():获取当前数据表中每一列的数据类型

df = pd.read_excel(r'C:\Users\admin\Desktop\data_test.xlsx')
print(df.info())
复制代码

result:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 5 columns):

 #   Column  Non-Null Count  Dtype         

---  ------  --------------  -----

 0   区域      12 non-null     object        
 1   省份      12 non-null     object        
 2   城市      12 non-null     object        
 3   时间      12 non-null     datetime64[ns]
 4   指标      12 non-null     int64         
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 608.0+ bytes
None
复制代码

4.获取数值分布情况

describe():获取当前数据表中类型为数值的列的分布情形

df = pd.read_excel(r'C:\Users\admin\Desktop\data_test.xlsx')
print(df.describe())
复制代码

result:

              指标
count  12.000000
mean   34.916667
std    21.773455
min     3.000000
25%    22.500000
50%    32.000000
75%    42.750000
max    87.000000
复制代码

注:因为表格中只有指标这一列是数字,所以结果只显示对这一列的统计信息

输出内容解释:

其中,count为个数,表示这一例有12条记录。

mean为平均值

std为标准差

min为最小值

max为最大值

后面这3个是描述统计信息,仅做了解

25%为第25个百分位数

50%为第50个百分位数

75%为第75个百分位数