获取或者生成数据源之后,在分析数据之前,应当先熟悉数据,大致了解数据形态以及结构后再去做分析。
本文使用到的Excel文件内容如下:
1.数据预览
当文件中数据过多或者数据库记录太大时,一次性全部获取或者查询逐条查看不可取。可以先看一下前几行数据,了解其数据结构
head():预览前几行数据,默认情形下是钱5行数据
import pandas as pd
df = pd.read_excel(r'C:\Users\admin\Desktop\data_test.xlsx')
print(df.head())
复制代码
result:
区域 省份 城市 时间 指标
0 东北 辽宁 大连 2019-09-06 12
1 西北 陕西 西安 2019-09-07 87
2 华南 广东 深圳 2019-09-08 23
3 华北 北京 北京 2021-05-13 45
4 华中 湖北 武汉 2012-04-13 21
复制代码
df = pd.read_excel(r'C:\Users\admin\Desktop\data_test.xlsx')
print(df.head(7))
复制代码
result:
区域 省份 城市 时间 指标
0 东北 辽宁 大连 2019-09-06 12
1 西北 陕西 西安 2019-09-07 87
2 华南 广东 深圳 2019-09-08 23
3 华北 北京 北京 2021-05-13 45
4 华中 湖北 武汉 2012-04-13 21
5 东北 黑龙江 哈尔滨 2019-09-11 42
6 西北 甘肃 兰州 2019-09-12 3
复制代码
2.获取数据表的大小
shape:获取数据表大小,即数据表有几行几列。其结果为一个元组,由(行数,列数)组成
df = pd.read_excel(r'C:\Users\admin\Desktop\data_test.xlsx')
print(df.shape)
复制代码
result:
(12, 5)
注:这里的行数不计算表头,要比表格的实际行数少1,要引起注意
3.获取数据类型
info():获取当前数据表中每一列的数据类型
df = pd.read_excel(r'C:\Users\admin\Desktop\data_test.xlsx')
print(df.info())
复制代码
result:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 区域 12 non-null object
1 省份 12 non-null object
2 城市 12 non-null object
3 时间 12 non-null datetime64[ns]
4 指标 12 non-null int64
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 608.0+ bytes
None
复制代码
4.获取数值分布情况
describe():获取当前数据表中类型为数值的列的分布情形
df = pd.read_excel(r'C:\Users\admin\Desktop\data_test.xlsx')
print(df.describe())
复制代码
result:
指标
count 12.000000
mean 34.916667
std 21.773455
min 3.000000
25% 22.500000
50% 32.000000
75% 42.750000
max 87.000000
复制代码
注:因为表格中只有指标这一列是数字,所以结果只显示对这一列的统计信息
输出内容解释:
其中,count为个数,表示这一例有12条记录。
mean为平均值
std为标准差
min为最小值
max为最大值
后面这3个是描述统计信息,仅做了解
25%为第25个百分位数
50%为第50个百分位数
75%为第75个百分位数
近期评论