Data Metric Description

数据描述度量

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

arr = np.random.randint(1,100,size =100)
data = pd.Series(arr)

data.std()

27.34981918334961

data.describe()

count    100.000000
mean      43.740000
std       27.349819
min        1.000000
25%       20.750000
50%       43.000000
75%       62.250000
max       98.000000
dtype: float64

data.mean()

43.74

db = data.std()/data.mean()
db

0.6252816457098676

dd = pd.value_counts(data)
dd = dd.sort_index()

plt.plot(dd.index, dd.values)
plt.show()

png

data_z = (data - data.mean())/data.std()
data_z[data_z.values > 1].values[data_z[data_z.values > 1].values < 1.4]

array([ 1.39891236,  1.2526591 ,  1.2526591 ,  1.03327923,  1.39891236,
        1.03327923,  1.21609579])

data.value_counts(ascending=False)

  6
  4
  4
  3
  3
  3
   3
  2
  2
  2
  2
  2
  2
  2
  2
  2
   2
  2
  2
  2
  2
  2
  2
  2
  2
  2
   1
  1
   1
   1
     ..
   1
  1
   1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
  1
dtype: int64

data_z

   1.398912
  -1.526153
   0.521393
  -0.502380
  -1.562716
  -1.526153
   0.448266
   1.983925
   0.631083
  -1.526153
 -0.941140
  0.009506
  0.704209
 -0.502380
 -1.087393
  1.764545
  0.631083
 -0.575507
 -0.356127
  0.484830
  1.654856
 -0.136747
  0.228886
  1.581729
 -0.136747
 -0.831450
 -1.416463
 -0.283000
 -0.721760
 -0.685196
        ...   
  0.813899
  1.727982
 -0.904576
  0.046070
  0.119196
 -1.562716
  0.009506
 -0.319563
  1.435476
 -0.173310
  1.727982
  0.704209
 -0.027057
 -1.087393
  0.009506
 -0.904576
  0.082633
  0.667646
 -0.721760
  1.033279
 -0.246437
  0.887026
  1.837672
  1.216096
 -0.941140
  0.009506
 -1.379899
 -1.123956
 -1.197083
  0.082633
dtype: float64

factor = pd.cut(data_z, [1, 1.5])
factor

   (1, 1.5]
        NaN
        NaN
        NaN
        NaN
        NaN
        NaN
        NaN
        NaN
        NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
        ...   
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
  (1, 1.5]
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
  (1, 1.5]
       NaN
       NaN
       NaN
  (1, 1.5]
       NaN
       NaN
       NaN
       NaN
       NaN
       NaN
dtype: category
Categories (1, object): [(1, 1.5]]

pd.value_counts(factor)

data.var()

data[data.values < 20]
data.mode()

pd.value_counts(data)

data_z[factor == "(1, 1.5]"]

   1.398912
  1.252659
  1.252659
  1.033279
  1.398912
  1.435476
  1.033279
  1.216096
dtype: float64

Data Metric Description

近期文章

近期评论

标签

热门

文章归档

分类目录

功能