各種統計量を出力する

各種統計量を出力する

欠損値を把握する

観測値の変数にデータが保存されていない場合、欠損データもしくは欠損値が発生する。統計や機械学習に欠損値は大きく影響するため、欠損値の数を把握する必要があります。

stock_information01.csv

isnull()を用いることで、欠損値つまりnullがあればTrue、欠損値がなければFalseを返します。

import pandas as pd
stock_information = pd.read_csv('stock_information01.csv')
stock_information.isnull()
Advertisement

データ数が少ないのであれば、上記でも問題ないですが、データ量が多い場合欠損値を数えることが難しくなります。その場合、innull().sum()を用い欠損値の合計数を表示することができる。

import pandas as pd
stock_information = pd.read_csv('stock_information01.csv')
stock_information.isnull().sum()
銘柄コード    0
銘柄名      0
株価       1
配当金      0
dtype: int64

各種統計量を把握する

describe()を用いることで、データ件数(count)、平均値(mean)、標準偏差(std)、最小値(min)、四分位数(25%、75%)、中央値(50%)、最大値(max)の各種統計量を出力することができる。

import pandas as pd
stock_information = pd.read_csv('stock_information01.csv')
stock_information.describe()

Pythonカテゴリの最新記事