Day16 わからないが頑張るで!

今日からはデータ分析の基本コードを書いていく。

import pandas as pd 
data = [
    [60,90,89],
    [89,79,89],
    [99,88,77],
]
df = pd.DataFrame(data)
df

pandasのデータフレームにデータを入れると表が出力される

df.columns = ["english", "math", "art"]
df.index = ["a-ta","b-ko","c-suke"]

とすると縦の列にeng math art が出力される
横の行にはa-ta、b-ko、c-sukeが表示される


次にデータ量が多くなると大変なのでそういう時はCSVファイルを読み込むようにする。以下はUTF-8形式。

import pandas as pd 
df = pd.read_csv("test.csv")
df 


ファイル形式がShift-JIS形式もあるのでUTF-8形式かどちらか確認したら、以下のように使用する。

import pandas as pd 
df = pd.read_csv("test.csv", encording="Shift_JIS")
df
df.columns
df.index

で列の項目と、行の項目を取ってこれる。

列名をリストに変換することもできる。

list1 = [i for i in df.columns]
print(list1)

出力結果:["www", "eee", "rrrrrrr", "tttt"]

list2 = [i for in df.index]
print(list2)

出力結果:["赤か", "ええええ", "かかか", "djdjdjd"]

データの数を取ることもできる.

len(df)
出力結果:6


欠損値の処理もできる。以下など。

# 欠損値を前の値で埋める
df = df.fillna(method="ffill")

# 欠損値を平均値で埋める
df = df.fillna(df.mean())

以上!今日は以上!