STUDY_SEONMIN

DAY9 - DataFrame 본문

EDUCATION/DSS Online 6기

DAY9 - DataFrame

Kululu_ 2021. 1. 21. 20:39

DataFrame

- index, column, value로 이루어진 데이터 타입.

- 데이터 프레임은 여러 개의 Series 로 구성.

- 생성 방법 : pd.DataFrame( )

    - 리스트의 딕셔너리 : { column1 : [values], column2 : [values], ... }

        - 하나의 리스트가 하나의 컬럼(열)을 의미 - 변수

    - 딕셔너리의 리스트 : [ {'column1': value, 'column2': value, ..}, {'column1':value, 'column2':value...}, ... ]

        - 하나의 딕셔너리가 하나의 로우(행)를 의미 - 데이터

리스트의 딕셔너리 형태를 이용해 만든 데이터 프레임.

리스트의 딕셔너리 형태로 데이터 프레임을 만들면 딕셔너리의 key 값은 데이터 프레임의 컬럼명이 됩니다.

또한 리스트 내부의 데이터가 순차적으로 컬럼에 들어가게 되면서, 두 리스트에서 index가 같은 데이터끼리 하나의 행을 구성하게 됩니다.

 

딕셔너리의 리스트 형태를 이용해 만든 데이터 프레임

딕셔너리의 리스트 형태로 데이터 프레임을 만들면 각각의 딕셔너리가 하나의 행을 구성하게 됩니다. 또한 딕셔너리 내부의 key 값이 데이터프레임의 컬럼명이 됩니다.

 

이렇게 해서 생성된 데이터프레임의 index를 보면 Series 데이터를 생성할 때 처럼 기본값은 0, 1, 2, 3, ... 으로 설정되어 있습니다. 데이터프레임도 역시 생성 시 index값을 원하는대로 설정해줄 수 있습니다.

 

데이터프레임에서 특정 데이터에 접근하기 위해서는 여러가지 방식이 있습니다.

row 로 접근하는 방식, column으로 접근하는 방식, (row, column)으로 접근하는 방식.

 

row로 접근하는 방식은 특정 데이터에 접근하는 방식이고,

column으로 접근하는 방식은 특정 변수에 접근하는 방식이며,

row,column으로 접근하는 방식은 특정 데이터가 특정 변수에서 갖는 value 에 접근하는 방식입니다.

 

1) row로 접근

- 데이터프레임에 있는 loc 함수 사용.

- 데이터프레임의 index 를 이용해 접근하는 방식.

- df.loc[index]

index 값을 통해 원하는 데이터에 접근할 수 있습니다.

- '=' 연산자를 이용해 기존 index에 새로운 데이터를 할당하거나, 또는 새로운 index에 데이터를 추가할 수도 있습니다.

기존 index에 새로운 데이터 할당
새로운 index를 이용해 데이터 추가

 

2) column으로 접근

- masking : [ column ]

- "=" 연산자를 이용해 기존의 컬럼 데이터를 통째로 바꾸거나, 새로운 컬럼을 추가할 수 있습니다.

기존 컬럼 데이터 변경
새로운 컬럼 추가

3) row, column으로 접근

- df.loc[index, column]

- "=" 연산자를 이용해 특정 데이터의 특정 변수의 value 값만 변경 가능

'EDUCATION > DSS Online 6기' 카테고리의 다른 글

DAY10 - Pandas Pivot  (0) 2021.01.23
DAY10 - 데이터프레임 관련 함수(merge, rename, fillna )  (0) 2021.01.23
DAY9 - pandas, Series  (0) 2021.01.21
DAY8 - numpy.unique, numpy.concatenate  (0) 2021.01.19
DAY8 - numpy.random  (0) 2021.01.19
Comments