프로그래밍/Python

Python 으로 csv 파일 다루기

잠이안와 2022. 12. 7. 21:14

다루고자 하는 mpg.csv 는 이렇게 생겼다.

python으로 csv 파일을 다룰 때에는 import pandas as pd 코드를 이용해서 Pandas 패키지를 사용하면 된다.

 

 

 

 

 

 

 

1.  산점도 만들기 

import seaborn as sns

sns.scatterplot() 를 이용해서

 

 

아래 코드는 mpg.csv를 파이썬으로 사용하는 코드이다.

 

 

 

sns.scatterplot(data=???, x='???', y='???')

이런 형식으로 적게 되는데 중요한 것은 x, y에는 data 파일에 들어있는 실제 이름을 넣어야 한다는 것이다. 내 마음대로 이상한 이름 넣으면 오류뜸. 내가 문자열 형태로 입력했는데 그걸 인식해서 data 파일에 있는 데이터를 가져와서 그래프를 그린다는게 진짜 신기했다 ..  위의 사진은 강의 슬라이드에 있는걸 똑같이 따라한건데 x, y 이름을 바꿔서 아래와 같이 응용 해볼 수도 있다. 

 

 

 

 

 

출력된 그래프의 여백이 마음에 안들거나 원하는 부분만 자세히 잘라서 보고 싶은 경우, x축 범위와 y축 범위를 제한할 수 있다. 축의 범위를 제한하는 코드는 아래와 같다. 

 

sns.scatterplot(data=mpg, x='displ',y='hwy')\
.set(xlim=(3,6),ylim=(10,30))

 

\를 하고 한줄 띄고

.set() 안에 제한 내용을 넣어주면 된다.

xlim=(3,6) //3부터 6까지

 

 

 

 

 

이제 가독성을 높이기 위해 하나의 분류기준을 추가해서 색깔로 구분지어보자.

아래 코드는 scatterplot( ) 괄호 안에 hue = ' ' 항목을 추가했다. hue 안에 색깔로 구분 지을 분류기준을 넣으면 된다. 

 

 

 

모든 설정 되돌리기

plt.rcParams.update(plt.rcParamsDefault)

 

 

 

 

 

 

 

2.  평균 막대 그래프 만들기

먼저 집단별 평균표를 만든다.  drv별 분리, hwy 평균 구하기

as_index=False의 역할이 뭔지 이해하기 .. 이거 없으면 막대 그래프가 안나오고 에러뜬다.

아까 mpg.csv를 이용했던 것처럼 위에서 우리가 만든 표를 data 로 이용해서 만들면 된다. 이번엔 막대그래프라서 barplot 을 대신 사용하면 된다. 

 

막대 그래프를 더 예쁘게 정렬하고 싶으면 data 자체를 정렬해줘야한다.

df_mpg = df_mpg.sort_values('mean_hwy', ascending=False)

로 내림차순으로 정렬하고 다시 막대그래프를 출력하면 다음과 같다.

 

 

 

 

 

 

 

3. 빈도 막대 그래프 만들기

먼저 집단별 빈도표를 만든다. 

위에서 평균표를 만든 것과 코드 비교

집단별 평균표를 만드는 코드

 

 

 

 

 

 

 

 

 

 

 

 

4. 시계열 그래프 만들기

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5. 상자 그림 만들기