반응형
혼공학습단 10기 혼공분석 4주차
chapter04 기본미션+선택미션 완료
#혼공학습단 #혼공 #혼공분석
기본미션
p. 279의 확인 문제 5번 풀고 인증하기
04-2 분포 요약하기
확인문제 5
ns_book7 남산도서관 대출 데이터에서 1980년~2022년 사이에 발행된 도서를 선택하여 다음과 같은 ‘발행년도’ 열의 히스토그램을 그려보세요.
실습결과:
selected_rows = (1980 <= ns_book7['발행년도']) & (ns_book7['발행년도'] <= 2022)
plt.hist(ns_book7.loc[selected_rows, '발행년도'])
plt.show()
선택미션
Ch.04(04-1)에서 배운 8가지 기술통계량(평균, 중앙값, 최솟값, 최댓값, 분위수, 분산, 표준편차, 최빈값)의 개념을 정리하기
- 평균 : 데이터값을 모두 더한 후 데이터 개수로 나눈 값이다. 평균은 일상생활에서도 널리 사용되기 때문에 이해하기 쉽지만, 어떤 기준으로 평균을 계산하는지에 따라 조금씩 다른 의미를 가질 수 있습니다.
- 중앙값 : 전체 데이터를 크기 순서대로 일렬로 늘어 놓았을 때 중간에 위치한 값입니다. 전체 데이터 개수가 짝수 일 때는 중간의 두 데이터의 평균을 계산합니다.
- 분위수 : 순서대로 나열된 데이터를 일정한 간격으로 나누는 기준점 입니다. 예를 들어 사분위 수는 데이터를 4등 분하며, 25%, 50%, 75%에 위치한 값입니다. 백분위수는 데이터를 100개의 구간으로 나눕니다.
- 분산 : 데이터가 평균에서 얼마나 멀리 퍼져 있는지를 알려 줍니다. 각 데이터를 평균에서 뺀 다음 제곱한 후 전체 데이터 개수로 나누어 구합니다.
- 표준편차 : 분산의 제곱근으로 분산과 마찬가지로 데이터의 분포 정도를 알려줍니다. 표준편차는 원본 데이터와 단위가 같기 때문에 분산보다 해석하기 쉽습니다.
- 최빈값 : 데이터에서 가장 많이 등장하는 값을 알려 줍니다. 최빈값은 숫자와 문자 데이터에 모두 적용할 수 있습니다.
표로 정리하는 핵심 함수와 메서드
함수/메서드 | 기능 |
DataFrame.describe() | 데이터프레임의 기술통계량을 출력합니다. |
Series.mean() | 데이터에서 평균을 계산합니다. |
numpy.mean() | 입력된 배열의 평균을 계산합니다. |
Series.median() | 데이터에서 중앙값을 찾습니다. |
numpy.median() | 입력된 배열의 중앙값을 찾습니다. |
Series.quantile() | 데이터에서 분위수를 계산합니다. |
numpy.quantile() | 입력된 분위수를 계산합니다. |
Series.var() | 데이터의 분산을 계산합니다. |
numpy.var() | 입력된 배열의 분산을 계산합니다. |
Series.std() | 데이터의 표준편차를 계산합니다. |
numpy.std() | 입력된 배열의 표준편차를 계산합니다. |
Series.mode() | 데이터에서 최빈값을 찾습니다. |
반응형
'혼공단 > 혼공분석10기' 카테고리의 다른 글
혼공학습단 10기 혼공분석 6주차 chapter06 기본미션+선택미션 완료 (0) | 2023.08.14 |
---|---|
혼공학습단 10기 혼공분석 5주차 chapter05 기본미션+선택미션 완료 (0) | 2023.08.10 |
혼공학습단 10기 혼공분석 3주차 (0) | 2023.07.18 |
혼공학습단 10기 혼공분석 2주차 (0) | 2023.07.16 |
혼공학습단 10기 혼공분석 1주차 (0) | 2023.07.06 |