본문 바로가기

혼공단/혼공분석10기

혼공학습단 10기 혼공분석 4주차

반응형

혼공학습단 10기 혼공분석 4주차 

chapter04 기본미션+선택미션 완료

#혼공학습단 #혼공 #혼공분석

 

기본미션

p. 279의 확인 문제 5번 풀고 인증하기

04-2 분포 요약하기

확인문제 5

ns_book7 남산도서관 대출 데이터에서 1980년~2022년 사이에 발행된 도서를 선택하여 다음과 같은 ‘발행년도’ 열의 히스토그램을 그려보세요.

실습결과: 

selected_rows  = (1980 <= ns_book7['발행년도']) & (ns_book7['발행년도'] <= 2022)
plt.hist(ns_book7.loc[selected_rows, '발행년도'])
plt.show()

 

 

선택미션

Ch.04(04-1)에서 배운 8가지 기술통계량(평균, 중앙값, 최솟값, 최댓값, 분위수, 분산, 표준편차, 최빈값)의 개념을 정리하기

  1. 평균 : 데이터값을 모두 더한 후 데이터 개수로 나눈 값이다. 평균은 일상생활에서도 널리 사용되기 때문에 이해하기 쉽지만, 어떤 기준으로 평균을 계산하는지에 따라 조금씩 다른 의미를 가질 수 있습니다.
  2. 중앙값 : 전체 데이터를 크기 순서대로 일렬로 늘어 놓았을 때 중간에 위치한 값입니다. 전체 데이터 개수가 짝수 일 때는 중간의 두 데이터의 평균을 계산합니다.
  3. 분위수 : 순서대로 나열된 데이터를 일정한 간격으로 나누는 기준점 입니다. 예를 들어 사분위 수는 데이터를 4등 분하며, 25%, 50%, 75%에 위치한 값입니다. 백분위수는 데이터를 100개의 구간으로 나눕니다.
  4. 분산 : 데이터가 평균에서 얼마나 멀리 퍼져 있는지를 알려 줍니다. 각 데이터를 평균에서 뺀 다음 제곱한 후 전체 데이터 개수로 나누어 구합니다.
  5. 표준편차 : 분산의 제곱근으로 분산과 마찬가지로 데이터의 분포 정도를 알려줍니다. 표준편차는 원본 데이터와 단위가 같기 때문에 분산보다 해석하기 쉽습니다.
  6. 최빈값 : 데이터에서 가장 많이 등장하는 값을 알려 줍니다. 최빈값은 숫자와 문자 데이터에 모두 적용할 수 있습니다.

 

표로 정리하는 핵심 함수와 메서드

 

함수/메서드 기능
DataFrame.describe() 데이터프레임의 기술통계량을 출력합니다.
Series.mean() 데이터에서 평균을 계산합니다.
numpy.mean() 입력된 배열의 평균을 계산합니다.
Series.median() 데이터에서 중앙값을 찾습니다.
numpy.median() 입력된 배열의 중앙값을 찾습니다.
Series.quantile() 데이터에서 분위수를 계산합니다.
numpy.quantile() 입력된 분위수를 계산합니다.
Series.var() 데이터의 분산을 계산합니다.
numpy.var() 입력된 배열의 분산을 계산합니다.
Series.std() 데이터의 표준편차를 계산합니다.
numpy.std() 입력된 배열의 표준편차를 계산합니다.
Series.mode() 데이터에서 최빈값을 찾습니다.


반응형