본문 바로가기

혼공단/혼공분석10기

혼공학습단 10기 혼공분석 3주차

반응형

혼공학습단 10기 혼공분석 3주차 

chapter03 기본미션+선택미션 완료

#혼공학습단 #혼공 #혼공분석

 

기본미션

p. 182의 확인 문제 2번 풀고 인증하기

03-1 불필요한 데이터 삭제하기

확인문제 2

1번 문제의 df1 데이터프레임에서 ‘col1’ 열의 합을 계산하는 명령으로 올바르지 않은 것은 무엇인가요? 4번

  1. df[‘col1’].sum()
  2. df[[‘col1’]].sum()
  3. df.loc[:, df.columns == ‘col1’].sum()
  4. df.loc[:, [False,False,True]].sum()

 

풀이) ‘col3’ 열의 합을 계산합니다.

 

선택미션

p. 219의 확인 문제 5번 풀고 인증하기

03-2 잘못된 데이터 수정하기

확인문제 5

다음과 df 데이터프레임에서 df.replace(r’ba.*’, ‘new’, regex=True)의 결과는 무엇인가요? 4

df



4가지 키워드로 정리하는 핵심 포인트

  1. 데이터 정제 : 수집된 데이터에서 잘못된 부분을 고치거나 제거하여 필요한 데이터를 준비하는 과정이다. 데이터가 올바르게 정제되지 못하면 분석된 결과를 왜곡시킬 수 있으며 잘못된 의사 결정을 초래하기도 합니다.
  2. 데이터 랭글링 : 데이터를 정제하는 과정과 데이터 분석 및 머신러닝에 적합한 형태로 데이터를 변환하는 과정을 말한다.
  3. 원소별 비교 : 판다스의 데이터 프레임과 인덱스를 하나의 값과 비교하면 데이터프레임과 인덱스에 있는 모든 원소와 비교한다. 비교한 결과는 True 또는 False로 이루어진 불리언 배열로 반환된다.
  4. 넘파이 : 파이썬의 대표적인 다차원 배열이다. 판다스의 데이터프레임과 달리 한 종류의 데이터만 담을 수 있지만 매우 효율적이고 성능이 높다. 파이썬의 다른 과학 패키지와 호환성이 높으며 기본 데이터 구조로 널리 사용된다.

 

표로 정리하는 핵심 함수와 메서드드

 

함수/메서드 기능
DataFrame.drop() 데이터프레임의 행이나 열을 삭제합니다.
DataFrame.dropna() 누락된 값이 포함된 행이나 열을 삭제합니다.
DataFrame.duplicated() 중복된 행을 찾아 불리언 값으로 표시한 배열을 반환합니다.
DataFrame.groupby() 데이터프레임의 행을 그룹으로 모읍니다.
DataFrame.sum() 행 또는 열을 기준으로 합계를 계산합니다.
DataFrame.set_index() 지정한 열을 인덱스로 설정합니다.
DataFrame.reset_index() 데이터프레임의 인덱스를 재설정합니다.
DataFrame.update() 다른 데이터프레임을 사용해 원본 데이터프레임의 값을 업데이트합니다. 다른 데이터 프레임에 있는 NaN은 업데이트에서 제외합니다.
DataFrame.equals() 다른 데이터프레임과 동일한 원소를 가졌는지 비교합니다. 두 데이터프레임이 동일하면 True, 그렇지 않으면 False를 반환합니다.

 

반응형