반응형
혼공학습단 10기 혼공분석 3주차
chapter03 기본미션+선택미션 완료
#혼공학습단 #혼공 #혼공분석
기본미션
p. 182의 확인 문제 2번 풀고 인증하기
03-1 불필요한 데이터 삭제하기
확인문제 2
1번 문제의 df1 데이터프레임에서 ‘col1’ 열의 합을 계산하는 명령으로 올바르지 않은 것은 무엇인가요? 4번
- df[‘col1’].sum()
- df[[‘col1’]].sum()
- df.loc[:, df.columns == ‘col1’].sum()
- df.loc[:, [False,False,True]].sum()
풀이) ‘col3’ 열의 합을 계산합니다.
선택미션
p. 219의 확인 문제 5번 풀고 인증하기
03-2 잘못된 데이터 수정하기
확인문제 5
다음과 df 데이터프레임에서 df.replace(r’ba.*’, ‘new’, regex=True)의 결과는 무엇인가요? 4
df
4가지 키워드로 정리하는 핵심 포인트
- 데이터 정제 : 수집된 데이터에서 잘못된 부분을 고치거나 제거하여 필요한 데이터를 준비하는 과정이다. 데이터가 올바르게 정제되지 못하면 분석된 결과를 왜곡시킬 수 있으며 잘못된 의사 결정을 초래하기도 합니다.
- 데이터 랭글링 : 데이터를 정제하는 과정과 데이터 분석 및 머신러닝에 적합한 형태로 데이터를 변환하는 과정을 말한다.
- 원소별 비교 : 판다스의 데이터 프레임과 인덱스를 하나의 값과 비교하면 데이터프레임과 인덱스에 있는 모든 원소와 비교한다. 비교한 결과는 True 또는 False로 이루어진 불리언 배열로 반환된다.
- 넘파이 : 파이썬의 대표적인 다차원 배열이다. 판다스의 데이터프레임과 달리 한 종류의 데이터만 담을 수 있지만 매우 효율적이고 성능이 높다. 파이썬의 다른 과학 패키지와 호환성이 높으며 기본 데이터 구조로 널리 사용된다.
표로 정리하는 핵심 함수와 메서드드
함수/메서드 | 기능 |
DataFrame.drop() | 데이터프레임의 행이나 열을 삭제합니다. |
DataFrame.dropna() | 누락된 값이 포함된 행이나 열을 삭제합니다. |
DataFrame.duplicated() | 중복된 행을 찾아 불리언 값으로 표시한 배열을 반환합니다. |
DataFrame.groupby() | 데이터프레임의 행을 그룹으로 모읍니다. |
DataFrame.sum() | 행 또는 열을 기준으로 합계를 계산합니다. |
DataFrame.set_index() | 지정한 열을 인덱스로 설정합니다. |
DataFrame.reset_index() | 데이터프레임의 인덱스를 재설정합니다. |
DataFrame.update() | 다른 데이터프레임을 사용해 원본 데이터프레임의 값을 업데이트합니다. 다른 데이터 프레임에 있는 NaN은 업데이트에서 제외합니다. |
DataFrame.equals() | 다른 데이터프레임과 동일한 원소를 가졌는지 비교합니다. 두 데이터프레임이 동일하면 True, 그렇지 않으면 False를 반환합니다. |
반응형
'혼공단 > 혼공분석10기' 카테고리의 다른 글
혼공학습단 10기 혼공분석 6주차 chapter06 기본미션+선택미션 완료 (0) | 2023.08.14 |
---|---|
혼공학습단 10기 혼공분석 5주차 chapter05 기본미션+선택미션 완료 (0) | 2023.08.10 |
혼공학습단 10기 혼공분석 4주차 (0) | 2023.07.25 |
혼공학습단 10기 혼공분석 2주차 (0) | 2023.07.16 |
혼공학습단 10기 혼공분석 1주차 (0) | 2023.07.06 |