[도서 소개]
데이터를 다루는 일을 하는 사람들이라면
누구나 읽어보고, 알아보고 싶었던 ‘데이터 품질’
데이터가 곧 가치인 시대, 성패는 데이터 품질에 달려있다!
이 책은 신뢰할 수 없는 데이터로 고통받고, 내적 비명을 지르며 이 상황을 개선하기 위해 무언가 하고 싶어 하는 모든 이들을 위한 길잡이다. 기본적으로 이 책은 데이터를 정제하고 이해하는 방법을 다룬 매뉴얼처럼 보인다. 그러나 여기서 더 나아가 보다 안정적인 데이터 시스템을 구축하고 그 과정에서 조직 및 이해관계자와 데이터 신뢰를 구축하는 모범 사례, 도구 및 프로세스까지 설명한다. 책을 다 읽었을 때, 최소한 조직 전반에서 데이터 품질과 신뢰성의 우선순위를 정할 때 써먹을 만한 몇 가지 요령을 터득하길 바란다. 데이터 신뢰는 하루아침에 완성되지 않는다. 올바른 접근 방식을 기반으로, 파이프라인 하나하나가 점진적으로 쌓인다.
[대상 독자]
- 데이터 엔지니어
- 기업의 데이터 파이프라인을 구축하고, 확장하고, 관리하는 실무자
- 데이터로 서비스를 만드는 데이터 프로덕트 매니저
- 데이터 품질에 투자하려는 의지가 있는 COO
- 데이터 품질을 중시하는 데이터 분석가
- 데이터 품질을 중시하는 데이터 과학자
[주요 내용]
- 바로 지금, 데이터 품질에 주목해야 하는 이유
- 데이터 품질에 초점을 맞춘 데이터 파이프라인 구축 및 모니터링 시스템, 데이터 옵저버빌리티 구성 방법
- 데이터 품질 신뢰성을 높이는 방법과 실제 사례
- 데이터 품질을 향상시키는 거버넌스와 실제 사례
- 각 기업 사정에 맞게 데이터 품질 투자 대비 효용성을 계산하는 공식 소개
- 데이터 품질의 미래 트렌드 4가지
[이 책의 구성]
1장: 지금 데이터 품질에 주목해야 하는 이유
현재 시점에서 데이터 품질에 주목해야 하는 이유를 살펴보고 아키텍처 및 기술 동향이 전반적인 거버넌스 및 신뢰성에 어떤 영향을 주고 있는지 설명한다. 이와 관련하여 ‘데이터 다운타임’이라는 개념을 소개하고, 사이트 신뢰성 엔지니어링(SRE) 팀의 초창기로 거슬러 올라가, 동일한 데브옵스(DevOps) 원칙을 어떻게 데이터 엔지니어링 워크플로에도 적용할 수 있는지 설명한다.
2장: 신뢰할 수 있는 데이터 시스템 구축을 위한 블록 조립
데이터 웨어하우스, 데이터 레이크 및 데이터 카탈로그의 주요 데이터 파이프라인 기술에서 데이터 품질을 보장하고 측정할 수 있는 방법을 살펴본다. 이를 통해 탄력적인 데이터 시스템을 구축하는 방법에 대해 설명한다. 여기서 소개하는 세 가지 기본 기술은 양질의 데이터 프로덕션을 위한 사전 준비에 사용되며, 데이터를 저장·처리·추적한다.
3장: 데이터 수집 · 정제 · 변환 · 테스트
데이터 품질과 신뢰성을 염두에 두고 데이터를 수집·정제·변환·테스트하는 방법을 설명한다. 이를 통해 데이터가 파이프라인에 있기 전과 파이프라인에 있는 동안 품질을 관리하는 방법을 알려준다. 특히, 최근 주목받는 방법론인 데이터 실시간 처리 시 사용할 수 있는 데이터 품질 관리 툴과 해당 툴의 이점을 짚어준다. 마지막으로 데이터 테스트 단계를 마친 뒤, 아파치 에어플로를 활용하여 데이터 품질을 효율적으로 관리할 수 있는 방법을 안내한다.
4장: 데이터 파이프라인 모니터링 및 이상 탐지
데이터 신뢰성 워크플로의 가장 중요한 측면 중 하나인 사전 이상 탐지 및 모니터링을 설명한다. 독자들의 이해를 돕기 위해, 공식적으로 사용 가능한 데이터셋인 거주 가능한 외계 행성에 관한 모의 천문 데이터를 활용하여 데이터 품질 모니터 구축 방법을 공유한다.
5장: 데이터 신뢰성을 위한 아키텍처
지금까지 다룬 중요한 기술들을 잘 조합하려면 어떻게 해야 하는지, 어떤 사례에서도 데이터 품질을 잘 측정하고 보장할 수 있는 강력한 프로세스와 시스템을 설계하려면 어떻게 하면 좋을지 큰 그림으로 조망한다. 이어서 에어비앤비(Airbnb), 우버(Uber), 인튜이트(Intuit) 및 기타 기업의 데이터 팀이 SLA(서비스 레벨 계약), SLI(서비스 수준 지표), SLO(서비스 수준 목표) 설정을 비롯해 데이터 안정성을 일상적인 워크플로에 통합하는 방법을 살펴본다. 또한 이들 데이터 팀이 신선도, 볼륨, 배포, 스키마, 계보의 다섯 가지 핵심 요소를 기반으로 데이터 품질을 최적화하는 데이터 플랫폼 구축 방법을 공유한다.
6장: 대규모 데이터 품질 문제 해결
데이터 사고 관리, 근본 원인 분석, 포스트모템, 그리고 사고 커뮤니케이션의 모범 사례 구축 등 운영 환경에서 데이터 품질 문제에 실제로 대응하고 해결하는 데 필요한 단계를 자세히 들여다본다.
7장: 엔드 투 엔드 데이터 계보 구축
모든 데이터 엔지니어가 갖추어야 할 무기이자 즐겨 사용하는 오픈 소스 도구를 사용해 현업에서 사용하는 수준의 계보 구축 방법을 설명한다. 이를 통해, 최신 데이터 시스템을 위한 ‘엔드 투 엔드 필드 레벨’ 데이터 계보를 만들 때 고려해야 할 주요 내용, 계보에 포함되는 세 가지 요소 등을 배울 수 있다. 더불어, 거대 미디어 기업 폭스 네트워크에서 데이터 신뢰성을 보장하기 위해 데이터 아키텍처를 어떻게 설계했고, 이를 데이터 계보로 어떻게 구축했는지 실제 사례를 들어 알아본다.
8장: 데이터 품질 민주화
조직 전반에 데이터 품질 관리의 중요성을 알리고, 구성원 모두가 데이터 품질 관리에 쉽게 접근할 수 있도록 민주화하는 과정에서 넘어야 할 문화적·조직적 장벽에 대해 논의한다. 구체적으로는 데이터를 프로덕트처럼 취급하는 시각과 데이터 품질에 대한 회사의 RACI 매트릭스를 이해하는 원칙, 비즈니스에 미치는 영향을 극대화할 수 있는 데이터 조직 구성 방법을 다룬다.
9장: 현실에서의 데이터 품질: 전문가 대담과 사례 연구
실제 사례 연구 및 대담 내용을 공유한다. 데이터 메시를 만든 자마크 데가니(Zhamak Dehghani), (데이터 품질이 최우선인) 분산형 데이터 아키텍처로 마이그레이션하는 방법에 대해 자신 있게 이야기하는 안토니오 피타스(Antonio Fitas), 폭스(Fox)의 데이터 서비스 부사장이자 ‘관리된 자유(controlled freedom)’ 데이터 관리 기술의 선구자인 알렉스 트베르돌렙(Alex Tverdohleb)이 자신의 경험을 공유해 주었다.
10장: 신뢰할 수 있는 데이터 시스템의 미래 개척
신뢰할 수 없는 데이터가 비즈니스에 미치는 재정적 영향을 측정하기 위한 구체적인 계산법을 설명한다. 여기서 다루는 내용은 데이터 다운타임 해결이라는 임무를 지고 있을 많은 독자들이 문제를 해결하기 위해 더 많은 도구와 프로세스에 투자하는 리더십을 발휘하는 데 도움을 줄 것이다.
[서평]
한빛미디어의 "데이터 품질 비밀"은 복잡한 데이터 품질 관리의 세계를 파헤치는 포괄적이고 통찰력 있는 가이드입니다. 비즈니스와 전문가가 데이터 품질의 중요성과 이를 달성하는 방법을 이해하는 데 도움이 되는 귀중한 통찰력, 실용적인 조언 및 실제 사례를 제공합니다.
이 책의 가장 큰 장점 중 하나는 데이터 품질과 관련된 주요 개념에 대한 명확하고 간결한 설명입니다. 저자는 복잡한 주제를 기술적 배경이 없는 비전공자들을 포함하여 광범위한 독자가 접근할 수 있도록 했습니다. 간단 명료한 어휘를 사용하고 불필요한 전문 용어를 줄이면서 독자가 핵심 개념을 더 쉽게 이해할 수 있습니다.
데이터 품질이 무엇이고 왜 중요한지 설명하면서 강력한 기초 개념을 마련하는 것부터 시작합니다. 거기에서 데이터 프로파일링, 데이터 정리, 데이터 통합 및 데이터 거버넌스를 포함하여 데이터 품질의 다양한 측면에 대해 자세히 설명합니다. 논의된 개념을 설명하기 위해 실용적인 팁, 모범 사례 및 사례 연구를 제공하여 독자의 이해를 높이고 자신의 데이터 관리 이니셔티브에 지식을 적용할 수 있도록 합니다.
이 책이 다른 점은 데이터 품질의 민주화 요소를 강조한다는 것입니다. 기술 솔루션과 도구가 중요한 역할을 하는 동안 저자는 조직 문화, 데이터 관리 및 이해 관계자 간의 협업의 중요성을 강조합니다. 그들은 지속 가능한 데이터 품질 개선을 달성하기 위해 사람, 프로세스 및 기술을 고려하는 전체적인 접근 방식의 필요성을 강조합니다. 이 인간 중심적 접근 방식은 책에 깊이를 더하고 조직이 효과적인 데이터 품질 관리를를 구현하는 데 직면한 문제에 대해서 솔루션을 제시합니다.
"데이터 품질의 비밀 책"의 또 다른 주목할만한 측면은 미래 지향적인 관점입니다. 저자는 빅 데이터, AI 및 기계 학습 시대에 데이터 품질의 진화하는 특성을 인식합니다. 최신 기술이 데이터 품질에 미치는 영향을 탐구하고 조직이 어떻게 적응하고 앞서갈 수 있는지에 대한 통찰력을 제공합니다.
이 책에 한 가지 사소한 단점이 있다면 일부 섹션은 본질적으로 더 기술적인 부분이 있을 수 있으며, 이는 머신러닝 기술 배경이 없는 독자에게는 다소 어려울 수 있습니다. 그러나 저자는 복잡한 개념을 단순화하고 충분한 설명을 제공하여 더 많은 독자가 쉽게게 읽을 수 있도록 최선을 다했습니다.
전반적으로 "데이터 품질의 비밀"은 데이터 과학자, 데이터 엔지니어, 비즈니스 분석가 또는 경영진 등 데이터 관리에 관련된 모든 사람에게 유용한 리소스입니다. 데이터 품질 원칙, 관행 및 기술에 대한 포괄적인 개요를 제공하고 모든 조직에서 데이터 품질을 개선하기 위한 실용적인 지침을 제공합니다. 한빛미디어는 독자들이 오늘날의 데이터 중심 세계에서 데이터 품질 관리의 복잡성을 탐색하는 데 의심할 여지 없이 도움이 될 균형 잡히고 통찰력 있는 책으로 데이터 품질에 관심이 있는 사람이라면 필독서로서 추천 합니다.
"한빛미디어 리뷰어 활동을 위해서 책을 제공받아 작성된 서평입니다."
'책이야기' 카테고리의 다른 글
[리뷰]MLOps 실전 가이드 (0) | 2023.07.23 |
---|---|
[리뷰]풀스택 테스트: 10가지 테스트 기술의 기본 원칙과 전략 (0) | 2023.06.25 |
[리뷰]나도 하는 파이썬 데이터 분석 (0) | 2023.04.22 |
[리뷰]아토믹 코틀린 코틀린 컴파일러 개발자가 알려주는 코틀린 기본기 (0) | 2023.04.08 |
[리뷰]온디바이스 AI (1) | 2023.03.19 |