2 소개

이 책의 첫번째 파트는 데이터 불러오기, 타이디하게하기, 데이터 탐색하기 로 이루어진 데이터과학 워크플로를 소개합니다. 데이터 탐색이란 데이터를 보고, 빠르게 가설들을 만들고, 빠르게 가설들을 테스트한 뒤 이를 계속 계속 반복하는 기술입니다. 데이터 탐색의 목적은 깊게 살펴볼 가능성있는 단서들을 만들어내는 데에 있습니다.

이 파트에서는 바로 사용할 수 있는 도구들을 배웁니다:

  • 시각화는 바로 도움이 되기 때문에, R 프로그래밍을 시작하기 좋은 주제입니다. 시각화부터 R 프로그래밍을 시작하는 것을 추천하는데, 이렇게 하면 뚜렷한 장점이 있습니다. 데이터를 이해하는 데 도움이 되는 우아하고 정보성있는 플롯을 만들 수 있습니다.
    3 장에서 시각화에 대해 깊이 들어가서 ggplot2 플롯의 기본 구조와 데이터를 플롯으로 바꾸는 강력한 기술들을 배울 것입니다.

  • 일반적으로 시각화만으로는 충분하지 않으므로 5 장에서는 중요한 변수를 선택하고, 필터링하고, 새 변수를 만들고, 요약값을 계산하는 주요 동사들을 배울 것입니다.

  • 7 장에서 타이디한 데이터에 대해 배울 것인데, 이는 데이터를 변형, 시각화, 모델링하기에 쉬운 일관성있는 저장방법입니다. 기본적인 원칙들과 데이터를 타이디한 형태로 만드는 법에 대해 배울 것입니다.

  • 데이터를 변환하고 시각화하기 전에 먼저 데이터를 R 로 불러와야 합니다. 9 장에서 플레인텍스트로 이루어진 직사각형 데이터를 R 로 불러오는 기초기술에 대해 배울 것입니다.

  • 마지막으로 11 장에서 시각화와 데이터변환 위에 지적호기심과 비판적 시각을 결합하여 데이터에 대한 흥미로운 질문들을 만들고 답할 것입니다.

모델링은 탐색 과정에서 중요한 부분이지만 아직 효과적으로 학습하거나 적용할 기술을 가질 필요는 없습니다. 모델링의 자세한 내용은 이 책에서 다루지 않을 것입니다.

탐색 도구를 가르쳐 주는 다섯 장 사이사이에, R 워크플로에 중점을 둔 세 개의 장도 자리잡고 있습니다. 4, 10, 12 장들에서는 R 코드를 작성하고 조직하는 좋은 사례들을 배울 것입니다. 이 장들에서는 실제 프로젝트에서 잘 정리할 수 있는 도구들을 배워 장기적으로 성공할 수 있는 틀을 갖추게 될 것입니다.