Chapter 1 Data 가져오기
가장 먼저 R로 원하는 데이터를 갖고 오는 방법을 공유드리고자 합니다.
xlsx, csv, rds 등 여러가지 파일을 불러오는 방법도 있지만,
회사 문서들이 대부분 보안이 걸려 있기 때문에 분석 할 때마다
반출하여 불러오는 것은 번거롭습니다.저는 주로 복사 붙여넣기를 통해 데이터를 갖고 옵니다.
이번 강좌에서는 kaggle에 올라와 있는 IBM HR data를 활용해 보겠습니다.
1.1 데이터 복사하기
아래 링크를 클릭하시어 Kaggle 데이터를 다운 받으셔서 엑셀로 파일을 여신 후 셀 전체를 선택하시고 복사(ctrl+c) 해주세요. 제가 공유드리는 모든 데이터는 chrome 브라우저에서만 열립니다.
Kaggle은 빅데이터 솔루션 대회 플랫폼으로 전 세계 분석가들이 모여 각종 데이터를 분석하고, 경쟁하는 플랫폼입니다. 연습할 수 있는 다양한 분야의 데이터가 올라오기 때문에, 적극 활용을 추천 드립니다.
1.2 복사한 데이터 변수 저장
read.table(‘clipboard’) : clipboard에 있는 데이터를 테이블로 읽어오겠다.
- 아래의 코드를 실행하시면 data 변수에 데이터가 복사됩니다.
#kaggle에 올라와 있는 IBM HR data를 복사한 뒤 코드를 실행했습니다
data <- read.table("clipboard-16384", sep="\t", fill=T, header = T)
1.2.1 read.table() 옵션 넣기
R로 불러오고자 하는 데이터의 크기를 보시고, clipboard 뒤쪽 숫자를 넣어주시면 됩니다.
clipboard-16384 는 16384kb 크기까지 클립보드의 데이터를 붙여 넣기 하라는 뜻이며
이는 약 16mb 크기까지 붙여 넣기 하라는 것입니다.만약 붙여넣기 하고자 하시는 엑셀 데이터가 300mb 크기라면
300000kb clipboard-300000 을 넣으시면 됩니다.그 외 아래 옵션을 디폴트로 사용합니다.
* sep = "\\t"는 Tab으로 열을 구분하라는 뜻입니다.
만약 옵션에 "\\," 이렇게 넣으시면 , 로 구분되며,
데이터가 어떻게 구성되어 있는지에 따라 다르게 넣으시면 됩니다.
일반적인 엑셀 데이터라면 "\\t" 하시면 됩니다.
* fill = T 는 비어 있는 셀에는 아무것도 없다는 뜻의 NA를 넣는다는 뜻입니다.
* header=T 는 엑셀데이터의 첫 행을 열 이름으로 사용한다는 뜻입니다.
- 이외에도 다양한 옵션이 있으며,아래 링크로 가시면
옵션에 대한 설명을 들으실 수 있습니다.