Chapter 1 Data 가져오기

  • 가장 먼저 R로 원하는 데이터를 갖고 오는 방법을 공유드리고자 합니다.

  • xlsx, csv, rds 등 여러가지 파일을 불러오는 방법도 있지만,
    회사 문서들이 대부분 보안이 걸려 있기 때문에 분석 할 때마다
    반출하여 불러오는 것은 번거롭습니다.

  • 저는 주로 복사 붙여넣기를 통해 데이터를 갖고 옵니다.

  • 이번 강좌에서는 kaggle에 올라와 있는 IBM HR data를 활용해 보겠습니다.

1.1 데이터 복사하기

  • 아래 링크를 클릭하시어 Kaggle 데이터를 다운 받으셔서 엑셀로 파일을 여신 후 셀 전체를 선택하시고 복사(ctrl+c) 해주세요. 제가 공유드리는 모든 데이터는 chrome 브라우저에서만 열립니다.

    IBM HR Data Download link

  • Kaggle은 빅데이터 솔루션 대회 플랫폼으로 전 세계 분석가들이 모여 각종 데이터를 분석하고, 경쟁하는 플랫폼입니다. 연습할 수 있는 다양한 분야의 데이터가 올라오기 때문에, 적극 활용을 추천 드립니다.

1.2 복사한 데이터 변수 저장

read.table(‘clipboard’) : clipboard에 있는 데이터를 테이블로 읽어오겠다.

  • 아래의 코드를 실행하시면 data 변수에 데이터가 복사됩니다.
#kaggle에 올라와 있는 IBM HR data를 복사한 뒤 코드를 실행했습니다 
data <- read.table("clipboard-16384", sep="\t", fill=T, header = T) 

1.2.1 read.table() 옵션 넣기

  • R로 불러오고자 하는 데이터의 크기를 보시고, clipboard 뒤쪽 숫자를 넣어주시면 됩니다.
    clipboard-16384 는 16384kb 크기까지 클립보드의 데이터를 붙여 넣기 하라는 뜻이며
    이는 약 16mb 크기까지 붙여 넣기 하라는 것입니다.

  • 만약 붙여넣기 하고자 하시는 엑셀 데이터가 300mb 크기라면
    300000kb clipboard-300000 을 넣으시면 됩니다.

  • 그 외 아래 옵션을 디폴트로 사용합니다.

* sep = "\\t"는 Tab으로 열을 구분하라는 뜻입니다.  
만약 옵션에 "\\," 이렇게 넣으시면 , 로 구분되며,  
데이터가 어떻게 구성되어 있는지에 따라 다르게 넣으시면 됩니다.  
일반적인 엑셀 데이터라면 "\\t" 하시면 됩니다. 

* fill = T 는 비어 있는 셀에는 아무것도 없다는 뜻의 NA를 넣는다는 뜻입니다.    

* header=T 는 엑셀데이터의 첫 행을 열 이름으로 사용한다는 뜻입니다.    
#IBM HR Data는 향후 t-test 관련 Tip에서 공유 드릴 예정입니다. 
# head() 함수를 통해 복사 붙여넣기가 잘 되었는지 확인합니다. 
head(data)
  • 이외에도 다양한 옵션이 있으며,아래 링크로 가시면
    옵션에 대한 설명을 들으실 수 있습니다.

read.table 함수 option 확인하기