Chapter 3 간단한 설문조사 데이터 전처리

이번 장에서는 간단한 실제 설문조사 데이터를 가지고 데이터 전처리를 해본다. 사용할 데이터는 다음 주소에서 다운로드 받을 수 있다(http://web-r.org/index.php?mid=book&document_srl=31924). 이 데이터는 성빈센트병원에서 제 5회 QI(Quality Improvement) Academy 가 끝난 후 시행한 평가 설문지 데이터로 설문 내용은 “설문지.docx”이다. 먼저 설문지코딩.xlsx 파일을 살펴보자.

3.1 데이터 업로드

“설문지코딩.xlsx” 파일을 엑셀로 열어보면 다음과 같다. 첫번째 줄에 설문 제목과 내용이 모두 정리 되어 있다. 이 파일을 그대로 R에서 불러 사용하면 열이름이 너무 길어 데이터를 분석할 때 힘들어진다. 또한 입력단계에서는 각 항목 라벨이 의미있으나 열이름에 라벨이 포함될 필요는 없다.

3.2 데이터 정리

가장 권하고 싶은 방법은 이와 같이 정리를 하는 것이다.열 이름은 짧을수록 좋으며 빈칸이 있으면 안된다. 또한 숫자로 시작하지 않는 것이 좋다. 단어 사이를 띄어쓰기를 하고 싶은 경우 언더바를 사용하는 것이 좋다. (예: 언더_바) 먼저 열이름을 최대한 간단하게 이름 붙이고 두번째 행에 자세한 내용을 적는다. 두번째 행의 내용은 이후 웹R에서 열이름 라벨로 사용된다. 이 자료파일의 이름은 설문지코딩2.xlsx이다.

3.3 데이터 업로드

웹R에 접속한 후 무료서버접속 페이지를 통해 무료서버에 접속한다. 파일 업로드를 위해 Browse… 버튼을 누르고(1) 다운로드 받은 “설문지코딩2.xlsx” 파일을 업로드한다.

3.4 첫번째 행을 라벨로 사용

메인 메뉴에서 dataWrangling을 선택한다.

화면을 아래쪽으로 이동하여 “전처리 선택하기” 중 “첫번째 행을 라벨로 사용”을 선택하고(1) “첫번째 행을 라벨로 사용”버튼을 누른다(화살표).

3.5 라벨붙이기 - 담당

라벨붙이기/합계/평균/역순처리/표준화/삭제에서 담당 열을 선택한 후(1) 라벨을 입력하고(2) 값에 라벨붙이기 버튼(화살표)을 누른다.

3.6 라벨붙이기 - 근무기간

근무기간을 선택하고(1) 1-8까지 해당하는 라벨을 입력한 후(2) 값에 라벨붙이기 버튼을 누른다(3).

3.7 한꺼번에 라벨 붙이기 - 내용평가 및 교육만족도

내용평가1-4, 교육만족도1-4를 선택한 후 교육만족도4 하나만 선택해보면(1) 1-4까지 빈칸이 보인다. 이 항목들은 5단계 리커트 척도를 사용하였는데 리커트 척도를 사용하는 경우 응답자는 극단적인 선택을 피하려는 경향이 있기 떄문에 매우 불만족을 선택한 사람이 아무도 없는 것을 알 수 있다. 모두 5단계가 있으므로 + 버튼(2)을 누른다.

계속해서 1-5단계까지 라벨을 입력하고(1) 선택한 열 모두 같은 라벨붙이기 버튼을 누른다(2).

다음과 같은 경고메시지가 나타난다. 내용평가3은 한명이 값을 입력하지 않아 6으로 코딩한 값이 있어 이와 같은 경고메시지가 나타난다. 당황하지 말고 닫기버튼을 누른다.

3.8 결측치의 처리

내용평가3을 선택하면(1) 1,2,3,6 이 있는 것이 보인다(2). 이중 6은 결측치이다. 화면 아래쪽에 있는 NA(결측치)로 만들기를 선택하고 6을 입력하고(3) 결측치(NA)로 만들기 버튼을 누른다(4).

3.9 라벨붙이기

내용평가3에 라벨이 없으므로 내용평가3과 교육만족도4를 선택하고(1) 선택한 열 모두 같은 라벨붙이기 버튼을 누른다(2).

3.10 역순으로 만들기

내용평가1-4 와 교육만족도1-4는 모두 매우 만족이 1, 매우 불만족이 5로 코딩되어 있다. 이를 뒤집어 매우 만족이 5, 매우 불만족이 1로 바꾼다면 점수가 높을수록 만족도가 높다는 것을 알수 있을 것이다. 이렇게 항목을 역순으로 만들려면 다음과 같이 한다. 먼저 내용평가1-4, 교육만족도1-4를 모두 선택하고(1) 전처리선택하기 중 역순으로 만들기를 선택한 후(2) minimum에 1, maximum에 5를 입력하고(3) 역순처리 버튼을 누른다(4).

역순처리가 끝나면 열이름 끝에 _r이 붙은 열이 새로 생긴다. 즉 내용평가1 열의 역순처리한 열은 내용평가1_r 열이다.

3.11 합계 및 평균 구하기

내용평가 및 교육만족도의 합계 및 평균을 구해보자. 먼저 내용평가1_r 부터 내용평가4_r까지 네개의 열을 선택한 후 합계계산 버튼을 누른다(3). 내용평가합계 열이 새로 만들어지며 여기에 합계가 기록된다.

계속해서 내용평가1_r 부터 내용평가4_r까지 네개의 열을 선택한 후 평균계산 버튼을 누른다. 교육만족도의 합계와 평균 또한 같은 방법으로 구한다.

3.12 전처리 끝난 자료 다운로드

위와 같은 과정을 거쳐 전처리를 한 후 전처리된 자료를 다운로드하여 저장하면 다음에 이 자료를 이용하여 분석할 때 다시 전처리를 할 필요가 없다. 화면을 위로 이동한 후 RDS 형식으로 다운로드 버튼을 누른다. RDS형식으로 저장하면 전처리 과정에서 붙인 라벨 등이 그대로 유지된다. csv형식으로 저장하는 경우 라벨등이 없어지며 날짜 형식의 자료도 문자형으로 바뀌니 주의하여야 한다.