Chapter 4 그래프 DUI
탐색적 데이터 분석에서 그래프는 강력한 도구이며, 다양한 그래프가 존재한다.
4.1 산점도
아래 그림은 MIDAS의 반응형 산점도 그래프이다.
4 개의 그래프가 한 화면에 나타나며, 마우스가 특정 데이터 위로 이동(hovering)하면 같은 범주의 데이터가 붉은 색으로 애니메이션 된다. 그리고 해당 데이터의 주요 내용이 붉은 상자 안에 풍선 도움말(tooltip)로 나타난다. 해당 데이터를 클릭하면 상세 데이터가 하단에 표시 된다.
4.1.1 산점도 DUI
산점도 설계 DUI의 첫 번째 시트는 아래와 같다.
4 개의 그래프에 대한 x축 변수, y 축 변수, color 변수, x 축 제목, y 축 제목 등을 설계 할 수 있다. x 축 제목, y 축 제목 등이 빈 칸인 경우에는 전처리 당시에 지정된 제목으로 표시된다.
산점도 설계 DUI의 두 번째 시트는 아래와 같다.
A열에는 선택한 옵션이 입력되며, B열에는 옵션의 이름이 표시된다. C열에는 선택 가능한 옵션 목록을 표시하며, D열에는 옵션이 단일 옵션인지, 다중 옵션인지를 표시한다. layout 옵션은 한 화면에 몇 개의 그래프를 어덯게 배치할 지를 결정한다. R2C2는 2행(Raw) 2열(Coulmn)로 4개의 그래프를 그린다. R1C1은 하나의 그래프를 그리며, R1C2는 두 개의 그래프가 가로로 그려진다. R2C1, R3C1, R4C1은 2개, 3개, 4개의 그래프를 세로로 배치하여 그린다. fitOption은 피팅 곡선의 포함 여부 및 종류를 결정한다. 1차식 피팅, 2차식 피팅 등이 있다. smoothOption은 스무싱 커브의 포함 여부(No, Yes)를 설계한다. hoverAnimation은 마우스가 특정 데이터 포인트 위에 있을 때 동일 범주의 데이터 포인터 들이 붉게 애니메이션 되는 변수를 선정한다. rowNoSource 변수는 모든 MIDAS 솔루션에 존재하는 변수로 고유 행 번호로 생각할 수 있다. hoverAnimation 변수가 rowNoSource인 경우 고유 행 번호이기 때문에 하나의 데이터만 붉게 애니메이션 된다. VarTable 옵션에서 선택된 변수의 값 들은 특정 데이터들이 선택되면 그래프 아래에 테이블로 출력된다.
아래 화면은 hoverAnimation 옵션에 범주형 변수를 입력했을 때, 마우스 아래의 데이터와 동일한 범주를 갖는 데이터가 애니메이션 된 화면이다. 해당 데이터를 클리하면 동일 범주에 소속된 데이터의 상세 테이블이 그래프 아래에 출력 된다.
산점도에서 특정 데이터 들을 선택하는 다른 방법이 있다. 라소 선택이다. 아래 화면의 오른 쪽 위에 있는 파란색 올가미를 선택하면 원하는 데이터를 올가미 안에 집어 넣어 선택할 수 있다.왼 쪽 위에 데이터 선택 중인 올가미가 보인다. 만약에 2개의 데이터가 선택되면, 선택된 데이터의 상세 내역이 그래프 하단에 테이블로 출력된다. 라소 선택된 데이터만 테이블로 출력하려면 hoverAnimation 옵션을 rowNoSource로 선택해야 한다. 그렇지 않으면 hoverAnimation 옵션으로 선택된 변수의 동일 범주 데이터가 테이블로 출력된다.
4.1.2 산점도 GUI
자주 변경되는 설계의 경우, GUI(Graphical User Interface)를 이용하여 설계 변경하는 것이 편리하다. DUI 설계는 하드디스크에 저장되지만, GUI 설계는 메모리에만 저장된다. 즉, GUI 설계는 히발성이기 때문에, 컴퓨터를 새로 부팅하면 사라진다. 산점도용 GUI 위젯은 두 개이다. layout 을 선택하는 목록 선택 위젯과 4개 그래프의 X, Y, Color 변수를 설계하기 위한 버튼 위젯이 있다.
변수 선택을 위한 “GUI 설계” 버튼을 누르면 산점도 변수 설계를 위한 대화창이 나타난다. 그래프를 선택한 후, 변수 선택을 위한 버튼(contX, contY, varColor)을 누르면 변수 선택 대화창이 생성된다.
4.1.3 산점도 출력
DUI 혹은 GUI 로 설계된 산점도는 화면 혹은 HTML 파일로 출력 된다.
“그래프 갱신” 버튼을 누르면 화면 그래프 및 테이믈이 출력 된다.
맨 오픈쪽의 “HTML 그래프” 버튼을 클릭하면 HTML 파일로 많은 산점도가 출력 된다. 산점도의 순서는 설계 DUI의 fitOption 값에 따라 1차 회귀, 2차 회귀 등을 하여 회귀 결과 R2가 높은 순서이다. 아래 그래프에서 OneY 산점도는 Y 변수를 mpg로 고정했을 때, mpg와 2차 회귀 관계가 좋은 x 변수부터 서열화하여 보여준다. 1페이지 당 4개의 산점도를 보여 주며, 10 페이지에 40개의 산점도까지 보여 준다.
아래 그래프는 X 변수를 무게(wt)로 고정했을 때, wt와 2차 회귀 관계가 좋은 y 변수부터 서열화하여 보여준다. 1페이지 당 4개의 산점도를 보여 주며, 10 페이지에 40개의 산점도까지 보여 준다.
아래의 링크를 클릭하면 HTML 보고서 사례가 웹브라우저에 열립니다..