2.5 Membaca Data dari File Eksternal
Pada Chapter 2.5, pembaca akan mempelajari bagaimana cara melakukan import data dari berbagai sumber seperti plain text, spreadsheets, SPSS, STATA, SAS, dan Minitab. Sebelum melakukan hal tersebut terdapat beberapa hal yang perlu pembaca perhatikan, antara lain:
- Pastikan data berada dalam format tidy data (lihat Chapter 2.3), dan
- Pastikan missing value berada pada notasi yang konsisten.
Data yang berasal dari berbagai sumber akan memberikan format notasi missing value yang berbeda-beda, misalnya data yag berasal dari database akan memberikan notasi NULL
terhadap missing value, sedangkan data yang berasal dari spreadsheet akan memberikan notasi missing value berdasarkan operasi yang dilakukan pada datanya (contoh: #VALUE!
untuk hasil operasi 2 buah objek berbeda tipe datanya). RCommander
tidak dapat menangani kondisi di mana pada satu kolom data terdapat lebih dari 1 notasi missing value. Untuk mengatasi hal tersebut, pembaca perlu menyeragamkan notasi missing value pada data (contoh: mengubahnya menjadi notasi NA
atau dikosongkan jika data bersumber dari spreadsheet).
Pada Chapter 2.5, pembaca akan diberikan contoh bagaimana melakukan import data yang disajikan pada Tabel 2.8.
mpg | cyl | disp | hp | drat | wt | qsec | vs | am | gear | carb |
---|---|---|---|---|---|---|---|---|---|---|
21.0 | 6 | 160.0 | 110 | 3.90 | 2.620 | 16.46 | 0 | 1 | 4 | 4 |
21.0 | 6 | 160.0 | 110 | 3.90 | 2.875 | 17.02 | 0 | 1 | 4 | 4 |
22.8 | 4 | 108.0 | 93 | 3.85 | 2.320 | 18.61 | 1 | 1 | 4 | 1 |
21.4 | 6 | 258.0 | 110 | 3.08 | 3.215 | 19.44 | 1 | 0 | 3 | 1 |
18.7 | 8 | 360.0 | 175 | 3.15 | 3.440 | 17.02 | 0 | 0 | 3 | 2 |
18.1 | 6 | 225.0 | 105 | 2.76 | 3.460 | 20.22 | 1 | 0 | 3 | 1 |
14.3 | 8 | 360.0 | 245 | 3.21 | 3.570 | 15.84 | 0 | 0 | 3 | 4 |
24.4 | 4 | 146.7 | 62 | 3.69 | 3.190 | 20.00 | 1 | 0 | 4 | 2 |
22.8 | 4 | 140.8 | 95 | 3.92 | 3.150 | 22.90 | 1 | 0 | 4 | 2 |
19.2 | 6 | 167.6 | 123 | 3.92 | 3.440 | 18.30 | 1 | 0 | 4 | 4 |
Adapun penjelasan terkait Tabel 2.8 ditampilkan pada Tabel 2.9
Variabel | Keterangan |
---|---|
mpg |
Mil/(US) galon |
cyl |
Jumlah silinder |
disp |
Displacement (cu.in) |
hp |
Gross horsepower |
drat |
Rasio gandar belakang |
wt |
Berat (1000 lb) |
qsec |
Watu tempuh 1/4 mil |
vs |
Mesin (0=V-shape, 1=straight) |
am |
Transmisi (0=otomatis, 1=manual) |
gear |
Jumlah gear depan |
carb |
Jumlah karburator |
2.5.1 Membaca Data dari Sumber Plain Text
Terdapat 3 buah metode untuk membaca data dari plain text. Metode tersebut dibagi berdasarkan lokasi file plain text tersebut berada.
Membaca file yang berada pada sistem lokal
- Pada menu
Data
, klikData/Import data/from text file,clipboard,or URL...
. - Pada jendela yang muncul, isikan spesifikasi file (lihat Tabel 2.10) dan nama objek dataset yang diinginkan. Pada bagian
Location of Data File
pilihLocal file system
. KlikOK
. - Pada jendela
Windows Explorer
yang muncul, pilih file yang hendak dibaca. KlikOpen
. - Untuk melihat dataset yang berhasil dibuat, klik pada toolbar
View data set
.
Visualisasi tahapan tersebut ditampilkan pada Gambar 2.3.
Membaca file yang berada pada clipboard
- Higlight tabel dataset yang pembaca miliki dan copy dataset tersebut. Dataset tersebut selanjutnya akan tersimpan pada clipboard.
- Pada menu
Data
, klikData/Import data/from text file,clipboard,or URL...
. - Pada jendela yang muncul, isikan spesifikasi file (lihat Tabel 2.10) dan nama objek dataset yang diinginkan. Pada bagian
Location of Data File
pilihclipboard
.KlikOK
. - Dataset akan secara otomatis dibuat oleh program dengan mengambil data yang tersimpan pada clipboard.
- Untuk melihat dataset yang berhasil dibuat, klik pada toolbar
View data set
.
Membaca file yang berada pada URL
- Copy halaman URL lokasi dataset berada.
- Pada menu
Data
, klikData/Import data/from text file,clipboard,or URL...
. - Pada jendela yang muncul, isikan spesifikasi file (lihat Tabel 2.10) dan nama objek dataset yang diinginkan. Pada bagian
Location of Data File
pilihInternet URL
. KlikOK
. - Pada jendela yang muncul tempelkan (pasting) halaman URL yang telah di copy sebelumnya.
- Untuk melihat dataset yang berhasil dibuat, klik pada toolbar
View data set
.
Visualisasi tahapan tersebut ditampilkan pada Gambar 2.4.
Sintaks yang muncul pada R Console
saat proses telah dilakukan adalah sebagai berikut:
# sistem lokal
Dataset <- read.table("D:/mtcars.txt", header=TRUE,
sep="", na.strings="NA", dec=".",
strip.white=TRUE)
# clipboard
Dataset <- read.table("clipboard", header=TRUE,
sep="", na.strings="NA",
dec=".", strip.white=TRUE)
# URL
Dataset <- read.table("www.abcde.com/mtcars.txt",
header=TRUE, sep="",na.strings="NA",
dec=".", strip.white=TRUE)
No. | Item | Jenis Input | Keterangan |
---|---|---|---|
1. | Enter name for data set |
text input | Input nama dataset yang diinginkan sebagai output |
2. | Variable name in file |
Check box | Jika di centang, program membaca baris pertama tabel sebagai nama kolom |
3. | Missing value indikator |
text input | Karakter yang mengidikasikan missing value dalam file (misal: White space, NA, NaN, dll) |
4. | Location of Data File |
radio button | Lokasi file yang akan dibaca berada |
5. | Field Separator |
radio button | Pemisah antar kolom data yang digunakan |
6. | Decimal-Point Character |
radio button | Karakter yang digunakan sebagai penunjuk decimal-point |
2.5.2 Membaca Data dari Sumber Spreadsheet dan Lainnya
Format data lain yang dapat dibaca oleg R Commander
adalah xlsx
(Excel) ,.dta
(STATA), .sav
(SPSS), .sas7bdat
dan .xport
(SAS), serta .mtp
(minitab). Cara membaca data dengan format tersebut cukup sederhana dilakukan pada R Commander
. Pembaca hanya perlu menuju menu Data/Import data
dan memilih sumber data yang ingin dibaca. Pada jendela yang muncul (kecuali format .xport
) pembaca diminta untuk melakukan sejumlah konfigurasi seperti apakah rownames terletak pada kolom pertama, apakah perlu mengubah jenis data karakter menjadi faktor, dll. Pada kondisi dimana pembaca diminta untuk mengkonversi karakter menjadi faktor, penulis menyarankan untuk tidak melakukannya saat awal membaca data sebab akan menyulitkan pada saat melakukan analisis data selanjutnya. Konversi karakter menjadi faktor dilakukan pada sejumlah variabel yang memang ingin diubah menjadi faktor (bisa numerik atau karakter). Tampilan jendela konfigurasi awal saat membaca data ditampilkan pada Gambar 2.5.
Contoh sintaks yang akan muncul saat proses tersebut selesai adalah sebagai berikut:
# .xlsx
Dataset <- readXL("D:/mtcars.xlsx", rownames=FALSE,
header=TRUE, na="", sheet="mtcars",
stringsAsFactors=TRUE)
# .sav
Dataset <- readSPSS("D:/mtcars.sav", rownames=FALSE,
stringsAsFactors=TRUE, tolower=FALSE)
# .xport
Datasets <- read.xport("D:/mtcars.xport")
# .sasb7dat
Dataset <- readSAS("D:/mtcars.sas7bdat",
stringsAsFactors=TRUE, rownames=FALSE)
# .dta
Dataset <- readStata("D:/mtcars.dta", convert.dates=TRUE,
stringsAsFactors=TRUE, rownames=FALSE)