2.8 Memodifikasi Variabel pada Data
Menu Data/Manage variables in active data set
merupakan menu yang dibuat untuk memodifikasi variabel dan membuat variabel baru pada dataset. Pada Chapter 2.8, penulis akan memjelaskan cara menggunakan submenu Recode variables
untuk merubah level pada tipe data factor
dan membuat variabel baru dari variabel dengan tipe data numeric
, penulis juga akan menjelaskan cara menggunakan submenu Reorder Factor Levels
untuk mengubah urutan factor
yang semula berdasarkan urutan alfabet menjadi sesuai dengan yang kita inginkan, serta informasi lain terkait penggunaan submenu pada menu Data/Manage variables in active data set
.
2.8.1 Variabel Recoding
Terdapat dua kegunaan submenu Recode Variables
, yaitu: membuat factor
baru dengan cara mentransformasi variabel numeric
menjadi factor
, serta merubah urutan level suatu factor
.
Ketentuan recode pada Recode Variables
secara umum memiliki formula *nilai-lama=nilai-baru*
, dimana nilai-baru
(nilai awal variabel tercatat) dispesifikasi sesuai dengan Tabel 2.12. Berikut adalah sejumlah informasi yang perlu pembaca perhatikan untuk memahami penggunaan submenu Recode Varibles
:
- Jika nilai variabel lama yang tercatat sama sekali ketentuan recode yang kita tetapkan, nilai tersebut hanya dibawa menuju
Recode Variables
. Sebagai contoh, jika aturan"sangat setuju"="setuju"
ditetapkan, tapi nilai lama untukfactor
"setuju"
tidak dicatat, maka kedua nilai lama (factor
lama) tersebut digabung menjadi satu sehingga("sangat setuju","setuju")="setuju"
. - Jika nilai variabel lama yang dicatat memenuhi lebih dari satu ketetapan recode, maka ketentuan pertama yang berlaku diterapkan. Sebagai contoh, jika terdapat variabel
pendapatan
dengan ketentuan recodelo:2.500.000="rendah"
dan2.500.000:7.500.000="sedang"
, maka sebuah observasi dengan variabelpendapatan
bernilai2.500.000
akan dikategorikan sebagai"rendah"
. - Seperti yang telah dijabarkan pada poin sebelumnya, karakter spesial
lo
digunakan untuk menyatakan nilai variabelnumeric
terkecil, sedangkanhi
digunakan untuk variabelnumeric
dengan nilai tertinggi. - Pada setiap ketentuan recode pastikan diakhiri dengan nilai
else
yang menunjukkan nilai lain diluar ketentuan recode sebelumnya (termasuk missing value).
No. | Nilai Lama | Contoh Ketentuan Recode |
---|---|---|
1. | nilai individual(a ) |
99=NA ; NA="missing" ; "sangat setuju="setuju" |
2. | sebuah set nilai (a,b,...,k ) |
1,3,5,..,k="ganjil" ; "sangat setuju","cukup setuju"="setuju" |
3. | rentang numerik (a:b ) |
1901:2000="abad 21" ; lo:2.000.000="rendah" ; 10.000.000:hi="tinggi" |
4. | lainnya (else ) |
else="lainnya" |
Pada dataset mtcars
(lihat Tabel 2.8), misalkan kita ingin menambahkan variabel baru berupa factor
yang menyatakan klasifikasi kendaraan berdasarkan tingkat penggunaan bahan bakar per mil (mpg
). Untuk kendaraan dengan ketentuan mpg
lo:20="boros"
, 20:30="sedang"
, dan else="hemat"
. Berikut adalah langkah-langkah untuk melakukannya:
- Pada menu
Data
, klikData/Manage variables in active data set/Recode variables..
. - Pada jendela yang muncul pilih variabel yang ingin dilakukan recoding, tentukan ketentuan recodingnya, dan nama variabel baru yang dihasilkan. Penjelasan terkait jendela tersebut ditampilkan pada Tabel 2.13.
- Spesifikasikan apakah tipe data variabel tersebut adalah
factor
atau bukan dengan mencentang checkbox. KlikOK
. - Untuk melihat variabel baru yang telah terbentuk, klik
View data set
.
Visualisasi tahapan tersebut ditampilkan pada Gambar 2.11.
Proses tersebut akan memunculkan sintaks pada R Script
sebagai berikut:
mtcars <- within(mtcars, {kategori <- Recode(mpg,
`lo:20.0="boros"; 20.0:30.0="sedang"; else="hemat"; ;',
as.factor=TRUE)
})
No. | Item | Jenis Input | Keterangan |
---|---|---|---|
1. | Variables to recode |
select box | daftar nama variabel yang akan di recode |
2. | New variable name ... |
text input | nama baru untuk variabel yang dibuat |
3. | Make (each) variable.. |
check box | pilihan apakah variabel baru adalah factor |
4. | Enter recode directives |
text input | kotak untuk memasukkan ketentuan recode |
2.8.2 Komputasi Variabel Baru
Pada saat analisis data, variabel yang kita miliki terkadang tidak cukup untuk menjelaskan suatu fenomena. Namun, kita dapat membentuk sebuah variabel baru yang dapat membantu menjelaskan fenomena tersebut. Pembentukan variabel baru dapat berupa tranformasi sebuah variabel atau pembentukan variabel berdasarkan beberapa formulasi beberapa variabel lain.
Dalam melakukan tranformasi variabel, kita dapat memanfaatkan sejumlah operator operasi yang telah penulis jelaskan pada Chapter 2.1.1. Selain operator tersebut, terdapat sejumlah fungsi operasi arimatika yang tersedia pada R
. Fungsi-fungsi tersebut, antara lain:
- Logaritma dan eksponensial
Untuk contoh fungsi logaritmik dan eksponensial jalankan sintaks berikut:
## [1] 3
## [1] 0.9031
## [1] 2981
- Fungsi trigonometri
fungsi trigonometri yang ditampilkan seperti sin,cos, tan, dll.
cos(x) # cos x
sin(x) # Sin x
tan(x) # Tan x
acos(x) # arc-cos x
asin(x) # arc-sin x
atan(x) #arc-tan x
**PENTING!!!: x dalam fungsi trigonometri memiliki satuan radian
Berikut adalah salah satu contoh penggunaannya:
## [1] -1
- Fungsi matematik lainnya
Fungsi lainnya yang dapat digunakan adalah fungsi absolut, akar kuadrat, dll. Berikut adalah contoh sintaks penggunaan fungsi absolut dan akar kuadrat.
## [1] 2
## [1] 2
Untuk memahami permasalahan terkait komputasi variabel baru, kita akan membuat variabel baru pada dataset mtcars
yang telah dijelaskan pada Tabel 2.8. Variabel baru yang akan kita buat adalah variabel rasio antara jarak tempuh per satuan bahan bakar (mpg
) terhadap berat kendaraan (wt
) dan kita namai variabel baru tersebut rwt
. Variabel baru ini dapat menjadi alternatif lain dalam menjelaskan efisiensi suatu mobil yang ditandai dengan rasio antara jarak tempuh terhadap bobot dan konsumsi bahan bakarnya. Berikut adalah tahapan untuk melakukannya:
- Pada menu
Data
, klikData/Manage variables in active data set/Compute new variable
. - Pada jendela yang muncul, ketikkan formula pembentuk variabel baru pada kotak
Expression to compute
. - Untuk memasukkan nama variabel ke dalam formula, pembaca dapat mengetikkan nama variabel secara manual atau melakukan double click nama variabel yang tersedia pada kotak
Current variables
. - Ketikkan nama variabel baru pada kotak
New variable name
. KlikOK
. - Untuk mengecek variabel yang telah terbentuk, klik
View data set
.
Visualisasi tahapan tersebut ditampilkan pada Gambar 2.12.
Berdasarkan tahapan tersebut, sintaks yang terbentuk pada R Script
adalah sebagai berikut:
2.8.3 Menambahkan Variabel Nomor Observasi Pada Dataset
Untuk menambahkan variabel nomor observasi pada dataset jalankan langkah-langkah berikut:
- Pada menu
Data
, klikData/Manage variables in active data set/Add observation numbers to data set
. - Variabel
ObsNumber
berupa nomor observasi akan secara otomatis ditambahkan pada akhir kolom dataset. - Untuk mengecek variabel baru tersebut, klik toolbar
View data set
.
Pada akhir tahapan, sintaks berikut tercetak pada R Script
:
2.8.4 Standardisasi Variabel
Standardisasi variabel bertujuan untuk mentransformasi variabel sehingga variabel tersebut memiliki nilai rata-rata 0 dan simpangan baku 1. Tahapan melakukan standardisasi variabel pada R Commander
adalah sebagai berikut:
- Pada menu
Data
, klikData/Manage variables in active data set/Standardize variables...
. - Pada jendela yang muncul, pilih variabel yang akan di standardisasi. Pembaca dapat memilih lebih dari satu variabel dengan cara menekan tombol ctrl+klik (pada Windows) saat memilih variabel. Klik
OK
. - Untuk mengecek variabel yang telah distandadrdisasi, klik toolbar
View data set
.
Visualisasi tahapan tersebut ditampilkan pada Gambar 2.13.
Sintaks yang digunakan dalam tahapan tersebut adalah sebagai berikut:
2.8.5 Merubah Variabel Numeric Menjadi Factor
Pada Chapter 2.8.1, kita telah belajar bagaimana cara melakukan recoding variabel dan membentuk factor. Pada Chapter 2.8.5, kita akan membahas cara merubah variabel numeric menjadi factor tanpa perlu melakukan proses recoding. Pada Chapter ini, kita hanya perlu mesuplai variabel numeric yang akan diubah menjadi factor. Kita juga dapat menambahkan label pada factor tersebut. Untuk melakukannya jalankan langkah-langkah berikut:
- Pada menu
Data
, klikData/Manage variables in active data set/Convert numeric varibles to factors
. - Spesifikasikan variabel yang akan diubah menjadi factor (lihat Tabel 2.14). Klik
OK
- Untuk mengecek apakah variabel telah terkonversi menjadi factor, klik
Statistics/Summaries/Active data set
. Variabel yang telah dikonversi menjadi factor akan memberikan ringkasan data berupa tabel kontingensi (tidak menampilkan mean, min, max, dll).
Visualisasi tahapan tersebut ditampilkan pada Gambar 2.14.
Sintaks yang dihasilkan pada proses tersebut adalah sebagai berikut:
# use numbers
dataset <- within(dataset, {
namavariabel <- as.factor(namavariabel)
})
# supply level names
dataset<- within(dataset, {
namavariabel <- factor(namavariabel,
labels=c('label1','label2',...))
})
No. | Item | Jenis Input | Keterangan |
---|---|---|---|
1. | Variables |
select box | daftar nama variabel yang akan diubah menjadi factor |
2. | Factor levels |
radio button | pilihan apakah perlu menambahkan label pada factor atau tidak |
3. | New variable name or... |
text input | jika tidak diisi maka variabel lama akan diganti variabel baru (tidak ada variabel baru ditambahkan) |
2.8.6 Melakukan Binning pada Variabel Numeric
Binning variabel numeric merupakan cara untuk mengelompokkan nilai variabel numeric ke dalam suatu kelas berdasarkan rentang tertentu. Penetapan rentang pada proses binning di R Commander
terbagi atas 3 metode, yaitu:
- Equal-width : membagi data ke dalam kelas berdasarkan interval yang seragam.
- Equal-count : membagi data ke dalam kelas berdasarkan jumlah kelas yang sama.
- Natural break : membagi data ke dalam kelas berdasarkan jarak terdekat (biasanya menggunakan jarak Euclidian) pada pusat masing-masing kelas. Algoritma pengelompokan yang biasa digunakan adalah algoritma k-means (baca K-Means).
Tahapan untuk melakukan proses binning variabel numeric antara lain:
- Pada menu
Data
, klikData/Manage variables in active data set/Bin numeric variable...
. - Pada jendela yang muncul spesifikasikan variabel numeric yang akan di binning dan metode pengelompokan yang digunakan (lihat Tabel 2.15. Klik
OK
. - Untuk mengecek variabel hasil binning, klik toolbar
View data set
.
Visualisasi tahapan tersebut ditampilkan pada Gambar 2.15.
Sintaks yang digunakan pada masing-masing metode binning, antara lain:
# Equal-width
dataset$namavariabel <- with(dataset, binVariable(variabel,
bins="jumlah_bin", method='intervals',
labels=c("label1",...)))
dataset$namavariabel <- with(dataset, binVariable(variabel,
bins="jumlah_bin", method='proportions',
labels=c("label1",...)))
dataset$namavariabel <- with(dataset, binVariable(variabel,
bins="jumlah_bin", method='natural',
labels=c("label1",...)))
No. | Item | Jenis Input | Keterangan |
---|---|---|---|
1. | Variables to bin |
select box | daftar nama variabel numeric yang akan dilakukan binning |
2. | New variable name |
text input | Input nama variabel baru |
3. | Number of bins |
slider | spesifikasi jumlah bin atau kelas yang digunakan |
4. | Level Names |
radio button | spesifikasi metode penamaan bin |
5. | Binning Method |
radio button | spesifikasi metode binning |
2.8.7 Merubah Urutan Factor Levels
Secara umum saat kita merubah sebuah variabel character atau string menjadi factor level factor hasil konversi tersebut diurutkan berdasarkan abjad. Sebuah variabel yang terdiri dari nilai “setuju”, “netral”, dan “tidak setuju”, jika diubah menjadi factor akan memiliki urutan level “netral”, “setuju”, dan “tidak setuju”. Urutan tersebut tidak benar dan perlu dirubah. Untuk melakukannya pada R Commander
jalankan langkah-langkah berikut:
- Pada menu
Data
, klikData/Manage variables in active data set/Reorder factor levels...
. - Pada jendela yang muncul spesifikasikan variable factor yang akan dirubah (lihat Tabel 2.16. Klik
OK
. - Pada jendela yang muncul, rubah urutan factor lama. Klik
OK
. - Untuk mengecek factor level, jalankan sintaks berikut:
Visualisasi tahapan tersebut ditampilkan pada Gambar 2.16.
Sintaks dari tahapan merubah urutan factor secara umum ditampilkan sebagai berikut:
dataset$namavariabel <- with(dataset, factor(namavariabel,
levels=c('level1',
'level2',
....),
ordered=TRUE))
No. | Item | Jenis Input | Keterangan |
---|---|---|---|
1. | Factor |
select box | daftar variabel factor pada dataset |
2. | Name for factor |
text input | nama variabel factor yang baru (jika ingin membuat variabel baru) |
3. | Make ordered factor |
check box | spesifikasi apakah factor akan diurutkan atau tidak |
2.8.8 Melakukan Drop pada Factor Levels
Saat melakukan subset pada dataset yang akan dijelaskan pada Chapter 2.9 sering kali tidak semua factor level ada pada dataset tersebut (sejumlah factor level memiliki observasi nol) yang berpengaruh pada analisis data yang kita lakukan. Untuk mengatasinya, kita dapat melakukan drop pada factor level tersebut. Untuk melakukannya, jalankan langkah-langkah berikut:
- Pada menu
Data
, klikData/Manage variables in active data set/Drop unused factor levels...
. - Pada jendela yang muncul spesifikasikan variable factor yang akan didrop factor levelnya. Klik
OK
.
Visualisasi tahapan tersebut ditampilkan pada Gambar 2.17.
Sintaks untuk melakukan drop factor levels secara umum adalah sebagai berikut:
2.8.9 Merubah Nama Variabel pada Data
Untuk merubah nama variabel pada R Commander
dapat dilakukan dengan dua cara, antara lain:
Cara 1
- Klik toolbar
Edit data set
. - Pada jendela dataset yang muncul , double click nama variabel yang ingin dirubah dan ubah nama variabel tersebut. Klik
OK
Cara 2
- Pada menu
Data
, klikData/Manage variables in active data set/Rename variables...
. - Pada jendela yang muncul pilih variabel yang ingin dirubah namanya. Klik
OK
. - Pada jendela yang muncul, isikan nama variabel baru dan Klik
OK
jika telah selesai. - Untuk mengecek apakah proses telah berhasil, klik toolbar
View data set
.
Visualisasi tahapan tersebut ditampilkan pada Gambar 2.18.
Sintaks untuk merubah nama variabel secara umum adalah sebagai berikut:
2.8.10 Menghapus Variabel
Untuk menghapus variabel pada dataset, jalankan langkah-langkah berikut:
- Pada menu
Data
, klikData/Manage variables in active data set/Delete variables from data set...
. - Pada jendela yang muncul pilih variabel yang ingin dihapus. Klik
OK
. - Untuk mengecek apakah proses telah berhasil, klik toolbar
View data set
.
Visualisasi tahapan tersebut ditampilkan pada Gambar 2.19.
Sintaks untuk menghapus variabel secara umum adalah sebagai berikut: