Bab 3 Data Teks dan Sumbernya

Data menjadi modal baru di era digital ini khususnya dalam konteks bisnis dan inovasi di tengah persaingan global. Data baik berupa kata, video, gambar, atau suara serta lainnya dapat bersumber dari dalam maupun dari luar organisasi/perusahaan. Data ini sangat berguna untuk menyusun strategi dalam membangun reputasi dan memenangkan persaingan sehingga penting dijaga dan dianalisis dengan tepat. Dalam analisis teks secara komputasional di R, data dapat bersumber dari dokumen data yang sudah disimpan dalam berbagai bentuk seperti CSV, Excel, PDF. Bisa juga datanya diperoleh dari website berita, akun/platform media sosial seperti Facebook, Twitter, Tiktok, Instagram, atau blog. Perolehan data lewat aplikasi ini tentu membutuhkan teknik khusus yang melibatkan akses melalui API (Application Programming Interface). Data bisa berupa komentar atau hasil review produk atau layanan di platform marketplace atau google review. Namun data bisa juga diperoleh dari hasil interview, hasil survei dengan pertanyaan terbuka, atau bahkan hasil observasi yang sudah disusun sebelumnya. Ragam data teks dan sumbernya dapat diklasifikasi sesuai dengan konteks Komunikasi yang terbentuk seperti pada tabel berikut: No Konteks Data teks Sumber 1 Komunikasi interpersonal pesan pribadi, isi email, ucapan, WA, email, media sosial 2 Komunikasi kelompok Hasil rapat, percakapan kelompok Grup WA, notulensi rapat 3 Komunikasi organisasi Hasil rapat, komentar klien/konsumen, pemberitaan media, press release Notulensi, website perusahaan, akun media sosial perusahaan, akun marketplace, press release, hasil survei pertanyaan terbuka 4 Komunikasi publik Pidato pejabat, pemberitaan media, press release, komentar klien, review layanan Media berita, buku, website lembaga, akun media sosial, blog, hasil survei pertanyaan terbuka 5 Komunikasi massa Berita, komentar pembaca/penonton, pendapat narasumber Media berita, website media, akun media sosial, google 6 Komunikasi politik Pesan kampanye, press release, pidato kandidat, berita politik, pernyataan politisi, suara rakyat, tuntutan demonstran, visi-misi Media berita, website partai, akun media sosial partai & kandidat, kolom komentar berita, platform partai-kandidat, hasil survei pertanyaan terbuka 7 Komunikasi internasional Pernyataan kepala negara, pemberitaan media, press release Media massa, website lembaga, akun media sosial

Pada umumnya data dapat tersaji secara terstruktur, semi-terstruktur, tidak terstruktur sama sekali. Data yang tidak terstruktur ini tidak memiliki format yang biasanya kita jumpai pada pesan di media sosial, komentar/review sebuah produk atau jasa, video di Tiktok, atau gambar di Instagram. Agar data dapat dianalisis teks harus terlebih dahulu disusun sesuai rapi sesuai dengan prinsip data rapi (tidy text). Data yang rapi adalah cara standar untuk memetakan makna kumpulan data ke dalam strukturnya. Kumpulan data berantakan atau rapi bergantung pada bagaimana baris, kolom, dan tabel dicocokkan dengan observasi, variabel, dan tipe. Format teks yang “rapi” didefinisikan sebagai bingkai data per token per baris. Struktur satu token per baris ini berbeda dengan cara teks sering disimpan dalam analisis saat ini, mungkin sebagai string atau dalam document-term matrix. Untuk analisis teks yang rapi, token yang disimpan di setiap baris paling sering berupa satu kata, tetapi bisa juga berupa n-gram, kalimat, atau paragraf. Dalam data yang rapi setiap variabel adalah kolom; setiap kolom adalah variabel., di mana: - Tiap kolom mewakili satu variabel - Tiap baris mewakili satu hasil observasi - Setiap jenis unit pengamatan berupa satu tabel Untuk lebih jelasnya dapat dilihat pada tabel di bawha ini:

Teknik pengumpulan data: - Teknik sample - Masalah apa yang akan dipecahkan, atau pertanyaan penelitian yang perlu dijawab; kemudian data apa yang diperlukan untuk menjawab pertanyaan tersebut, berapa banyak kuantitas data yang dianggap representatif untuk dianalisis, teknik analisis apa yang akan digunakan

Referensi - https://vita.had.co.nz/papers/tidy-data.html - https://bookdown.org/Maxine/tidy-text-mining/

3.1 Chapters and sub-chapters

There are two steps to cross-reference any heading:

Label the heading: # Hello world {#nice-label}.
- Leave the label off if you like the automated heading generated based on your heading title: for example, # Hello world = # Hello world {#hello-world}.
- To label an un-numbered heading, use: # Hello world {-#nice-label} or {# Hello world .unnumbered}.
Next, reference the labeled heading anywhere in the text using \@ref(nice-label); for example, please see Chapter ??.
- If you prefer text as the link instead of a numbered reference use: any text you want can go here.

3.2 Captioned figures and tables

Figures and tables with captions can also be cross-referenced from elsewhere in your book using \@ref(fig:chunk-label) and \@ref(tab:chunk-label), respectively.

See Figure 3.1.

par(mar = c(4, 4, .1, .1))
plot(pressure, type = 'b', pch = 19)

Plot with connected points showing that vapor pressure of mercury increases exponentially as temperature increases.

Figure 3.1: Here is a nice figure!

Don’t miss Table 3.1.

knitr::kable(
  head(pressure, 10), caption = 'Here is a nice table!',
  booktabs = TRUE
)

Table 3.1: Here is a nice table!
temperature	pressure
0	0.0002
20	0.0012
40	0.0060
60	0.0300
80	0.0900
100	0.2700
120	0.7500
140	1.8500
160	4.2000
180	8.8000

2 Teknik Analisis Teks

4 Mengenal R