1  การติดตั้งโปรแกรมและเตรียมความพร้อมสำหรับการสร้างภาพนิทัศน์

1.1 ความสำคัญของภาพนิทัศน์จากข้อมูล (The importance of data visualization)

Note

เพื่อการอ่านเป็นอย่างราบรื่น จะเรียกว่าภาพนิทัศน์ว่ากราฟ

การแสดงภาพข้อมูลมีความสำคัญมากเนื่องจากช่วยให้เรามองเห็นและเข้าใจรูปแบบต่างๆ เช่น แนวโน้ม หรือความสัมพันธ์ชินดต่างๆ ในข้อมูลที่อาจสังเกตุได้ข้อมูลที่เก็บอยู่ในรูปของตาราง ภาพของข้อมูลช่วยให้เรา มองเห็นภาพรวม ความสัมพันธ์ ตรวจจับความผิดปกติของข้อมูลบางตัว และแสดงข้อมูลเชิงลึกที่สามารถช่วยในการตัดสินใจได้สำหรับปัญหาต่างๆ โดยการแปลงข้อมูลเป็นการแสดงภาพ

ตัวอย่างเหตุผลที่ทำให้การแสดงภาพข้อมูลมีความสำคัญได้แก่:

  • การสื่อสารข้อมูลที่ซับซ้อน: การแสดงข้อมูลช่วยให้ข้อมูลที่ซับซ้อนง่ายขึ้นโดยการนำเสนอด้วยวิธีที่ชัดเจนและใช้งานง่าย สิ่งนี้ทำให้ผู้คนเข้าใจและตีความข้อมูลได้ง่ายขึ้น

  • การระบุรูปแบบและแนวโน้ม: การแสดงข้อมูลทำให้เราเห็นรูปแบบและแนวโน้มของข้อมูลที่อาจไม่ปรากฏทันทีจากข้อมูลในรูปของตาราง ภาพข้อมูลสามารถช่วยเราระบุความสัมพันธ์และความสัมพันธ์ที่สามารถแจ้งการตัดสินใจได้

  • การตรวจจับความผิดปกติและค่าผิดปกติ: การแสดงภาพข้อมูลสามารถช่วยเราระบุค่าผิดปกติและความผิดปกติในข้อมูลที่อาจบ่งบอกถึงข้อผิดพลาดหรือเหตุการณ์ที่ผิดปกติ ในบ้างช่วงเวลาได้

  • การสำรวจข้อมูล: การแสดงภาพข้อมูลสามารถใช้เพื่อสำรวจข้อมูลในลักษณะที่มีการโต้ตอบมากขึ้น ทำให้เราสามารถเจาะลึกลงไปในลักษณะเฉพาะของข้อมูลและดูจากมุมมองที่แตกต่างกันได้

  • การตัดสินใจ: การแสดงข้อมูลเป็นภาพสามารถช่วยเราตัดสินใจได้ดีขึ้นโดยการนำเสนอข้อมูลในลักษณะที่ง่ายต่อการเข้าใจและตีความ สิ่งนี้มีประโยชน์อย่างยิ่งในสาขาต่างๆ เช่น ธุรกิจ ซึ่งการตัดสินใจที่ขับเคลื่อนด้วยข้อมูลมีความสำคัญมากขึ้นเรื่อยๆ

ในภาพรวมแล้ว การแสดงข้อมูลเป็นภาพเป็นเครื่องมือที่จำเป็นสำหรับทุกคนที่ทำงานกับข้อมูล ไม่ว่าจะเป็นในสาขาวิทยาศาสตร์ ธุรกิจ เศรษฐศาสตร์ สังคมศาสตร์หรือสาขาอื่นๆ การทำให้มองเห็นและเข้าใจข้อมูลได้ง่ายขึ้น การแสดงภาพสามารถช่วยเราตัดสินใจได้ดีขึ้น

1.2 การติดตั้งภาษาอาร์ (R) และโปรแกรม RStudio

ภาษาอาร์เป็นภาษาคอมพิวเตอร์ (computer programming language) ที่ถูกสร้างขึ้นมาสำหรับการคำนวณในงานทางสถิติและกราฟิกที่ทุกคนสามารถใช้งานโดยไม่มีค่าใช้จ่าย ภาษาอาร์ได้รับการปรุบปรุงและพัฒนาอย่างต่อเนื่องโดย R Development Core Team

ภาษาอาร์มีชุดคำสั่งให้เลือกใช้มากมายตามประเภทของงานที่ทำ เช่นงานทางสถิติ งานสร้างกราฟิกจากข้อมูล และการใช้งานกันอย่างแพร่หลายในวงการวิชาการ การวิจัย และอุตสาหกรรมต่างๆ สำหรับการวิเคราะห์ข้อมูล (data analytics) การทำเหมืองข้อมูล (data mining) การเรียนรู้ของเครื่องจักร (machine learning) เป็นต้น ภาษาอาร์สามารถใช้งานได้ในระบบปฎิบัติการณ์ที่หลากหลาย เช่น WINDOWS OSX และ LINUX รวมถึงการทำงานแบบกลุ่มเมฆ (cloud computing)

RStudio เป็นโปรแกรม IDE (integrated development environment) ที่ช่วยให้การเขียนโปรแกรมด้วยภาษาอาร์ง่ายขึ้น และที่ได้รับความนิยม โดยมีอินเทอร์เฟซที่ใช้งานง่ายสำหรับการเขียนโปรแกรม การดำเนินการ และการตรวจหาข้อผิดพลาดของโค้ด และสามารถใช้งานได้ในระบบปฎิบัติการณ์ WINDOWS OSX และ LINUX มีทั้งรูปแบบการใช้งานโปรแกรมได้ฟรี และรูปแบบที่ต้องเสียเงินเพื่อให้ได้รับฟังก์ชันการทำงานที่เพิ่มขึ้น รวมการการทำงานแบบก้อนเมฆ

ในการติดตั้งโปรแกรมภาษาอาร์และโปรแกรม RStudio ให้ทำตามขั้นตอนดังนี้

1 ติดตั้งอาร์: ดาวน์โหลดและติดตั้งอาร์ได้จากเว็บไซต์ R Project (https://www.r-project.org/) และทำตามคำแนะนำสำหรับแต่ละระบบปฏิบัติการของในเครื่องคอมพิวเตอร์

https://www.r-project.org/
  1. ติดตั้ง RStudio: ดาวน์โหลดและติดตั้ง RStudio ได้จากเว็บไซต์ posit (https://posit.co/download/RStudio-desktop/) ทำตามคำแนะนำสำหรับแต่ละระบบปฏิบัติการ

https://posit.co/download/RStudio-desktop/
  1. เปิด RStudio: เมื่อคุณติดตั้ง RStudio แล้ว ให้เปิดจากโฟลเดอร์ Applications (OSX) หรือเมนู Start (WINDOWS)

  2. สำรวจอินเทอร์เฟซ: อินเทอร์เฟซ RStudio ประกอบด้วยพาเนลหลายพาเนล รวมถึงซอร์สเอดิเตอร์ คอนโซล สภาพแวดล้อม และไฟล์ ใช้เวลาในการสำรวจอินเทอร์เฟซและทำความคุ้นเคยกับพาเนลต่างๆ

หน้าต่างการทำงานของ RStudio

1.3 การปรับแต่งโปรแกรม RStudio เบื้องต้น

การเลือกใช้ชุดแบบอักษร (font) และธีม (theme) ต่างๆ

1) เลือก Tools 2) เลือก Global Options

ขั้นตอน 3-7
ชุดแบบอักษรที่ผู้เขียนแนะนำ สำหรับการเขียนโปรแกรมด้วยภาษาอาร์

ชุดแบบอักษร Fira Code สามารถดาวโหลดมาติดตั้งได้จาก https://github.com/tonsky/FiraCode

1.4 การลงชุดคำสั่งนอกเหนือจากที่ภาษาอาร์มีให้

โดยปกติแล้วมีชุดคำสั่งอีกมากมายที่ไม่ได้ติดตั้งมากับการลงโปรแกรมอาร์ครั้งแรก เช่นชุดคำสั่ง dplyr ggplot2 tidyverse หรือ quantmod ฯลฯ ผู้ใช้งานจำเป็นต้องติดตั้งเพิ่มเติมเอง เพื่อเรียกใช้ชุดคำสั่งเหล่านี้ต่อไป ซึ่งทำได้ 2 วิธี

วิธีที่ 1 ใช้การพิมพ์คำสั่งใน หน้าต่าง console ด้วยคำสั่ง install.packages( )

install.packages("ชื่อชุดคำสั่งที่ต้องการ")

เช่นถ้าต้องการ ติดตั้งชุดคำสั่ง tidyverse สามารถทำได้โดย

install.packages("tidyverse")

วิธีที่ 2 เลือกจากเมนูใน RStudio

เลือก เมนู Tools แล้วกดที่ Install Packages

พิมพ์ชื่อชุดคำสั่งที่ต้องการ และเลือก Install

หมายเหตุ เครื่องคอมพิวเตอร์จะต้องทำการเชื่อมต่อกับอินเตอร์ก่อนจึงสามารถติดตั้งชุดคำสั่งที่ต้องการได้

Tip

ในกรณีที่ต้องต้องการติดตั้งชุดคำสั่งหลายๆ ชุดพร้อมกัน ควรใช้การพิมพ์คำสั่งมากกว่าการเลือกจากเมนู เช่น

install.packages(c("ggplot2", "quantmod", "tinytex", "dplyr"))

c( ) คือคำสั่งสำหรับการสร้างเวคเตอร์

1.5 การเรียกใช้ชุดคำสั่งที่ติดตั้งแล้ว

ในการใช้คำสั่ง ฟังก์ชัน หรือข้อมูลจากชุดคำสั่งที่ติดตั้งจากภายนอก เช่น คำสั่ง mutate( ) จากชุดคำสั่ง dplyr จะต้องเรียกใช้ชุดคำสั่ง dplyr เสียก่อน จึงจะสามารถใช้คำสั่ง mutate( ) ได้ โดยใช้คำสั่ง

library("ชื่อชุดคำสั่งที่ต้องการ")
# หรือไม่ใส่เครื่องหมาย " " ก็ได้
library(ชื่อชุดคำสั่งที่ต้องการ)

ตัวอย่าง ผลของการใช้คำสั่ง mutate( ) โดยไม่ได้มีเรียกใช้ชุดคำสั่ง dplyr ก่อนจะได้รับลัพธ์ดังนี้

Data <- cars |> 
        mutate(km_per_hour = 1.609344*speed)
str(Data)

Error in mutate(cars, km_per_hour = 1.609344 * speed): could not find function \("\)mutate$“$

เมื่อมีการเรียกใช้ชุดคำสั่งแล้ว จะได้ผลลัพธ์ ดังนี้

library(dplyr)
Data <- cars |> 
        mutate(km_per_hour = 1.609344*speed)
str(Data)
'data.frame':   50 obs. of  3 variables:
 $ speed      : num  4 4 7 7 8 9 10 10 10 11 ...
 $ dist       : num  2 10 4 22 16 10 18 26 34 17 ...
 $ km_per_hour: num  6.44 6.44 11.27 11.27 12.87 ...

สำหรับการใช้งานขั้นสูงหรือสำหรับผู้มีประสบการณ์มาก ในกรณีที่ต้องการใช้คำสั่งเพียงหนึ่งคำสั่ง หรือ สองคำสั่งก็อาจจะไม่จำเป็นต้องเรียกใช้ชุดคำสั่งทั้งหมด ด้วยคำสั่ง library( ) ก็ได้ โดยใช้วิธี

<ชื่อชุดคำสั่ง>::<คำสั่งที่ต้องการจะใช้>

เช่น

Data <- cars |> 
        dplyr::mutate(km_per_hour = 1.609344*speed)
str(Data)
'data.frame':   50 obs. of  3 variables:
 $ speed      : num  4 4 7 7 8 9 10 10 10 11 ...
 $ dist       : num  2 10 4 22 16 10 18 26 34 17 ...
 $ km_per_hour: num  6.44 6.44 11.27 11.27 12.87 ...
Important

คำแนะนำจากประสบการณ์ทำงานของผู้เขียน ก่อนเริ่มการทำงาน ควรจะต้องมีการเรียกใช้ชุดคำสั่งที่ติดตั้งจากภายนอกที่ต้องการใช้งานก่อนเสมอ เหมือนกับการเขียนโปรแกรมด้วยภาษาคอมพิวเตอร์อื่นๆ เช่น python

sessionInfo( )

คำสั่ง sessionInfo( ) ในอาร์ใช้สำหรับแสดงข้อมูลเกี่ยวกับเวอร์ชันของอาร์ ระบบปฎิบัติการณ์ของเครื่องคอมพิวเตอร์ ภาษาที่ใช้ เวลาที่ใช้ เวอร์ชันของชุดคำสั่งที่ถูกใช้งาน และข้อมูลอื่นๆ เกี่ยวกับสภาวะของระบบที่กำลังทำงานอยู่

sessionInfo( )
R version 4.3.3 (2024-02-29)
Platform: x86_64-apple-darwin20 (64-bit)
Running under: macOS Big Sur 11.7.10

Matrix products: default
BLAS:   /Library/Frameworks/R.framework/Versions/4.3-x86_64/Resources/lib/libRblas.0.dylib 
LAPACK: /Library/Frameworks/R.framework/Versions/4.3-x86_64/Resources/lib/libRlapack.dylib;  LAPACK version 3.11.0

locale:
[1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8

time zone: Asia/Bangkok
tzcode source: internal

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] dplyr_1.1.4

loaded via a namespace (and not attached):
 [1] digest_0.6.35     utf8_1.2.4        R6_2.5.1          fastmap_1.1.1    
 [5] tidyselect_1.2.1  xfun_0.43         magrittr_2.0.3    glue_1.7.0       
 [9] tibble_3.2.1      knitr_1.45        pkgconfig_2.0.3   htmltools_0.5.8  
[13] generics_0.1.3    rmarkdown_2.26    lifecycle_1.0.4   cli_3.6.2        
[17] fansi_1.0.6       vctrs_0.6.5       compiler_4.3.3    rstudioapi_0.16.0
[21] tools_4.3.3       pillar_1.9.0      evaluate_0.23     yaml_2.3.8       
[25] rlang_1.1.3       jsonlite_1.8.8    htmlwidgets_1.6.4