1 前言

1.1 R語言是什麼

R語言是一個開源(open-source)的程式語言,是用來做資料探勘、統計分析與繪圖的工具。R語言是1990年代初期,奧克蘭大學統計學教授Ross Ihaka與Robert Gentleman共同開發的,在歷經了近三十年的演變後,現在由R核心團隊成員共同維護。

1.2 為什麼要使用R語言

除了R語言之外,常見的統計分析軟體還包括了SPSS、SAS、Stata、Minitab等,甚至Microsoft office裡的Excel試算表也都可以用來做簡單的統計分析和繪圖。那麼,究竟在這麼多軟體下,R語言有什麼優勢,讓很多人選擇它呢?

R語言最大的優勢在於,它是跨平台的免費軟體,而且擁有豐富的資源。

無論是SPSS、SAS或其他商業軟體,都需要付費,且費用並不便宜,以學術界常用的SPSS為例,訂價為每個使用者每個月99美金。對個人使用者而言,無疑是一筆不小的支出。而R卻是開源軟體,在Windows、Mac、Linux系統上皆可安裝,對於個人使用者十分友善。

再者,R語言有十分活躍且龐大的社群支援,來自全球各地使用者都可以發布R語言的套件(packages),提供程式碼供他人使用。也因此,R語言在統計方法上的支援十分廣泛。

除此之外,R也比一些統計軟體如SPSS更適合處理大量的資料,透過程式碼來進行資料的合併和整理等,無需依賴人工手動去處理資料。因此,面對較大量的資料時,也可以利用程式來處理,節省下大量的時間成本。

1.3 R語言在學習與使用上的挑戰

雖然R語言有很多優勢,但初學者在學習R語言時,還是會面臨一些挑戰。

相較於上手十分容易的SPSS,R語言卻需要透過程式來操作,因此不若SPSS容易上手。然而,雖然R語言需要一些時間上手,但其程式語言本身並不複雜,因此初學者也不需要太擔心。

另一個使用者會面對的挑戰是,R語言雖然有很多的免費的套件資源可以使用,但正因為所有人都可以自由地發布套件,因此使用者也會面臨套件選擇的問題。一些較小型的套件,甚至會面臨作者在開發完後不再維護的問題。因此會建議儘量選用較多人使用、發展較久且持續有在維護的套件,其正確性和穩定性都會較高。

儘管如此,R語言仍然是在資料分析上十分受歡迎的軟體。業界在徵才時,R語言也是資料分析相關職缺很重要的技能,其需求甚至還高過SPSS,有興趣的讀者不妨上求職網站查查。