Chapter 1 關於這本書

這本書企圖結合傳統統計分析、近代數據分析與電腦輔助統計計算。

1.1 有限時間、有效作為

現代人誰不手機不離身呢?一天二十四小時,想要追的這麼多,有限時間、有效作為越來越重要,根據本書作者的觀察,越來越多人需要學習這一項生活技巧,或者說是學習技巧。

如果您是一位大學生,一位想贏在起跑點的大學生,那面對這麼多生命中的第一次、這麼多必選修的學分、這麼多無法躲避的課業、這麼多每週新增的進度、甚至是這麼多重補修的學分,正是學習有限時間、有效作為的好時機。可能有什麼樣的有限時間、有效作為的學習技巧呢?這是一道難題!或許不同專業有不一樣的答案!

身為統計學家的本書作者,到底怎麼看有限時間、有效作為呢?少量手算、大量電算,就是其中一個答案。少量手算、大量電算這八個字的意思是

數據少量時考慮手算、數據大量時只能電算

上一個世紀,數據幾乎都來自抽樣調查這一門學問指導下的產物,基於時間與經費,無法大量收集數據是現實。但即便如此,在某大學某一個班的期初調查,企圖知悉學生的背景以及選課理由,就會有85位學生乘以26道問卷題目這麼多筆資訊,還好該份問卷並未設計複選題,要不然資訊筆數就更多了!透過這一項問卷調查得到的資訊,它們可能是文字的、可能是數字的,面對這麼少的數據,有誰想要手算呢?發動這一項調查的某教授不只要答案,還要保證答案是正確的!加上,現實裡這一位教授可不會只要一個答案啊!怎麼辦呢?

學習電算

上一個世紀因為電腦軟硬體持續進步,統計電腦軟體,也就是數據分析軟體百花怒放、百花爭艷,大學當然也就順勢開出各種數據分析軟體的必選修課程。拖拉點選是這一類學習情境的暱稱。但是,今天學的拖拉點選,明天會不會拖不到、拉不到、點不到、選不到呢?

這一本書企圖進化拖拉點選式的電算。讓讀者諸君在這裡學到的任何一筆一劃的參考程式碼,未來都會是解決職場電算問題的參考程式碼。除此之外,本書作者也將傳授各式各樣數據研究方法論,讓讀者諸君可以自由自在挖掘數據的內涵。哪一種程式碼辦得到呢?答案是

R

它是二十世紀結束前,兩位名字第一個英文字都是R的紐西蘭教授新創的統計計算語言。既然是統計計算語言,當然可以協助分析數據。根據本書作者所知,R是目前二十一世紀唯一專為統計計算設計的電腦語言。除了R官方的學者專家,還有成群結隊來自地球各角落的學者專家為各種統計動作撰寫程式套件,不是透過官方管道就是透過私人管道公開給全球各角落的你我免費使用。比起免費,更贊的是

越來越多人加入發展社群,免費的套件越來越多!也讓世間出現了R世代。

在這一頁https://cran.r-project.org/web/packages/,可以發現到目前為止(2023/04/25)至少有19408個透過R官方發行的程式套件。或許有人會懷疑真的有人下載這些免費套件嗎?有興趣的讀者,可以前進

https://gallery.shinyapps.io/087-crandash/

看熱鬧,感受一下。

1.2 數據分析到底在學什麼?

如果是一次性的問題,比如說,大學畢業論文、碩士論文、博士論文、政府委託研究案,限於經費與時效,這時候,臨時人力編組準備好,數據準備好、拖拉點選造著走,報表準備好,零零總總,最後結案報告準備好,事情就結束了。

這樣的數據分析絕對有時間限制,但是沒有享味期,不會經常被更新、不會按時被更新,除非有絕對的必要!

如果是例行性的問題,比如說,生產線的現況報表、生產品的品質報表、股匯市的表現報表、某區域的空汙報表、某區域的氣象報表,這時候,專業團隊一定要根據預先設計好的行程表,數據準備好、電腦程式準備好,或是數據準備好、拖拉點選準備好,時間一到,報表一出,專人或是部分團隊成員一一解讀報表,然後再擬定各式各樣的因應對策。比如說,停機等待維修、停機調整設定;也可能及時、即時增加樣本數再一次確認產品品質是否離線?

這樣的數據分析一樣有時間限制,絕對有享味期,一定經常被更新、一定按時被更新。這時候,報表的時間標籤,報表過多久失效,絕對要跟著報表走。

本書作者認為在二十一世紀的現在,數據分析相關課程,其實是學習有限時間、有效作為的最佳時機;也是把手算轉出電算的訓練實習場域。建議讀者諸君自行設定某種高度的學習分水嶺,勉勵自我登上峰頂。本書作者將盡最大的努力整併多年的統計數據分析教學經驗與R程式撰寫經驗,幫助各位讀者諸君順利登頂。

1.3 PPDAC

數據分析是有跡可循的。

雖然無法像數學公式那麼清晰可見,但相關的學者專家經過超過一百年來來回回的討論與論述,終於定調了:

PPDAC

第一個英文字P,是Problem的去尾縮寫、第二個英文字P,是Plan的去尾縮寫、第三個英文字D,是Data的去尾縮寫、第四個英文字A,是Analysis的去尾縮寫、第五個英文字C,是Conclusion的去尾縮寫。

每一次數據分析,先清楚定義問題(P);接下來,根據問題的定義,擬定作戰計畫(P);取得數據(D)之後;才進入分析(A)階段,分析結束,產出報表之後;進入最後下結論訂定策略(C)的收尾階段。

1.4 PPDAC2

有了

PPDAC

那什麼是

PPDAC2

其實這是本書作者開始在課堂上引用PPDAC訓練學生之後,再加上執掌大數據中心實作諸多數據分析案例之後的建議流程:

PPDACC

第六個英文字C,是Communication的去尾縮寫。整個數據分析的生命週期在前四個階段(PPDA)是一樣的。在第五個階段,數據分析團隊進入下結論(C)的收尾階段;這時候可能需要分析各種可能結論(C)的優缺點,並且準備好圖文並茂的結論報告書,然後部份團隊成員會進入最後溝通與交流(C)的階段。為什麼呢?因為

如果面對的是某種跨機構的數據分析研究,那訂定策略可能不是數據分析團隊的責任,這時候如何有效率地傳遞(C)分析報表與結論就變成是一項壓軸的好戲。

為了提升傳遞數據分析成果的效率,透過網際網路進行即時與非即時的溝通,已經是這一個世紀的生活日常了,雖然絕大部分的報表只能在私人網路裡流通。在這本書,本書作者將介紹一項名為Shiny app的技術,讓讀者諸君可以自由自在、自主地在網路上布局數據分析成果。

1.5 PPDAC二部曲

為了有效提升電算的戰力,本書作者的程式日常其實也是一種

PPDAC

第一個英文字P,是Problem的去尾縮寫、第二個英文字P,是Plan的去尾縮寫、第三個英文字D,是Design的去尾縮寫、第四個英文字A,是Analysis的去尾縮寫、第五個英文字C,是Conclusion的去尾縮寫。

這時候,第三個階段,是設計(D)電算演算法的階段;第四個階段,會是分析(A)參考程式碼的階段。為什麼呢?

先來一段置入式行銷:

武漢肺炎直驅台灣本島的前兩週,實際上也是學校延後開學的那兩週,本書作者毅然決然自行開發全部用R套件shiny以及相關支援套件撰寫的線上教室,企圖實踐零用紙的理念,藉此企圖降低師生之間、同學之間,因為繳交紙本學習成果傳遞疫情的風險。

線上教室是一個系統,不是一支單一功能的程式,而是許許多多支功能各異的程式一起運作的電腦軟體系統。發展時間只有短短兩週。讀者諸君可能會認為本書作者在唬爛!一定是私下商請某資訊公司趕工撰寫的,再怎麼說,本書作者的本業是統計又不是資訊

嚴格說起來,線上教室是一次整合工程後的成果。

本書作者在2020年初延後開學那兩週,可以上線線上教室第一版,主要是因為在那之前已經零零總總跟助理們發展了諸多輔助教學的Shiny app。武漢肺炎加速了整合的力道,讓本書作者自行組裝了第一版的線上教室。也同時結交了一位網路好友:

https://stackoverflow.com/

只要本書作者有任何演算法的問題、任何R語言的問題、任何數據分析的問題,上網搜尋結果只要看到這一家公司有答案,本書作者一定豪不猶豫點開來看。這時候,就是本書作者練習第二版

PPDAC

的時候。就這樣,本書作者在沒有助理的協助下,也能在短短兩週內上線一套不算太蹩腳,可以輔助個人統計相關課程的網路教學系統。

在第一版線上教室上線之後,線上教室持續改進了許多次,只要是新學期開始,本書作者就會上線新版的線上教室,跟中央疫情指揮中心一樣,走過了1197天。指揮中心下線了,但是線上教室沒有下線的意思,依舊持續精進中、依舊持續維護中、依舊持續捍衛中:

捍衛著本書作者的教學理念。

也就是說,經過前述PPDA等等四個階段之後,本書作者在第五個階段,下結論(C)的收尾階段成就了某一版線上教室的某一種功能。在許許多多次的PPDAC週期之後,整合成功,完成了每一學期的新版線上教室