前言

解決問題是學習資料分析的原動力…

簡介與目錄

本書簡介運輸資料分析之方法,並透過實務應用瞭解運輸資料的特性、分析原理,以及 R 語言各套件與函式的功能。共分為六大章節。前三章節為 R 語言的資料探勘基礎,系統性地介紹資料分析的常用套件與函式,分節說明:R 語言基礎語法、資料清洗與處理、資料視覺化。後三章節以運輸資料為主軸,應用前三章節所介紹的函式分析資料,分節包含:基本資料統計、地理分析、進階應用。全書先系統性地介紹資料分析必學基礎,後藉由零散的個案分析,提供較全面的實際資料操作,期能擴充 R 語言使用者對於此一領域的熟悉程度。

表 0.1: 本書目錄
主題 章節
資料分析基礎 Chapter 1 R 語言基礎語法
Chapter 2 資料清洗與處理
Chapter 3 資料視覺化
運輸資料分析 Chapter 4 基本資料統計
Chapter 5 地理分析
Chapter 6 進階應用

資料分析心法

數據分析是社會科學中重要的研究方法與課題,運輸領域亦不例外,而拜科技所賜,我們所能蒐集、儲存的數據量愈加龐大,所能剖析的面相愈多元,也更能夠瞭解資料背後的意義。數據資料處理是一門基本功,在深入分析、建構模型之前,必須透徹瞭解資料性質,並依此整理資料、繪製圖表,以觀察數據的整體趨勢,進而推敲可能的現象,並透過資料科學的手段模擬、驗證起初的假設。因此資料處理是最入門的學問,如何認識資料有效率地處理資料,並形塑為預期的格式,係本書的重點。本書旨在探討資料分析中的「資料處理」環節,羅列初學者必須理解的程式撰寫方法與技巧,並非著墨於資料科學的模型及理論!

數據分析的概念如圖0.1所示,最原始的資料(Data)通常是提供個體或雜亂無章的紀錄,必須透過資料處理轉換為有意義的資訊,可能以表或圖呈現之,有利於初步觀察與判斷潛在的趨勢。最後經過模型建構驗證假設,並以自身的專業所學(Domain Knowledge)或經驗剖析結果,最後產出具有政策意涵與引導決策執行的結論。

數據分析概念

圖 0.1: 數據分析概念

在數據分析的學習過程中,起初往往會四處碰壁而無方向,此時必須保握一個最基本原則:「學習資料分析是為了解決專業所學問題」,而非強調程式撰寫的執行效率、簡潔度。在社會科學領域中更傾向強調資料分析的實用性,以及所推衍的意涵,而非分析的過程。因此在初學階段,建議可以透過大量複製的方式,模仿他人的程式碼,並修改成適用於自身問題的程式碼,如是可快速瞭解各套件與函式的應用。隨後邁入快速提升期,將能享受大幅度的增長,並可將累積的經驗應用於各個自身專業場域,此時亦能更清楚瞭解撰寫程式在社會科學領域中的核心精神。綜觀上述,建議初學者在學習程式時必須以「解決問題」為原動力,而非漫無目的學習程式語言,卻不清楚學習的應用場域,如是尚能更快速應對自身所學、所面臨到的課題。

學習曲線

圖 0.2: 學習曲線

安裝套件

本書各分析所需使用的主要套件與其功能彙整如表0.2,請先行安裝。

# 安裝dplyr、data.table、ggplot2、sf、devtools套件
install.packages(c("dplyr", "tidyr", "data.table", "lubridate", "ggplot2", "sf", "devtools"))

# 另自GitHub下載TDX與TWspdata套件
devtools::install_github("ChiaJung-Yeh/NYCU_TDX")
devtools::install_github("ChiaJung-Yeh/TWspdata")

# 載入套件
library(dplyr)
library(tidyr)
library(data.table)
library(lubridate)
library(ggplot2)
library(sf)
library(TDX)
library(TWspdata)
表 0.2: 使用套件之功能
套件 功能
dplyr 數據分析
tidyr 數據分析
data.table 數據分析(尤其更大量的數據)
lubridate 時間處理
ggplot2 繪圖
sf 地理分析
TDX 介接臺灣運輸資料
TWspdata 臺灣相關資料

其中 TDX 套件整合了各運輸資料與社會經濟資料串接方式,僅須透過一函式指令即可下載指定的資料,以省去資料分析時介接之不便,提升分析效率。使用 TDX 套件的大部分函式皆須一組金鑰(access token),其取得方式如下,請注意程式碼中 CLIENT_ID 與 CLIENT_SECRET 請自 TDX 平臺註冊會員並申請。

client_id=CLIENT_ID
client_secret=CLIENT_SECRET
access_token=get_token(client_id, client_secret)

在得到金鑰(access_token)後,可輸入在 TDX 套件的函式中,以正確取得指定的資料。

其他關於 TDX 註冊、申請方式,以及所有函式功能與使用方法,請參見 TDX 運輸資料介接指南


其他參考資料

以下網站陳列其他教材與參考資料:

  1. R Preliminary
  2. Spatial Analysis with R
  3. 地理資訊系統與空間運算:R軟體應用