Chapter 2 Data Import

2.1 Data analysis procedure

2.2 Import data

資料

五大銀行存放款利率歷史月資料

library(readr)
InterestRateData <- read_csv("~/Downloads/055a590b486e9cb276858e1c52ac6430_export.csv")

2.3 Examine data

內容
資料集描述 五大銀行:90年1月~97年10月為臺銀、彰銀、合庫、一銀、華銀;97年11月後,調整為臺銀、土銀、合庫、一銀、華銀。
主要欄位說明 銀行、年月、活期存款-固定、活期存款-機動、活儲存款-固定、活儲存款-機動、定存利率-一個月-固定、定存利率-一個月-機動、定存利率-三個月-固定、定存利率-三個月-機動、定存利率-六個月-固定、定存利率-六個月-機動、定存利率-九個月-固定、定存利率-九個月-機動、定存利率-一年期-固定、定存利率-一年期-機動、定存利率-二年期-固定、定存利率-二年期-機動、定存利率-三年期-固定、定存利率-三年期-機動、定儲利率-一年期-固定、定儲利率-一年期-機動、定儲利率-二年期-固定、定儲利率-二年期-機動、定儲利率-三年期-固定、定儲利率-三年期-機動、指數房貸-固定、指數房貸-機動、房貸月指-固定、房貸月指-機動、基準利率-固定、基準利率-機動

選擇變數:銀行,年月,定存利率-一個月-固定,定存利率-二年期-固定,定存利率-三年期-固定

library(dplyr)
subsetData <- InterestRateData %>%
  select(銀行,
           年月,
           `定存利率-一個月-固定`,
           `定存利率-二年期-固定`,
           `定存利率-三年期-固定`)

變數名稱有特殊符號時(如這裡的減號-), 可用`變數名稱`將名稱括起來

選出臺灣銀行

subsetDataTWbank <- subsetData %>%
  filter(銀行=="臺灣銀行")

Time: frequency and span

參考資料:http://biostat.mc.vanderbilt.edu/wiki/pub/Main/ColeBeck/datestimes.pdf

時間序列資料要留意季節性,即會重覆出現的時間標記,如:11月、第二季等——它們每年都會出現。

時間起迄

subsetDataTWbank$年月 #檢查'年月'變數有多少可能值

資料從民國90年1月到民國107年8月

subsetDataTWbank$西元年月<-seq(as.Date("2001/01/01"),as.Date("2018/08/01"),"months") 
subsetDataTWbank$西元年月<-seq(as.Date("2001/01/01"),as.Date("2018/08/01"),by="1 month") 

可用“weeks”,“quarters”來產生週、季資料。

可用by=“1 day”, by=“7 days”, by=“1 month”, by=“3 months”等來產生各種資料頻率。

Unit of account

  1. 銀行利率單位是什麼?

Variable class

Number

  • Integer: is.integer() / as.integer()

    • Numeric: is.numeric() / as.numeric()

String

  • Factor (default: unordered): is.factor() / as.factor()

    • Ordered Factor: is.ordered() / as.ordered()

Dates and times

Clean up class

Package: dplyr

subsetDataTWbank[,c(3,4,5)] %>% 
  mutate_all(as.numeric) -> 
  subsetDataTWbank[,c(3,4,5)]
write.csv(subsetDataTWbank,file="data/subsetDataTWbank.csv")

2.4 Pipe(串接)

參考資料:

%>%: Allow you to take out the first argument in a function

Old way

f(x,other arguments) -> y
g(y,other arguments) -> z

New way

x %>% f(other arguments) -> y
y %>% g(other arguments) -> z

EVEN BETTER

x %>% f(other arguments) %>% g(other arguments) -> z

任務:

  • 從InterestRateData選出所要變數,

    • 再把選出屬於臺灣銀行的資料

Old way

library(dplyr)
select(InterestRateData,
       銀行,
         年月,
         `定存利率-一個月-固定`,
         `定存利率-二年期-固定`,
         `定存利率-三年期-固定`) -> subsetData

filter(subsetData,銀行=="臺灣銀行") -> subsetDataTWbank

New way:

InterestRateData %>%
select(
       銀行,
         年月,
         `定存利率-一個月-固定`,
         `定存利率-二年期-固定`,
         `定存利率-三年期-固定`) %>%
filter(銀行=="臺灣銀行") -> subsetDataTWbank