Chapter 2 Data Import
2.2 Import data
資料
library(readr)
InterestRateData <- read_csv("~/Downloads/055a590b486e9cb276858e1c52ac6430_export.csv")
2.3 Examine data
內容 | |
---|---|
資料集描述 | 五大銀行:90年1月~97年10月為臺銀、彰銀、合庫、一銀、華銀;97年11月後,調整為臺銀、土銀、合庫、一銀、華銀。 |
主要欄位說明 | 銀行、年月、活期存款-固定、活期存款-機動、活儲存款-固定、活儲存款-機動、定存利率-一個月-固定、定存利率-一個月-機動、定存利率-三個月-固定、定存利率-三個月-機動、定存利率-六個月-固定、定存利率-六個月-機動、定存利率-九個月-固定、定存利率-九個月-機動、定存利率-一年期-固定、定存利率-一年期-機動、定存利率-二年期-固定、定存利率-二年期-機動、定存利率-三年期-固定、定存利率-三年期-機動、定儲利率-一年期-固定、定儲利率-一年期-機動、定儲利率-二年期-固定、定儲利率-二年期-機動、定儲利率-三年期-固定、定儲利率-三年期-機動、指數房貸-固定、指數房貸-機動、房貸月指-固定、房貸月指-機動、基準利率-固定、基準利率-機動 |
選擇變數:銀行,年月,定存利率-一個月-固定,定存利率-二年期-固定,定存利率-三年期-固定
library(dplyr)
subsetData <- InterestRateData %>%
select(銀行,
年月,
`定存利率-一個月-固定`,
`定存利率-二年期-固定`,
`定存利率-三年期-固定`)
變數名稱有特殊符號時(如這裡的減號-
), 可用`變數名稱`
將名稱括起來
選出臺灣銀行
subsetDataTWbank <- subsetData %>%
filter(銀行=="臺灣銀行")
Time: frequency and span
參考資料:http://biostat.mc.vanderbilt.edu/wiki/pub/Main/ColeBeck/datestimes.pdf
時間序列資料要留意季節性,即會重覆出現的時間標記,如:11月、第二季等——它們每年都會出現。
時間起迄
subsetDataTWbank$年月 #檢查'年月'變數有多少可能值
資料從民國90年1月到民國107年8月
subsetDataTWbank$西元年月<-seq(as.Date("2001/01/01"),as.Date("2018/08/01"),"months")
subsetDataTWbank$西元年月<-seq(as.Date("2001/01/01"),as.Date("2018/08/01"),by="1 month")
可用“weeks”,“quarters”來產生週、季資料。
可用by=“1 day”, by=“7 days”, by=“1 month”, by=“3 months”等來產生各種資料頻率。
Unit of account
- 銀行利率單位是什麼?
Variable class
Number
Integer:
is.integer()
/as.integer()
- Numeric:
is.numeric()
/as.numeric()
- Numeric:
String
Factor (default: unordered):
is.factor()
/as.factor()
- Ordered Factor:
is.ordered()
/as.ordered()
- Ordered Factor:
Dates and times
Clean up class
Package: dplyr
subsetDataTWbank[,c(3,4,5)] %>%
mutate_all(as.numeric) ->
subsetDataTWbank[,c(3,4,5)]
write.csv(subsetDataTWbank,file="data/subsetDataTWbank.csv")
2.4 Pipe(串接)
參考資料:
%>%
: Allow you to take out the first argument in a function
Old way
f(x,other arguments) -> y
g(y,other arguments) -> z
New way
x %>% f(other arguments) -> y
y %>% g(other arguments) -> z
EVEN BETTER
x %>% f(other arguments) %>% g(other arguments) -> z
任務:
從InterestRateData選出所要變數,
- 再把選出屬於臺灣銀行的資料
Old way
library(dplyr)
select(InterestRateData,
銀行,
年月,
`定存利率-一個月-固定`,
`定存利率-二年期-固定`,
`定存利率-三年期-固定`) -> subsetData
filter(subsetData,銀行=="臺灣銀行") -> subsetDataTWbank
New way:
InterestRateData %>%
select(
銀行,
年月,
`定存利率-一個月-固定`,
`定存利率-二年期-固定`,
`定存利率-三年期-固定`) %>%
filter(銀行=="臺灣銀行") -> subsetDataTWbank