2020年9月8日
目標:Rの便利なツールを概観する.
データサイエンス研究会(Twitter:@desaikenkyukai
)オンライン講演会のお知らせ.
タイトル:データサイエンス分野での学生起業
講師:井本望夢 氏
滋賀大学データサイエンス学部在学.
データ分析のスタートアップ企業,合同会社「mitei」を起業.
日時:9月24日(木)16:00 ~ 18:00
(https://www.nikkei.com/article/DGXMZO63350260S0A900C2LKA000/)
なお、上記は最低15人が利用している言語の平均年収である。この人数制限を設けなければ、平均年収が最も高いプログラミング言語は「R」だった。その額は907.1万円に達する。2位は「アセンブリ言語」(875.0万円)、3位は「FORTRAN」(716.7万円)だった。 RやFORTRANは統計解析や科学技術計算によく利用される。メジャーな言語とは言えないが、データ分析や数値解析のスペシャリストは、高い報酬を得ていることがうかがえる。
(日経電子版)
回帰分析.
import pandas as pd
import statsmodels.api as sm
df1 = pd.read_csv("hogehoge.csv")
df1['intercept'] = 1
reg1 = sm.OLS(endog=df1['Y'], exog=df1[['intercept', 'X1', 'X2']], missing='drop')
results = reg1.fit()
print(results.summary())
import delimited "/Users/.../hogehoge.csv"
reg Y X1 X2, robust
言語 | 前処理 | 計量分析 | 機械学習 | 汎用性 | 費用 | 教材の豊富さ |
---|---|---|---|---|---|---|
R | ◎ | ◯ | ◯ | △ | ◎ | ◎ |
Python | ◯ | △ | ◎ | ◎ | ◎ | ◎ |
Stata | △ | ◎ | △ | × | × | △ |
Which programming language is the best for Economics? The following article looks at #Matlab, #R, #Python and #JuliaLang (Hint: it's the last one in the list)#EconTwitter https://t.co/pNAA6I6Rvb
— Arie Beresteanu (@RunnerVgn) August 30, 2020
Rはコミュニティが充実している.
エラーになってどうしたらいいかわからない場合に,プラットフォームで質問するときは,Minimal Reproducible Exampleを提示するのがマナー(minimal working exampleとも呼ぶ).
Minimal reproducible exampleとは:
ようにした自己完結なコードの例のこと.Minimal reproducible exampleと提示しないと,そもそも誰も答えてくれないことが多いし,自分自身も時間の無駄になることが多い.
悪い例
I tried to do regression with lm() function, but I got an error. What’s wrong? What should I do?
Can you provide a self-contained, minimal working example?
良い例
I tried to do regression with lm()
function, but I got an error, which says Error in eval(predvars, data, env) : object 'speed' not found
. I used the preset dataset, cars. And here’s the codes:
mydata <- cars
model <- lm(dist ~ speed)
You need to specify which data frame you’re using for lm() with its argument
data
. So, it should be something like:
mydata <- cars
model <- lm(dist ~ speed, data = mydata)
R Markdownはデータサイエンスのためのauthoring frameworkを提供する. 1つのR Markdownファイルで,
R Markdownは,プログラミングコードとナラティブ(文章による説明)の両方が同じドキュメントにあり,結果がソースコードから自動的に生成されるため,再現性(reproducibility)を確保できる設計になっている.
便利な拡張パッケージ.
Plotlyというパッケージで簡単にインタラクティブなグラフを作成できる.
library(plotly)
mydata <- read.csv("Vfirm_sample.csv")
mydata$gender <- ifelse(mydata$sex == 1, "女性", "男性")
mydata$lwage <- log(mydata$total_pay)
fig <- mydata %>%
plot_ly(
x = ~tenure,
y = ~lwage,
color = ~gender,
text = ~gender,
hoverinfo = "text",
opacity=0.5,
frame = ~year,
type = 'scatter',
mode = 'markers'
)
fig
mydata$job_type <- factor(mydata$job_type)
fig2 <- mydata %>%
plot_ly(
x = ~tenure,
y = ~lwage,
color = ~job_type,
text = ~job_type,
hoverinfo = "text",
opacity=0.5,
frame = ~year,
type = 'scatter',
mode = 'markers'
)
fig2
Rではいろいろなことができる.そして,教材も充実している.
“[I] work hard to be lazy.”
\(Q\)を単位努力量として,\(W\)を仕事量とすると,効率性\(\eta\)は次のように定義される.
\[ \eta = \frac{W}{Q}. \]
<-
をいつもどうやって入力していますか?Session
からRestart R
を押すとうまくいくことが多い.Rでは音楽もつくれます.
library("dplyr")
library("audio")
notes <- c(A = 0, B = 2, C = 3, D = 5, E = 7, F = 8, G = 10)
pitch <- "D D E D G F# D D E D A G D D D5 B G F# E C5 C5 B G A G"
duration <- c(rep(c(0.75, 0.25, 1, 1, 1, 2), 2),
0.75, 0.25, 1, 1, 1, 1, 1, 0.75, 0.25, 1, 1, 1, 2)
bday <- data_frame(pitch = strsplit(pitch, " ")[[1]],
duration = duration)
bday <-
bday %>%
mutate(octave = substring(pitch, nchar(pitch)) %>%
{suppressWarnings(as.numeric(.))} %>%
ifelse(is.na(.), 4, .),
note = notes[substr(pitch, 1, 1)],
note = note + grepl("#", pitch) -
grepl("b", pitch) + octave * 12 +
12 * (note < 3),
freq = 2 ^ ((note - 60) / 12) * 440)
tempo <- 120
sample_rate <- 44100
make_sine <- function(freq, duration) {
wave <- sin(seq(0, duration / tempo * 60, 1 / sample_rate) *
freq * 2 * pi)
fade <- seq(0, 1, 50 / sample_rate)
wave * c(fade, rep(1, length(wave) - 2 * length(fade)), rev(fade))
}
bday_wave <-
mapply(make_sine, bday$freq, bday$duration) %>%
do.call("c", .)
play(bday_wave)
(https://stackoverflow.com/questions/31782580/how-can-i-play-birthday-music-using-r)