Chapter 2 Primi passi
Di seguito vengono riportate alcune informazioni su R e RStudio insieme alle istruzioni per installarli.
2.1 R
R (https://www.r-project.org/) è un software (o meglio un linguaggio di programmazione) gratuito finalizzato all’analisi statistica, alla rappresentazione dei dati e, più in generale, a problemi di data science.
R è disponibile per i principali sistemi operativi (Linux, Windows and MacOS).
All’inizio degli anni ’90 i professori Ross Ihaka e Robert Gentleman iniziarono a lavorare ad un linguaggio di programmazione per Mac da usare nei corsi universitari di statistica. Il progetto rimase segreto fino all’Agosto 1993 quando una versione utilizzabile di R apparve su StatLib. Nel 1995 i due professori resero disponibile il codice sotto forma di licenza libera. Nel 2000 infine la versione 1.0.0 di R venne rilasciata ad uso pubblico. Ad oggi è disponibile la versione 4.0.3 rilasciata il 10 Ottobre 2020. Per la storia completa di R visionare l’articolo disponibile qui (Thieme, N. (2018), R generation. Significance, 15: 14-19).
R è un progetto open source che dipende da una comunità mondiale di sviluppatori. Il codice sorgente di R e dei suoi pacchetti è disponibile sul CRAN (The Comprehensive R Archive Network), un network di web server dislocati nel mondo. Ad oggi (Ottobre 2021) il CRAN ospita circa 18319 pacchetti (library), collezioni di funzioni che estendono la versione base di R e che possono essere usate per analisi in ambito finanziario, epidemiologico, genetico, econometrico, ecc.. La lista completa dei pacchetti di R è disponibile al seguente link: https://cran.r-project.org/web/packages/available_packages_by_name.html.
La community di R è molto attiva (e.g. https://www.r-bloggers.com/). Se si ha un problema con un errore di R o si vuole implementare qualcosa di specifico conviene sempre fare prima una ricerca sul web. E’ infatti quasi sicuro che qualcuno abbia già implementato quello che ci serve e abbia pure condiviso il codice!
2.2 Perchè R?
- R vs Excel: non c’è discussione a proposito. Se volete usare R per le vostre analisi (non banali) dei dati, date un’occhiata qui e cambiate immediatemente idea, per favore!
- R vs Python: Python è un altro ottimo linguaggio di programmazione per problemi di data science. A mio parere Python è un linguaggio ad ampio spettro che può essere utilizzato per diversi tipi di applicazioni (e.g., data science, sviluppo di applicazioni web, gestione di database), mentre R è specificatamente nato per le applicazioni statistiche e la rappresentazione grafica dei dati. C’è un dibattito in corso tra R e Python (vedere ad esempio qui). Io credo che non sia necessario trovare un vincitore; R e Python sono due ottimi linguaggio che hanno obiettivi diversi (e che all’occorrenza possono essere usare insieme).
2.3 RStudio
RStudio (https://rstudio.com/products/rstudio/) è un’interfaccia (o meglio un integrated development environment - IDE) gratuita e open-source dove far girare il codice di R.
Per usare RStudio è necessario prima installare R. In particolare, R svolgerà tutte le elaborazioni (è il tuo motore), mentre RStudio è l’ambiente (cruscotto) dove lavorare e rappresenta l’interfaccia tra l’utente e R. Di fatto durante il corso useremo RStudio per far girare R.
La finestra di RStudio è divisa in 4 pannelli come mostrato di seguito.
Nel pannello in alto a sinistra (code editor panel) hai a disposizione gli script, ovvero file di testo specifici per scrivere codice di R. Nel pannello in basso a sinistra (console panel) puoi vedere i risultati delle tue analisi e far girare del codice istantaneamemnte (senza usare uno script). Il pannello in basso a destra (File/Plots/Packages/Helps panel) mostra i grafici e i file di help. Infine, il pannello in alto a destra (Environment panel) è usato principalmente per mostrare gli oggetti salvati nello spazio di lavoro, per leggere la storiografia dei comandi e importare file.
2.4 Come installare R
Andare alla pagina https://cloud.r-project.org/ e selezionare il proprio sistema operativo (OS) tra Linux, Mac OS e Windows.
Se sei un utente Mac, scarica il file R-4.0.3.pkg e procedi come al solito per l’installazione di nuovo software:
Alla fine troverai un’icona (di nome R) nel dock e nella lista delle Applicazioni.
Se sei un utente Windows, scarica il file R-4.1.1-win.exe (la scelta della versione 32/64 bit dipende dal sistema operativo del tuo computer, vanno comunque bene entrambe) e procedi come al solito per l’installazione di un nuovo software:
Una volta che il processo di installazione si è completato, si può iniziare ad utilizzare R tramite l’icona che comparirà sul desktop o tramite il collegamento disponibile nella lista dei programmi disponibili.
2.5 Come installare RStudio
Procedere con il download della versione gratuita di RStudio scaricabile da questo link: https://rstudio.com/products/rstudio/download/#download. Selezionare la versione idonea per il proprio OS e procedere come al solito per l’installazione di nuovo software (si troverà quindi l’icona di RStudio nel dock/desktop).