Introducción

En este notebook estoy incluyendo el proceso de creación de los modelos con los que intentaré colarme en el ranking de participantes del Challenge de machine learning “Sun Power Prediction” que EDP tiene colgado en su web de open data y que incluyo a continuación (Fecha: 2019-11-14).

“The objective of this competition is to build an algorithm that predicts the production of solar module B (with optimal orientation) for the first seven days of 2018. For this, you can rely on the weather station data for these days.”

Hasta ahora sólo hay 7 participantes, no estoy seguro si hay un score de corte o no, como tienen establecido en otros challenges. El score lo calculan multiplicando el R cuadrado obtenido por 20. Así que ahora mismo las predicciones enviadas han conseguido los siguientes resultados en términos de R cuadrado.

ranking <- read_delim("data/ranking_partipants.csv", delim = ";")

ranking <- ranking %>% mutate(R2 = Score/20)

ranking %>% kable %>% 
            kable_styling()
Team Score R2
trevi 19.657 0.98285
Ayrton 19.650 0.98250
Dusan 19.356 0.96780
Pedro Matos 19.192 0.95960
PMAM78 18.900 0.94500
andre 18.855 0.94275
Owls Team 10.968 0.54840

Mi primer objetivo es entrar simplemente en el listado. Así que para intentar asegurar esto tendré que conseguir un R cuadrado superior al conseguido por el “Owls Team”. Lo de conseguir ir más arriba en el ranking de momento no lo veo muy plausible. El resto de R cuadrados los veo realmente muy, muy altos.