Capítulo 10 Conclusiones

Nos planteábamos tres propósitos para la consecución de este trabajo:

  • Recopilar los datos históricos del flujo de tráfico reportados por los dispositivos de medida de la ciudad de Madrid.

  • Analizarlos para determinar si pueden utilizarse para hacer pronósticos y determinar la propiedad más significativa de los mismos en términos de interpretabilidad.

  • Comparar sobre este conjunto de datos los nuevos métodos de modelado de series temporales basados en redes neuronales con los métodos paramétricos clásicos.

Efectivamente, aunque ha sido laborioso, los datos se han recopilado y de su estudio se ha determinado que la propiedad que informa del porcentaje de carga de la vía en un momento dado es significativa en sí misma del estado de la vía y dispone de información suficiente como para ser modelada por métodos de pronóstico (clásicos y basados en aprendizaje profundo).

Hemos visto además que aunque los datos son muy amplios, suficientemente como para contrastar el rendimiento de los distintos métodos sobre ellos, en ocasiones (un porcentaje quizá demasiado elevado) padecen de fallas que hacen que el problema de pronóstico acabe resultando más complejo. No ha sido objeto de este estudio profundizar en las técnicas de reparación de datos en series que padecen de secuencias de datos no informados. Pero sí podemos decir que es un factor que dificulta el trabajo. Por ello, en la sección de resultados se ha estudiado en dos conjuntos: el de todas las series y el subconjunto de las series que garantizan que el porcentaje de valores no informados sea menor del 5%. Se ha visto que en términos generales, aunque los resultados varían sutilmente, las conclusiones son prácticamente las mismas.

A muy corto plazo (predicciones inferiores a unas 6 horas), como hemos vistos en los cuadros y figuras de resultados, los métodos basados en el estudio de la tendencia y estacionalidad (sencilla o múltiple, STL o STLM) brindan los mejores resultados. Esto se ha observado tanto si se consideran todas las series como si se consideran sólo las que padecen de datos mal informados en porcentaje inferior al 5%.

Sin embargo, en los pronósticos a corto plazo (inferiores a unas 48 horas), sí obtenemos resultados en dónde los métodos basados en LSTM igualan e incluso superan a los modelos paramétricos.

No podemos enunciar que ningún método basado en redes neuronales sea significativamente mejor que los mejores métodos paramétricos probados. Pero sí resulta de gran satisfacción ver que al menos dos métodos basados en LSTM si llegan a igualar y, aunque sutílmente, a mejorar al mejor método paramétrico. Esto deja una puerta abierta a seguir con la investigación y la mejora de las técnicas basadas en redes neuronales.

Por otra parte, es importante observar que según los resultados, disponer de todos los datos de la serie no siempre ayuda a que el modelo pronostique mejor. En particular, en todas las familias de modelos probados se ha visto que el modelo con mejor rendimiento siempre ha sido ajustado en los datos más recientes de la serie. Es decir, la estacionalidad anual en este tipo de problema no parece que sea de gran utilidad. Más bien parece que basta con observar los datos de los meses más recientes al instante a partir del que se pronostica. De hecho, para este tipo de series, este comportamiento parece que es algo común, según se ha podido leer en varios de los documentos de referencia utilizados para este trabajo.

10.1 Trabajo futuro

Como nota para posibles trabajos futuros, la impresión general es que tal vez la investigación habría sido más sencilla descartando desde el principio series con la información bastante perjudicada y haberse centrado únicamente en aquellas con calidad superior a cierto umbral.

Por otro lado, también puede ser de utilidad en trabajos futuros tomar una muestra de los dispositivos bastante representativa de la heterogeneidad de las series y hacer los experimentos restringiéndose a esta muestra. En este estudio, todos los experimentos se han realizado sobre todas las series (salvo escasas excepciones) lo cual ha supuesto una carga de computación y de tiempo muy elevada.

En relación con las redes neuronales, el diseño de modelos basados en LSTM es bastante complejo. La arquitectura de la red viene determinada por una gran cantidad de parámetros y los parámetros obedecen a naturaleza e influencia muy diferente. Por ejemplo, se puede explorar el espacio de parámetros atendiendo a múltiples factores:

  1. Longitud del histórico utilizado.

  2. Variables exógenas.

  3. Mayor o menor agregación de los datos de la serie.

  4. La arquitectura de la entrada: modelos de entrada sencilla o múltiple.

  5. La ventana de datos de entrada considerada en cada iteración de aprendizaje.

  6. Las iteraciones de aprendizaje por época en modelos con estado (la secuencia de datos movida con la que se entrena el modelo).

  7. La ventana de pronóstico, que puede ser el siguiente instante futuro e iterar la predicción retroalimentando con el resultado que va arrojando o pronosticar n instantes futuros en una sola predicción, que ha sido el enfoque utilizado en este trabajo.

  8. La transformación/normalización de los datos de entrada.

  9. Etc.

Como decimos, las posibilidades de investigación en el campo de redes LSTM aplicadas al problema de pronóstico del flujo de tráfico son muy variadas. Por desgracia, en el ámbito de este trabajo es imposible abordar una tarea tan extensa y aquí solo presentamos unos resultados que encontramos satisfactorios y que invitan a seguir esta vía de investigacióń. Unos párrafos más arriba se indicaba la conveniencia de centrar la investigación en un subconjunto de las series. En el caso de LSTM, echando la vista atrás, sí entendemos que al menos en la parte de prototipado y prueba de diferentes configuraciones, puede ser muy conveniente realizar el trabajo con series de laboratorio.

De hecho, en el desarrollo de este trabajo para estos modelos ha sido muy interesante el diseño de este tipo de series, controlando de antemano los distintos patrones estacionales, e ir observando la influencia de los distintos parámetros, arquitecturas y técnicas de entrenamiento. Realmente deja un sabor agridulce tener que acotar el ámbito de la investigación y no seguir con esta vía, que sí queda abierta para futuras investigaciones.

Por otra parte, sería muy interesante la investigación de modelos basados en LSTM pero alimentando con varias series el modelo. En el ámbito de este trabajo no ha sido posible profundizar tanto en la investigación, pero podría ser útil determinar la correlación que hay entre los datos reportados por un dispositivo y los reportados por sus vecinos. De esta manera, atendiendo a cierto grafo de influencias entre los distintos dispositivos, se podría pensar en un clúster de modelos LSTM multivariados. O incluso, y por qué no, un único modelo basado en deep learning que admitan como entrada todas las series. Como decimos, este tipo de experimentos ha excedido las posibilidades y recursos de esta investigación, pues aquí ya sería necesaria una infraestructura de cálculo de cierta dimensión.

Aunque lo hemos mencionado de pasada en el listado anterior, podría ser muy conveniente investigar el rendimiento de redes en dónde las celdas LSTM se alimenten con los datos de carga de la serie (con mayor o menor transformación) y las variables exógeneas se alimentan por otras capas del modelo. Estaríamos pensando aquí en un modelo de red mixta de doble entrada, una rama para LSTM y otra para celdas ordinarias.

Pensando nuevamente en las redes neuronales, y aunque no se haya experimentado en este trabajo, es de cierta abundancia la literatura en la que se utilizan redes de convolución (típicamente utilizadas para el reconocimiento de imágenes) también para problemas de pronóstico de series temporales. Podría ser muy adecuado en el futuro realizar este tipo de experimentos y ver si los resultados igualan o mejoran a los aquí expuestos.

Y por último, en lo relativo a la utilidad del estudio, vemos que en términos generales es posible modelar de manera bastante correcta las diferentes series y que por lo tanto es factible dotarse de sistemas que permitan realizar pronósticos para el estado de las diferentes vías de la ciudad. Podría ser del todo factible pensar en un sistema que en tiempo real proporcionara este tipo de información.