Introducción

Ya hemos visto hasta ahora cómo trabajar con datos. Realizar análisis de lo sucedido nos permite tomar una acción determinada para cambiar el cursod de un negocio. Sin embargo, también podemos usar estos datos para predecir.

El análisis predictivo es una técnica que todo Data Scientist debe dominar y Machine learning nos provee robustos algoritmos para poder realizar predicciones.

Machine learning es el estudio de algoritmos informáticos que mejoran automáticamente a través de la experiencia. Las aplicaciones van desde programas de minería de datos que descubren reglas generales en grandes conjuntos de datos, hasta sistemas de filtrado de información que aprenden automáticamente los intereses de los usuarios (Michell 1997). Es visto como un subconjunto de la inteligencia artificial. Los algoritmos de machine learning crean un modelo matemático basado en datos de muestra, conocidos como “datos de entrenamiento”, para hacer predicciones o decisiones sin ser programado explícitamente para hacerlo.

Un buen data scientist sabe cómo construir algoritmos de predicción utilizando machine learning. En los siguientes capítulos veremos técnicas tanto para variables discretas como para cuando trabajamos con variables continuas de los dos principales enfoques de aprendizaje de machine learning: el aprendizaje supervisado y el aprendizaje no supervisado.

Tener en cuenta que también hay otros enfoques, como el de aprendizaje semi-supervisado o el aprendizaje reforzado donde el algoritmo aprende de un ambiente real o sintético. Estos enfoques no se cubrirán en este libro, el cual se centra en los enfoques más utilizados para iniciarse como data scientist.

Referencias

Michell, Tom. 1997. Machine Learning. ISBN 0070428077. McGraw Hill. http://www.cs.cmu.edu/~tom/mlbook.html.