Capítulo 2 ¿Cómo definir qué y cuantos software de análisis estadístico manejar?
Existen múltiples lenguajes de producción y análisis de datos. Para quienes leen este documento nombres como SPSS, Microsoft Excel, Stata o Python quizá no sean desconocidos: varias de estas herramientas computacionales son ampliamente utilizadas en el campo de las Ciencias Sociales.
Si bien presentan características disimiles en cuanto a atributos como en su facilidad de uso, generalidad o especificidad de las herramientas de análisis que incorporan y el costo asociado a su utilización, es posible afirmar que su incorporación en los procesos de investigación - profesional o académica - ha contribuido de manera positiva al facilitar el procesamiento computacional de conjuntos extensos de datos y la ejecución de análisis estadísticos que en general resultan de una elevada complejidad ante volúmenes elevados de información (Elousa 2009).
La decisión de qué software de análisis estadístico utilizar no tiene una respuesta predeterminada: la elección dependerá de las necesidades de la investigación. Esto pues los lenguajes de programación son herramientas y el principal criterio para decidir el uso de uno u otro debe efectuarse en función de la particularidad de los objetivos y alcances de la investigación que se busque desarrollar.
Es por eso que aunque puedan existir diferencias sustanciales entre los diferentes software mencionados cada programa puede tener una utilidad especifica. En tal sentido, su aplicación debe efectuarse sin perder de vista su cualidad de herramientas con atributos y potencialidades particulares. En todo momento es la investigadora o investigador quien indica instrucciones de análisis a estos programas computacionales a partir del problema que se está investigando, el tipo de información con que se trabaja, los objetivos del estudio, los recursos disponibles y conocimientos que tiene el equipo de investigación. Así, el uso de un programa de análisis estadístico no reemplaza los procesos de decisiones metodológicas como tampoco evidencia de manera automática los errores ni las incoherencias de los análisis: por eso, su uso debe hacerse en relación a las decisiones teóricas y metodológicas realizadas previamente en el contexto de un diseño de investigación particular.
En tal medida la decisión de usar uno u otro software - o una combinación de varios - no es arbitraria. Debe basarse en una observación razonada e informada de las limitantes y potencialidades que cada herramienta ofrece, siempre pensando en los requerimientos específicos que demandan los procesos de investigación. A continuación se ofrece una breve introducción a diferentes software de análisis de datos que pueden ser considerados para el análisis estadístico de datos sociales.
2.2 EXCEL: uno de los olvidados
Microsoft Excel es un software que permite crear bases de datos, analizar información y calcular diferentes estadísticos. Este tipo de software se denomina software de hoja de cálculo debido a que su interfaz se presenta como una planilla ordenada a partir de filas y columnas donde la unidad básica de almacenamiento de información es la celda. Además permite realizar operaciones de estadística descriptiva y multivariada y cuenta con un interfaz más cómoda para la digitación de datos.
En términos generales Excel permite crear tablas que calculan de forma automática los valores de ciertos análisis que el investigador o investigadora especifica, imprimir tablas con diseños cuidados y crear gráficos de manera muy simple. Este programa forma parte de “Office”, un conjunto de herramientas de Microsoft que combina varios tipos de software para crear documentos de texto, hojas de cálculo y presentaciones y para administrar el correo electrónico. También corresponde a un software pagado (requiere comprar una licencia de Microsoft Office), sin embargo es usual contar ya con una licencia básica al comprar un computador que incluye Microsoft Windows como sistema operativo o conseguir una clave de licencia para uso individual o institucional.4
Muchas de las bases de datos disponibles, ya sea que provengan de instituciones de gobierno o de otro tipo se encuentran en formato .xls (planilla Excel), lo que implica que como investigadoras e investigadores se vuelve necesario manejar herramientas de este tipo, pues en muchos casos será necesario trabajar con ellas de manera articulada con softwares de análisis estadístico más especializados (nociones claves en este sentido son extensión de archivo y exportar/importar, cuestiones que serán revisadas más adelante). La experiencia en investigación social académica y profesional indica que por lo general los datos se digitan y trabajan en bruto en hojas de cálculo para posteriormente efectuar los procesamientos estadísticos en otros programas de mayor especialización.
2.3 Stata: un programa de nicho
Stata es un software de uso pagado - aunque también dispone de una versión de prueba - desarrollado por la compañía StataCorp. De manera similar a SPSS este programa combina un formato de entrada de datos basado en la estructura de planilla de cálculo, a la vez que presenta una amigable interfaz de botones junto con la posibilidad de manejarlo directamente a través de sintaxis.
Incorpora una gran cantidad de herramientas para la gestión de bases de datos y análisis estadísticos de diferente nivel de complejidad. Se evidencia un software que pretende incorporar en una sola plataforma todos los procesos de una investigación cuantitativa: construcción, validación y mantención de bases de datos, análisis estadísticos simples y multivariados, construcción de gráficos y resultados para su publicación. Es ampliamente utilizado en el campo de las ciencias económicas.
Para su uso oficial o institucional requiere la compra de una licencia pagada. Así se adquiere el programa básico que incluye todas las posibilidades de manejo y análisis de datos mencionadas, sin hacer necesaria la compra de paquetes adicionales. También existen actualizaciones periódicas del programa las cuales incluyen tanto mejoras en la interfaz de usuario como nuevas aplicaciones para el análisis de datos, que aseguran la estabilidad del lenguaje de programación entre diferentes versiones del software.
2.4 Python: un lenguaje de programación de mayor potencia
Python es un lenguaje de programación multiparadigma que soporta programación orientada a objetos, programación imperativa y programación funcional. Su principal premisa es desarrollar un lenguaje de programación que sea simple y entendible por los usuarios.
Al ser un lenguaje de programación sus usos son más amplios que los anteriores softwares señalados. Sus características se pueden aplicar al desarrollo de páginas web, sistemas de almacenamiento de información, programación de otros softwares, operaciones matemáticas y estadísticas. En términos generales brinda un lenguaje de sintaxis con una estructura que permite una programación clara en escalas pequeñas y grandes.
Como se verá, tiene características similares a R: es un programa gratuito de código abierto, que cuenta con una comunidad científica activa que colabora permanentemente en su desarrollo, elementos que permiten que integre múltiples aplicaciones adicionales a su versión básica, para diferentes campos de aplicación.
Contar con un lenguaje de programación intuitivo hace que una de sus principales ventajas frente a R sea la de una curva de aprendizaje más rápida. Por otro lado, presenta una mayor capacidad para trabajar con el procesamiento de datos textuales (text mining, text analysis), es más eficiente en el manejo de grandes bases de datos y también presenta mejores recursos para manejar grandes volúmenes de información - incluyendo metadatos - como aquellos que pueden ser extraídos desde Internet (técnicas conocidas como webscrapping). Sin embargo, presenta menos desarrollo que R en relación al desarrollo de herramientas de visualización de datos y en paquetes específicos para análisis estadístico multivariado.
2.5 R: el temido
Se trata de un software de distribución gratuita (un freeware) desarrollado por The R Foundation for Statistical Computing. R es un lenguaje de programación utilizado para el análisis de datos cuyo énfasis de uso está en la configuración directa de los análisis de parte del usuario antes que en una interfaz amigable.
Se trata de un proyecto colaborativo en la medida que los mismos usuarios van desarrollando nuevas aplicaciones que son compartidas gratuitamente en la página oficial del software; así, R está en permanente ampliación: es un proyecto abierto y gratuito.
“R, en tanto en cuanto software libre, se inscribe dentro del proyecto GNU General Public Licence (Licencia Pública General, GNU). Se trata de una licencia creada por The Free Software Foundation (Fundación para el software libre), organización fundada por Richard Matthew Stallman en el año 1985. El principal propósito de la licencia GNU es declarar la libertad del uso, modificación y distribución del software y protegerlo de intentos de privatización que puedan de algún modo restringir su uso (…). Parte de la vasta información disponible sobre R es accesible a través de la página CRAN (Comprehensive R Archive Network; http://cran.r-project.org/), sitio oficial de R. Es la página base del proyecto R, desde la cual se puede descargar la última versión del programa (un equipo formado por unas doce personas, R Development Core Team; asumió en 1997 las labores de actualización semestral del código de R), consultar manuales sobre R, obtener ayuda sobre su funcionamiento a través de un sistema de ayuda on line, y, en definitiva, estar al corriente de los movimientos en este entorno de trabajo.” (Elousa 2009, 653)
La modalidad básica de este programa de análisis estadístico presenta una interfaz poco amigable para el usuario. Como se observa en la imagen anterior la interfaz no dista mucho de la sofisticación de un bloc de notas pues sólo presenta un espacio en blanco donde escribir los comandos, mientras que ninguno de los botones sirve para realizar análisis estadísticos.
Básicamente es un editor de sintaxis, lo que en principio requeriría la habilidad de manejar al dedillo todos y cada uno de los comandos necesarios para ejecutar algún tipo de análisis mediante el particular lenguaje de programación de este freeware. Es fundamentalmente esta característica la que inhibe al usuario inicial en su uso aunque presenta atributos que significan ventajas relativas en relación a los otros softwares mencionados en este capítulo.
Es uno de los softwares con una mayor variedad de herramientas de análisis estadístico univariado y multivariado, no sólo para las ciencias sociales sino también para otras disciplinas.5 Al ser un programa de contribución libre (código abierto) no requiere la adquisición de una licencia pagada para su uso; existe además una amplia variedad de paquetes descargables de modo gratuito que son desarrollados por usuarios a lo largo de todo el mundo, lo que permite estar al día en cuanto a la exigencia de incorporar nuevas y más sofisticadas herramientas de un modo gratuito y libre. Adicionalmente se trata de un programa “liviano” que gasta poca memoria computacional para ser ejecutado. Todos estos atributos lo configuran como una alternativa bastante interesante para el análisis estadístico de datos sociales.
Si bien la versión básica del programa dista mucho de ser amigable no hay que desesperar pues existen soluciones (gratuitas) para este asunto. Es posible descargar e instalar softwares adicionales que, a partir de la instalación del software base, permitan contar con una máscara que actúe como una interfaz amigable entre el usuario y el entorno computacional que opera con códigos; todos detalles que se verán a lo largo de este documento.
2.6 Ventajas del uso de R
A diferencia de otros programas, para ocupar R nos adentraremos en el uso pleno de la modalidad de sintaxis; esto es: no emplearemos botones para realizar los análisis, sino que nos comunicaremos con el software de manera directa, a partir de lenguaje (código) computacional. El uso de la sintaxis (en cualquier software) y el conocimiento de los comandos de R nos permite las siguientes ventajas para nuestros análisis (Elousa 2009):
- Replicabilidad: Elemento fundamental en la investigación científica y cada vez más en las revistas académicas donde se exigen los archivos de sintaxis para la publicación de resultados. Permite que cualquier persona a quien enviemos nuestros análisis podrá entender cómo fueron construidos y replicarlos de manera exacta.
- Eficiencia: En condiciones “reales” de trabajo continuado, el uso de sintaxis representa un incremento exponencial de la eficacia; por ejemplo, para hacer un solo cálculo (como un calcular una media aritmética), en una modalidad de definición de procedimientos de análisis estadístico mediante botones debemos presionar (por ejemplo) al menos cinco botones para llegar al resultado. Esto es tiempo acumulado, y en instancias de manejo estadístico complejo de datos, consume tiempo y esfuerzo. Como contracara, el uso de sintaxis tiende a aminorar la realización de tales tareas, pues puede llegar a tratarse de una sola línea de comandos.
- Control: Permite un control casi total en el trabajo de análisis, pues permite a quienes investigamos ir definiendo detalles que los programas con botones configuran por defecto; esto además permite detectar errores y potencia el trabajo colaborativo, ya que el lenguaje que diferentes investigadores(as) emplearán, es el mismo.
Si bien este tipo de atributos también pueden alcanzarse utilizando las sintaxis de otros softwares mencionados como Stata o SPSS, la exclusividad del uso de sintaxis en R como lenguaje de programación, acentúa tales características en comparación a las otras herramientas computacionales indicadas.
2.7 Una mirada comparada: limitantes y potencialidades
Ya se han revisado las principales herramientas computacionales que existen para el análisis estadístico de datos. ¿Es posible sintetizar en una sola evaluación las potencialidades y límites de cada una de estas alternativas? Creemos que sí, y para ello usaremos seis criterios: 1) generalidad, 2) costo, 3) facilidad de uso, 4) popularidad, 5) el valor del software libre y 6) desarrollo y actualización. Las tres primeras son señaladas siguiendo lo planteado por Elousa (2009) mientras que las últimas tres se proponen como criterios propios para considerar:
- Generalidad. Bajo este criterio, sin lugar a dudas R es una de las alternativas más convenientes. Su estructura como plataforma de código abierto permite incorporar de manera gratuita paquetes adicionales a su versión básica que posibilitan el desarrollo de una gran variedad de técnicas de procesamiento de datos y análisis estadístico. Si bien para los análisis que se enseñarán en este manual programas como Microsoft Excel o SPSS cuentan con las herramientas suficientes, para análisis más sofisticados resultan limitados por las escasas herramientas que disponen, así como en la posibilidad de realizar análisis personalizados y no vía una configuración de fábrica que como usuario no es posible modificar. Además, su configuración como lenguaje de programación hace que R sea una herramienta de mayor flexibilidad que las otras alternativas presentadas: permite trabajar con datos cuantitativos y cualitativos así como usar diferentes fuentes de información (por ejemplo, datos existentes en la web en un sentido amplio). Este tipo de características lo distinguen radicalmente de las alternativas de software construidas en torno a la lógica de la planilla de cálculo (como SPSS y Stata).
- Costo. Herramientas como R y Pyhton son las únicas que presentan una modalidad gratuita de distribución y uso, lo que las pone por delante de las otras alternativas presentadas. Como ya ha sido señalado Microsoft Excel, SPSS y Stata requieren la adquisición de una licencia pagada para su uso en computadores de uso personal o institucional, lo que obliga a incurrir en costos de instalación bastante elevados. Así y todo en el caso de SPSS, por ejemplo, la versión básica no viene con todos los paquetes de análisis (el paquete AMOS, para ecuaciones estructurales por ejemplo, se vende por separado) lo que entrampa aún más la utilidad de estos programas en la medida que los requerimientos de análisis sofisticados aumentan.
- Facilidad de uso. Tanto SPSS como Excel y Stata cumplen con el criterio de facilidad de uso. Son softwares amigables, que ponen a disposición del usuario una amplia variedad de herramientas de uso intuitivo lo que ayuda mucho en la introducción al análisis de datos empleando softwares computacionales. Por otra parte, Python y R presentan una interfaz de mayor complejidad al basarse en un uso estrictamente a partir de instrucciones computacionales o sintaxis. Sin embargo, tal dificultad sólo implica una curva de aprendizaje más lenta que se compensa con las ventajas ya señaladas en relación a los criterios de costo y generalidad.
- Popularidad. Este criterio se vincula con la “extensión del uso” de una herramienta computacional en el campo científico o profesional. Por mucho que se pueda argumentar a favor de la utilización de softwares como el que enseñaremos en este manual, también se debe considerar que hay herramientas computacionales que gozan de mayor popularidad y uso (por ejemplo SPSS, Stata o Microsoft Excel). En tal sentido, una formación integral debe propiciar un uso combinado de estas herramientas, que permita una flexibilidad y adaptación a diferentes contextos profesionales o académicos, que por lo general no son flexibles en relación a cambiar de manera rápida el software de “cabecera” utilizado para sus procesos de investigación social.
- El valor del software libre (gratuito y de código abierto). Que un software sea libre quiere decir que sus usuarios son libres de usarlo, copiarlo, distribuirlo, editarlo y modificarlo según sus propias inquietudes (FSF 2019). En tal medida, el valor del software libre no sólo refiere a su distribución libre de pagos, sino también a su transparencia en cuanto al diseño de sus diferentes funcionalidades. Esto permite que lo realizado por el software libre no sea una “caja negra” para las y los usuarios, lo que es de alta relevancia para su uso en investigación científica, proceso en el cual se busca tener un control razonado de los límites y potencialidades de cada decisión de análisis tomada.
- Desarrollo y actualización. En el caso de R y Pyhton se trata de plataformas que están en continuo desarrollo y actualización, que cuentan con una comunidad científica activa e involucrada en la producción de nuevas herramientas y soluciones para problemas y desafíos de programación. Ello implica que este tipo de herramientas tienen un potencial de desarrollo ilimitado, que no se encuentra sujeto a un uso de “moda” o según criterios netamente económicos, pues un software libre se usa siempre que la comunidad científica decida hacerlo. Si bien pueden existir otras alternativas de softwares altamente especializados en técnicas específicas de análisis de datos (sea de análisis cuantitativo o cualitativo) éstas tienden a quedar desactualizadas una vez pierden popularidad y su negocio deja de ser rentable.
La siguiente tabla resume de forma comparada los atributos y características de los distintos software analizados.
Dimensión / Lenguaje | R | Python | SPSS | Excel | Stata |
---|---|---|---|---|---|
Alcance | General, orientación multidisciplinar | General, orientación multidisciplinar | Limitado, orientado a Ciencias Sociales | Limitado, orientado a administración | Limitado, orientado a Economía |
Licencia | Libre (freeware) | Libre (freeware) | Pagada (versión de prueba limitada) | Pagada (versión de prueba limitada) | Pagada (versión de prueba limitada) |
Aprendizaje | Sintaxis, poco intuititvo | Sintaxis, poco intuititvo | Botones y sintaxis, intuitivo | Botones y sintaxis, intuitivo | Botones y sintaxis, intuitivo |
Visualización | Avanzada | Intermedia | Básica | Intermedia | Intermedia |
Análisis de texto | Intermedio, poca eficiencia | Avanzado, amplia eficiencia | No | No | No |
Minería Datos | Intermedio, poca eficiencia | Avanzado, amplia eficiencia | No | No | No |
Sistema operativo | Windows, Mac OS, Linux | Windows, Mac OS, Linux | Windows, Mac OS | Windows, Mac OS | Windows, Mac OS |
Teniendo en cuenta todos los elementos que ya han sido expuestos es que en la formación estadística de la carrera de sociología de la Universidad de Chile se ha decidido adoptar progresivamente un uso extendido de R. Es por ello que resulta de central importancia poder acercar de manera amigable esta herramienta a todos los estudiantes desde el inicio de su formación estadística. Tal es el sentido del presente manual.
Bibliografía
Elousa, Paula. 2009. “¿EXISTE VIDA MÁS ALLÁ DEL SPSS? DESCUBRE R.” Revista Psicothema 21 (4): 652–55. http://www.psicothema.com/psicothema.asp?id=3686.
FSF. 2019. “¿Qué Es El Software Libre?” Free Software Foundation. https://www.fsf.org/es/recursos/que-es-el-software-libre.
Para quienes deseen acceder a una versión actualizada de este paquete de Microsoft, la Universidad de Chile ha puesto a disposición de sus alumnos una licencia gratuita para hasta 3 computadores. Por otro lado, en el mundo del software libre existen plataformas alternativas que ofrecen de manera gratuita el mismo conjunto de herramientas que Microsoft Office, de manera altamente compatible con ellas: una de las más conocidas es el paquete de oficina libre desarrollado por The Software Foundation, conocido como LibreOffice (disponible para distintos sistemas operativos). Una opción similar es Open Office, desarrollado por The Apache Software Foundation. La primera alternativa (Libre Office) presenta mayor compatibilidad con las aplicaciones de Microsoft Office, pero sus actualizaciones son menos estables que la segunda (Open Office).↩
Como lo plantea Paula Elousa, R “está constituido por más de 1.400 paquetes integrados con los que es posible ejecutar simples análisis descriptivos o aplicar los más complejos y novedosos modelos formales. Además, la incorporación a R de interfaces gráficas (…) que crean entornos de trabajo amigables muy similares al entorno del SPSS permiten saltar la barrera de la accesibilidad, y utilizarlo sin ningún tipo de reparo en la docencia. ¿Existe algo mejor? Libre, gratuito, asequible, accesible y siempre a la vanguardia.” (Elousa 2009, 652)↩