Introducción

Objetivos

Estos recursos corresponden a un seminario de sociología y epistemología del big data. El presente material corresponde a la unidad práctica de dicho seminario, que busca introducirnos en análisis de datos por medio del lenguaje R. Si bien este objetivo es explícitamente de nivel introductorio, creemos que puede ser un primer paso hacia un fin necesario: acercarnos al fenómeno de los datos, con una mirada “desde adentro”.

Escenarios sociales y técnicos como el big data, así como los avances en inteligencia artificial y la proliferación de algoritmos en diversas esferas de la vida social, entre otros fenómenos, están transformando la realidad social. Los y las científicas sociales no podemos ser ajenos a estas transformaciones. Debemos involucrarnos y trabajar junto a ingenieros, programadores, estadísticos, y otros profesionales, para que la mirada crítica y reflexiva que hemos desarrollado en nuestra formación profesional pueda ser incorporada. Y también para repensar y reevaluar nuestra propias maneras de hacer ciencia, y así actualizar y revitalizar aquello que hace únicas a las disciplinas sociales y humanísticas.

Contenidos

El libro consta (por ahora) de 4 tutoriales. Los primeros 2 introducen a la programacion con R desde cero, y a lo básico del procesamiento del lenguaje natural; los últimos 2 introducen a 2 métodos de aprendizaje automático (machine learning), que nos permitirán ver implementaciones de los problemas que discutiremos teóricamente.

Los materiales y casos prácticos se basan en fragmentos de nuestras propias investigaciones acerca del sentido social del big data (Becerra 2018). Hemos optado por esta referencia a nuestros propios trabajos por dos razones: primero, porque nos va a permitir seguir en tema discutiendo acerca del big data; segundo, porque buscamos abrir “la cocina de la investigación” para tener la chance de discutir cómo las técnicas y los análisis que aquí presentamos pueden ser integrados en una investigación social.

Tutorial #1. Explorar, manipular y visualizar datos

En este tutorial aprenderemos análisis exploratorio, manipulación de datos y construcción de gráficos, para luego construir nuestras propias funciones. Esto nos permitirá codear los análisis necesarios para responder a la pregunta por los sentidos que se evocan al pensar en big data. Teórica y metodológicamente, aquí nos guiamos por el “análisis prototípico” del enfoque estructural de la Teoría de las representaciones sociales de Abric (2001). Trabajaremos con un dataset construido a partir de una encuesta que incluía la técnica de asociación de palabras con respecto a “big data”, entre otros términos (Becerra and López-alurralde 2020).

Tutorial #2. Preprocesar texto y cruzar tablas

En este tutorial aprenderemos lo básico de preprocesamiento de texto para empezar a analizar el lenguaje natural, y a cruzar tablas para realizar un análisis de sentimientos con diccionarios (lexicones). Estas tareas nos permitirán empezar a explorar la polaridad que recubre al sentido social del big data, y que oscila entre una “gran oportunidad” en torno al conocimiento, y un “gran riesgo” por su explotación para el control y el condicionamiento de los grupos sociales.

Tutorial #3. Entrenamiento no-supervisado: modelado de tópicos

En este tutorial veremos una técnica de entrenamiento no supervisado, denominada topic modeling (o modelado de tópicos), que nos permitirá explorar un dataset de noticias digitales que incluyen el término “big data” (Becerra 2019), buscando generar “temas” a partir de la distribución de palabras de los textos. Nuestro objetivo es explorar posibles framings en la construcción mediática del big data. En vista de este objetivo, esta técnica debe articularse con análisis interpretativo manual por parte del investigador. Esto nos permitirá discutir de qué manera las decisiones técnicas que introducimos en nuestros códigos responden a los desafíos de diseños cualitativos (Auerbach and Silverstein 2003).

Tutorial #4. Entrenamiento supervisado: Clasificación

En este tutorial veremos cómo entrenar un modelo para clasificar texto, particularmente, oraciones acerca del big data en positivas / negativas, a partir de otras oraciones ya clasificadas por humanos. Este tipo de tareas genera un modelo con reglas (en nuestro caso, de clasificacion) a partir de registrar patrones diferenciales para las clases de datos que servimos. Esta tarea retoma la pregunta planteada en el tutorial #2 por la polaridad del big data.

Tutorial #5. Construcción de datasets (BORRADOR)

En este tutorial veremos cómo construir un dataset, a partir de interactuar con APIs (particularmente, Wikipedia y Twitter) y de realizar webscraping (particularmente, sobre el sistema de publicación OJS).

Otros recursos

Recomendamos (¡y mucho!) los siguientes recursos introductorios a la ciencia de datos y la programación en R, de licencia abierta, en castellano, y mayormente pensados para estudiantes de ciencias sociales:

Ciencia de Datos para Gente Sociable de Antonio Vazquez Brust (¡Excelente!)
AnalizaR Datos Políticos de Francisco Urdinez y Andrés Cruz Labrín (Editores)
RStudio para Estadística Descriptiva en Ciencias Sociales de Giorgio Boccardo Bosoni y Felipe Ruiz Bruzzone
R for Data Science (Español) Versión español del libro de Hadley Wickham y Garrett Grolemund.
Los videos de las clases del laboratorio de datos del departamento de Física de la UBA son super instructivos, aunque refieran mayormente a Python.

Además, te invitamos a que busques las comunidades de usuarios y usuarias de R mas cercanos a vos en el siguiente mapa de Meetup.

Referencias

Abric, Jean-Claude. 2001. Prácticas sociales y representaciones. México D.F.: Presses Universitaires.

Auerbach, Carl, and Louise B. Silverstein. 2003. Qualitative data: an introduction to coding and analysis. New York: New York University Press.

Becerra, Gastón. 2018. “Interpelaciones entre el Big data y la Teoría de los sistemas sociales. Propuestas para un programa de investigación.” Hipertextos 6 (9): 41–62. http://revistahipertextos.org/ediciones/hipertextos-no-9/.

———. 2019. “La construcción del big data en la prensa digital argentina.” In XIII Jornadas de Sociología. Buenos Aires: Universidad de Buenos Aires. http://jornadasdesociologia2019.sociales.uba.ar/altaponencia/?acciones2=ver&id_mesa=9&id_ponencia=1252.

Becerra, Gastón, and Juan Pablo López-alurralde. 2020. “Hacia una exploración de las representaciones sociales en torno al big data.” In 49 Jornadas Argentinas de Informática & Simposio Argentino de Tecnología y Sociedad. Buenos Aires: Sociedad Argentina de Informática.

Introducción a la ciencia de datos con R.