Capítulo 1 Introducción a la estadística

1.1 Definiciones

Según Walkerly, Mendenhall, and Scheaffer (2010) se emplean técnicas estadísticas en casi todas las fases de la vida. Se diseñan encuestas para recabar los primeros informes en un día de elecciones y pronosticar el resultado de una elección. Se hacen muestreos de consumidores para obtener información para predecir preferencias de productos.

Médicos investigadores realizan experimentos para determinar el efecto de diversos medicamentos y condiciones ambientales controladas en seres humanos para inferir el tratamiento adecuado para varias enfermedades. Los ingenieros muestrean la característica de calidad de un producto y diversas variables de procesos controlables para identificar variables clave relacionadas con la calidad de un producto. Aparatos electrónicos recién manufacturados se muestrean antes de enviarlos para decidir si se embarcan o se mantienen lotes individuales. Los economistas observan varios índices del estado de la economía en un periodo y usan la información para pronosticar las condiciones de la economía en el futuro.

Las técnicas estadísticas desempeñan un importante papel para alcanzar la meta de cada una de estas situaciones prácticas.

Otras definiciones:

  • “La Rama de las matemáticas que estudia la recolección, análisis, interpretación y presentación de masas de información numérica”. Webster’s New Collegiate Dictionary.

  • “La estadística es la rama del método científico que estudia los datos obtenidos por contar o medir las propiedades de poblaciones”. Stuart y Ord (1991).

  • “La estadística se ocupa esencialmente de procedimientos para analizar información, en especial aquella que en algún sentido vago tenga un carácter aleatorio”. (Rice 2006).

  • “La tecnología del método científico” y agregan que la estadística se ocupa de “(1) el diseño de experimentos e investigaciones, (2) inferencia estadística”. (Mood 1969)

  • “La ciencia de de basar inferencias en datos observados y todo el problema de tomar decisiones frente a una incertidumbre”. (Walpole et al. 2012)

1.2 Estadística, probabilidad, y el método de ingeniería

Behar et al. (2002) proponen las siguientes situaciones prácticas para acercarnos al entendimiento de la estadística y la probabilidad como herramienta necesaria para la ingeniería:

Suponga que un ingeniero se enfrenta al problema del diseño de un canal para aguas de lluvia, ¿cuales deben ser sus parámetros de diseño si el quisiera que el canal fuera suficiente, para lluvias tan intensas como aquellas que se presentan en promedio una vez cada diez años?. El ingeniero debe cuantificar el riesgo y las heurísticas1 que le permitirán hacerlo. En este camino, conocer los elementos básicos de la teoría de la probabilidad, de tal manera que a partir de la estimación de un evento simple, pueda obtener información sobre el riesgo de ocurrencia de eventos compuestos y complejos.

Si con un determinado sistema es posible resolver el problema con un riesgo r, ¿Cuál sería el riesgo si se colocaran n sistemas en paralelo? En una situación pobremente estudiada, ¿cómo hacer predicciones del riesgo, usando información incompleta? Surge aquí la necesidad de conocer algunos modelos probabilísticos y su posible uso para simplificar la realidad y obtener respuesta sobre el riesgo de ocurrencia de eventos de interés.

Si la magnitud de un factor F, es un insumo clave para la solución de un problema de ingeniería, pero sólo s dispone de algunos datos sobre F, ¿Cómo puedo estimar la magnitud de F asumiendo un riesgo de equivocarme en la estimación, definido a priori por el ingeniero? En esta situación la Estadística puede apoyar la formación del ingeniero proporcionándole las herramientas adecuadas para la construcción de heurísticas, a través de la llamada estimación de cantidades, por medio de intervalos de confianza.

Koen (1985) en su intento por caracterizar el trabajo del ingeniero, expresa cómo el ingeniero inicia su trabajo partiendo de una situación de incertidumbre o pobremente estudiada y que su punto de llegada es incierto. En el camino, deberá ir resolviendo las dificultades y obstáculos y tomando decisiones cuando existan varios caminos alternativos.

¿Cómo poder hacer comparaciones y tomar decisiones ante diversos cursos alternativos de decisión, en un ambiente de incertidumbre? En esta problemática, la Estadística se constituye en una verdadera mina, de la cual el ingeniero puede dotarse de las heurísticas apropiadas para enfrentar con muy buenas posibilidades de éxito la situación de comparar alternativas, con información parcial, cuantificando el riesgo de tomar una mala decisión. Este yacimiento de heurísticas, se conoce en Estadística como Contraste de hipótesis o ¿Cómo decidir entre varios posibles cursos de acción en ambiente de incertidumbre? Koen plantea de manera muy pedagógica la diferencia entre los dominios de la Ciencia y de la Ingeniería. Uno de los elementos conceptuales que marca esta diferencia, es la restricción en los recursos disponibles. A diferencia de la ciencia, en la ingeniería no se hace referencia a la solución, sino a una solución.

En ingeniería una buena solución no se puede juzgar sin el conocimiento de la restricción generada por la disponibilidad de recursos.

En ingeniería puede preferirse una solución que no es la óptima absoluta (utilizando algún criterio de optimalidad u optimización), pero que se aproxima bastante bien a los requerimientos, si ésta es mucho más rápida y/o barata que la óptima. Si la recopilación de la información completa requiere de un período de tiempo exagerado o exige una cantidad de recursos muy grande, el ingeniero deberá disponer de heurísticas que le permitan saber cuál es el punto de equilibrio entre la cantidad de recursos a invertir en obtener información y la magnitud del riesgo de equivocarse y sus consecuencias al tomar decisiones con dicha cantidad limitada de información. La Estadística ofrece un excelente menú para que el ingeniero disponga de heurísticas que le permitan cuantificar el monto de recursos que debe asignar a la inversión en información y la manera de decidir con dicha información. Esta carta de navegación se conoce en Estadística como estimación del tamaño de muestra y puede relacionar un tamaño de muestra a seleccionar con el riesgo de equivocarse al decidir con ella en algún sentido.

Por otro lado, ante la incertidumbre o el pobre conocimiento de la situación, el ingeniero debe disponer de heurísticas que le permitan en algunas ocasiones hacer ensayos en pequeña escala, para predecir el comportamiento de un sistema, anticiparlo tomando las medidas adecuadas y llenándose de argumentos para favorecer un curso determinado de acción. ¿Cómo realizar estos ensayos? ¿Cómo concluir con base en la información obtenida en los ensayos si se sabe que es información parcial no reproducible en forma exacta, si se repitieran los ensayos? En esta situación un excelente socavón rico en las mejores fuentes para producir heurísticas lo constituye el diseño de experimentos, el cual no sólo plantea muy buenas guías para la ejecución de los ensayos, para garantizar la validez de las conclusiones que se obtengan, sino que permite controlar el riesgo, definiendo a priori, la magnitud de los riesgos que el ingeniero está dispuesto asumir, en el sentido de tomar decisiones equivocadas. Además incluye relaciones esenciales que conectan los recursos a invertir con la calidad de las decisiones.

Ya se dijo que una condición inherente al trabajo de un ingeniero, y que por tanto caracteriza el Método de Ingeniería, es restricción en la disponibilidad de recursos. Entre varias heurísticas comparables en su eficiencia, el ingeniero podría escoger aquella que exija menos insumos de información y en general que implique menos recursos.

Proteger los recursos, es una de sus misiones permanentes. En este sentido poder predecir el estado final resultante de un curso de acción tomando en consideración características de su punto de partida, le permitirá disminuir los riesgos de invertir recursos en rectificaciones por deficientes predicciones.

Por otro lado, pero en el mismo sentido, en situaciones problema donde se requiere el conocimiento de magnitud de F, para tomar una decisión, pero en lugar de conocer F, se conocen X, y, Z y W, que son mucho más baratas y prácticas de medir que la propia F, surge la pregunta: ¿Cuáles heurísticas me permiten tomar decisiones equivalentes con estas últimas en lugar de F? Entre las características disponibles (X, Y, Z y W), ¿Cuál es el subconjunto mínimo que se requiere y cuál es la calidad de las decisiones que se tomen con base en dicho subconjunto? ¿Cómo predecir el valor F correspondiente a un conjunto de valores específico de las características (X, Y, Z y W)? En esta problemática, la Estadística vuelve a salir a la palestra, poniendo a disposición del ingeniero los modelos para predecir la magnitud de una característica mediante el conocimiento de otras, a través de los llamados modelos de regresión.

Si una de las condiciones del punto de partida del ingeniero es la disponibilidad de información sobre un conjunto de características relacionadas con la situación problema, ¿Cómo explorar esta información para plantear, a partir de ella, algunas hipótesis que permitan orientar el próximo curso de acción? En esta fase la Estadística entrega en las manos del ingeniero, algunas estrategias para hacer útiles sus datos, dándoles sentido en el contexto de su problema a través del llamado análisis exploratorio de datos.

Cuando el comportamiento futuro de una característica, es un parámetro de diseño para un proyecto, se requiere disponer de heurísticas que permitan sacar provecho del conocimiento sobre cómo se ha comportado dicha variable en el pasado, para hacer pronósticos y estimar su fiabilidad. En este campo, la Estadística provee los elementos necesarios a través del llamado análisis de series de tiempo y pronósticos

En campos específicos de la ingeniería, en los cuales una característica inherente a la calidad de un producto es el tiempo que trascurre hasta que el producto falla o la duración del tiempo entre fallas, se requiere conocer algunos parámetros que garanticen a priori, la confiabilidad del producto o servicio o para la definición de políticas de mantenimiento de equipos, para la definición de tiempo de garantía, es muy conveniente disponer de heurísticas para la predicción de la fiabilidad, campo fértil de la Estadística a través de la teoría de la fiabilidad.

Si se trata de controlar y mejorar la calidad de productos o procesos en ambientes de incertidumbre y variabilidad, como es la situación normal en la industria manufacturera y en las empresas de servicios, las heurísticas universalmente usadas corresponden al área de métodos estadísticos para el control y el mejoramiento de la calidad

Si se quiere abordar la calidad desde el propio diseño del producto, intentando conocer la interacción entre los parámetros de diseño del producto o de la operación de un proceso, con características de preferencias o del ambiente del usuario final, se requiere usar la Estadística a través de los llamados métodos estadísticos para el logro de la calidad por diseño.

1.3 Muestreo Aleatorio

Como la inferencia estadística se formula con base en una muestra de objetos de la población de interés, el proceso por medio del cual se obtiene será aquel que asegure la selección de una buena muestra. Una situación diferente se presenta cuando se lleva a cabo una selección de objetos tangibles de una población que consiste en un número finito de objetos (seres humanos, animales, componentes mecánicos o eléctricos, etc.). La característica medible de interés puede ser un atributo, como el estado de un componente (defectuoso o no defectuoso), la opinión de una persona con respecto a cierto tema (a favor o en contra) o una medición cuantitativa como el CI de una persona o el tiempo de duración de un componente.

La selección aleatoria de objetos en una población finita puede llevarse a cabo según diferentes esquemas sin o con reemplazamiento, sin o con orden. Las distribuciones de muestreo más usadas en las aplicaciones estadísticas son las de: la media, la diferencia de medias, el cociente de medias, la proporción, la diferencia de proporciones, la varianza y la razón de varianzas muestrales.

Las características muestrales denominadas “estadísticas” se emplean para hacer inferencias con respecto a las características de la población, las que reciben el nombre de “parámetros”. El objetivo de esta sección será el de examinar con detalle el papel que desempeñan las estadísticas en relación con la inferencia. En particular, se desarrollará la noción de una distribución de muestreo de una estadística, que es uno de los conceptos más importantes en inferencia estadística. (Tilano 2015)

1.3.1 Poblaciones y muestras

Walpole et al. (2012) plantea lo siguiente:

Definición 1.1 Una población consta de la totalidad de las observaciones en las que estamos interesados

Se denomina población al conjunto completo de elementos, con alguna característica común, que es el objeto de nuestro estudio. Esta definición incluye, por ejemplo, a todos los sucesos en que podría concretarse un fenómeno o experimento cualesquiera. Una población puede ser finita o infinita (Gorgas, Cardiel, and Zamorano 2009).

Por ejemplo, los habitantes de un país, los planetas del Sistema Solar, las estrellas en la Vía Láctea, son elementos de una población finita. Sin embargo, el número de posibles medidas que se puedan hacer de la velocidad de la luz, o de tiradas de un dado, forman poblaciones infinitas. Cuando, el número de elementos es elevado, aunque la población sea finita, es necesario trabajar con solo una parte de dicha población. A un subconjunto de elementos de la población se le conoce como muestra.

Definición 1.2 Sean \(X_1, X_2,..., X_n\) variables aleatorias independientes, cada una con la misma distribución de probabilidad \(f(x)\). Definimos \(X_1, X_2,..., X_n\) como una muestra aleatoria de tamaño \(n\) de la población \(f(x)\) y escribimos su distribución de probabilidad conjunta como:

\[f (x_1 , x_2, . . . , x_n) = f (x_1 ) f (x_2) \cdots f (x_n)\]

Por ejemplo, si se quiere estudiar las propiedades de las estrellas en nuestra Galaxia, no tendremos la oportunidad de observarlas todas; tendremos que conformarnos con una muestra representativa. Obviamente, elegir de forma representativa los elementos de una muestra es algo muy importante. De hecho existe un grave problema, conocido como efecto de selección, que puede condicionar el resultado de un estudio si uno no realiza una selección correcta de los elementos que forman parte de una muestra.

Al número de elementos de la muestra se le llama tamaño de la muestra. Es fácil adelantar que para que los resultados de nuestro estudio estadístico sean fiables es necesario que la muestra tenga un tamaño mínimo. El caso particular de una muestra que incluye a todos los elementos de la población es conocido como censo.

1.3.2 Tipos de Muestreo

  • Muestreo con Reemplazamiento

Cuando cada elemento de la población pueda seleccionarse más de una vez tendremos un muestreo con reemplazamiento. Evidentemente, una población finita muestreada con reemplazamiento puede considerarse infinita.

  • Muestreo sin Reemplazamiento

Cuando cada elemento sólo se puede seleccionar una única vez será un muestreo sin reemplazamiento.

Si la población es infinita, o el tamaño de ésta (\(N\)) es muy grande comparado con el tamaño de la muestra (\(n\)), es prácticamente indiferente que el muestreo sea con o sin reemplazamiento. ¬

La gran recopilación de datos que es el objetivo de nuestro interés se denomina población, y el subconjunto seleccionado de ella es una muestra. Las preferencias del electorado para un candidato gubernamental, Jones, expresadas en forma cuantitativa (1 por “prefieren” y 0 para “no prefieren”) dan una población real, fi nita y existente de gran interés para Jones. Para determinar la verdadera fracción que está a favor de elegirlo, Jones necesitaría entrevistar a todo el electorado, trabajo que es prácticamente imposible. El voltaje en un punto particular en el sistema de guía para una nave espacial puede probarse en los únicos tres sistemas que se han construido. Los datos resultantes podrían usarse para estimar las características de voltaje para otros sistemas que podrían manufacturarse en el futuro. En este caso, la población es conceptual.

Es interesante observar que la industria y el gobierno de Estados Unidos gastan miles de millones de dólares cada año en busca de datos de experimentos, encuestas de muestreo y otros procedimientos de recolección de datos. Este dinero se gasta sólo para obtener información acerca de fenómenos susceptibles de medir en el ramo de fi nanzas, ciencias o las artes. Las implicaciones de esta afirmación dan la clave para la naturaleza de la muy valiosa aportación que la disciplina de estadística hace para la investigación y desarrollo en todos los campos de acción de la sociedad.

1.3.3 Caracteres cuantitativos y cualitativos

El objeto de nuestra medida pueden ser caracteres de tipos muy diversos. De ah´? que normalmente se clasifiquen en:

  • Caracteres cuantitativos: aquellos que toman valores numéricos. Por ejemplo la altura o la velocidad de un móvil.

  • Caracteres cualitativos: también llamados atributos, son aquellos que no podemos representar numéricamente y describen cualidades. Por ejemplo, un color o el estado civil.

Aunque existen algunas diferencias, el tratamiento para ambos casos es similar, pudiéndose asignar, en muchas ocasiones, valores numéricos a los diferentes caracteres cualitativos.

1.3.4 Variable estadística

Se entiende por variable estadística al símbolo que representa al dato o carácter objeto de nuestro estudio de los elementos de la muestra y que puede tomar un conjunto de valores. En el caso de que estemos tratando con caracteres cuantitativos, la variables estadísticas pueden clasificarse en: discretas, cuando solo pueden tomar una cantidad (finita o infinita) numerable de valores, y continuas cuando pueden tomar teóricamente infinitos valores entre dos valores dados. Es la diferencia básica que existe entre contar y medir.

Por ejemplo, el número de electrones de un átomo es una variable discreta. La velocidad o la altura de un móvil son variables continuas.

1.3.5 Ejemplos

Para cada una de las siguientes situaciones, identifique la población de interés, la meta inferencial y diga cómo emprendería la recolección de una muestra.

  • Un investigador universitario desea estimar la proporción de ciudadanos estadounidenses de la “generación X” que están interesados en iniciar sus propios negocios.

  • Durante más de un siglo, la temperatura corporal normal en seres humanos ha sido aceptada como 37°C. ¿Es así realmente? Los investigadores desean estimar el promedio de temperatura de adultos sanos en Estados Unidos.

  • Un ingeniero municipal desea estimar el promedio de consumo semanal de agua para unidades habitacionales unifamiliares en la ciudad.

  • El National Highway Safety Council desea estimar la proporción de llantas para automóvil con dibujo o superficie de rodadura insegura, entre todas las llantas manufacturadas por una empresa específica durante el presente año de producción.

  • Un politólogo desea estimar si la mayoría de los residentes adultos de un estado están a favor de una legislatura unicameral.

  • Un científico del área médica desea estimar el tiempo promedio para que se vuelva a presentar cierta enfermedad.

  • Un ingeniero electricista desea determinar si el promedio de vida útil de transistores de cierto tipo es mayor que 500 horas.

Referencias

Behar, Roberto, Rafael Klinger, Javier Olaya, Mercedes Andrade, Eloina Mesa, Gabriel Conde, Jorge Delgado, et al. 2002. “El Rol de La Estadística En El Trabajo Del Ingeniero.” Ingenierı́a y Competitividad 4 (1). https://www.studocu.com/co/document/universidad-del-valle-colombia/estadistica/estadistica-un-enfoque-descriptivo-cap1y2/9267727.
Gorgas, Javier, Nicolás Cardiel, and Jaime Zamorano. 2009. Estadística básica Para Estudiantes de Ciencias. Madrid: Universidad Complutense de Madrid.
Koen, Billy Vaughn. 1985. Definition of the Engineering Method. ERIC.
Mood, Alexander M. 1969. “Introducción a La Teorı́a de La Estadı́stica.”
Rice, John A. 2006. Mathematical Statistics and Data Analysis. Cengage Learning.
Tilano, Jorge. 2015. Guía Resumida de Estadística Matemática.
Walkerly, D, W Mendenhall, and R Scheaffer. 2010. “Estadística Matemática Con Aplicaciones (7 Ma Edición).” México, DF: Cencage Learning.
Walpole, Ronald E, Raymond H Myers, Sharon L Myers, and Keying Ye. 2012. Probabilidad y Estadística Para Ingeniería y Ciencias. México: Pearson Educación.

  1. En ingeniería, una heurística es un método basado en la experiencia que puede utilizarse como ayuda para resolver problemas de diseño, desde calcular los recursos necesarios hasta en planear las condiciones de operación de los sistemas. Mediante el uso de heurísticas, es posible resolver más rápidamente problemas conocidos o similares a otros conocidos.↩︎