Datos y Variables

Bioestadística básica/Posgrados CUCS

Pérez-Guerrero Edsaúl Emilio

Instituto de Investigación en Ciencias Biomédicas

2024-08-13

Contenido

  • Tipos de datos
  • Tipos de variables
  • Arreglos de datos
  • Programas estadísticos (ventajas y desventajas)

Etapas del análisis estadístico

Etapas del análisis estadístico

Análisis de datos en la investigación

Etapas del análisis estadístico

Otros ejemplos de las etatpas del análisis estadístico

Etapas del análisis estadístico

Etapas del análisis estadístico

Datos

Datos

npreg glu bp skin bmi ped age type
5 86 68 28 30.2 0.364 24 No
7 195 70 33 25.1 0.163 55 Yes
5 77 82 41 35.8 0.156 35 No
0 165 76 43 47.9 0.259 26 No
0 107 60 25 26.4 0.133 23 No
5 97 76 27 35.6 0.378 52 Yes
3 83 58 31 34.3 0.336 25 No
1 193 50 16 25.9 0.655 24 No

Tipos de variables

Tipos de variables

Tipos de variables

Tipos de variables

Indexación

Por lo general, son nombres, etiquetas, números de caso o números de serie que identifican a un encuestado o grupo de encuestados

ID Edad Peso Estatura Presion_Sistolica Presion_Diastolica Horas_Sueno Visitas_Medico
1 47 88.50964 1.583481 100.8382 75.95191 8.000231 8
2 23 79.51543 1.695203 137.6579 78.87234 9.864301 6
3 60 76.18033 1.702686 133.5376 97.97140 7.496438 2
4 25 81.90378 1.626974 101.0804 71.89674 7.159541 6
5 39 67.71384 1.789743 132.5618 99.00900 4.364693 7

Tipos de variables

Cualitativas

  • Binaria: este es el tipo de variable más simple, con solo dos respuestas posibles.

  • Nominal: este tipo de datos de cadena de caracteres es una versión más general de una variable binaria y tiene un número fijo de respuestas posibles que no pueden ordenarse de manera útil. Suelen estar codificadas alfanuméricamente establecidas por el investigador.

Tipos de variables

Cualitativas

npreg glu bp skin bmi ped age type
5 86 68 28 30.2 0.364 24 No
7 195 70 33 25.1 0.163 55 Yes
5 77 82 41 35.8 0.156 35 No
0 165 76 43 47.9 0.259 26 No

Tipos de variables

Cualitativas

Tetrahydrocortisone Pregnanetriol Type
a1 3.1 11.70 a
a2 3.0 1.30 a
a3 1.9 0.10 a
a4 3.8 0.04 a
a5 4.1 1.10 a
a6 1.9 0.40 a
b1 8.3 1.00 b
b2 3.8 0.20 b
b3 3.9 0.60 b
b4 7.8 1.20 b
b5 9.1 0.60 b
b6 15.4 3.60 b
b7 7.7 1.60 b
b8 6.5 0.40 b
b9 5.7 0.40 b
b10 13.6 1.60 b
c1 10.2 6.40 c
c2 9.2 7.90 c
c3 9.6 3.10 c
c4 53.8 2.50 c
c5 15.8 7.60 c
u1 5.1 0.40 u
u2 12.9 5.00 u
u3 13.0 0.80 u
u4 2.6 0.10 u
u5 30.0 0.10 u
u6 20.5 0.80 u

Tipos de variables

Cualitativas

  • Ordinal: las posibles respuestas para este tipo de datos de cadena de caracteres están ordenadas linealmente.
Genero Fumador Colesterol Diabetes Actividad_Fisica
Femenino Normal Gestacional Alta
Femenino No Elevado Tipo 2 Alta
Femenino No Normal Tipo 1 Moderada
Masculino Elevado Ninguna Baja
Femenino Normal Tipo 1 Moderada
Masculino Alto Ninguna Alta
Masculino Elevado Gestacional Alta

Tipos de variables

Cuantitativas

  • Variables discretas: variables numéricas que no pueden dividirse. Cuantitativa

  • Variables continuas: datos numéricos cuyo número entero está seguido por decimales. Cuantitativa

  • Intervalo: No incluye el cero absoluto. Cuantitativa

  • De razón: Incluyen el cero absoluto. Cuantitativa

Tipos de variables

Cuantitativas

Edad Peso Estatura Presion_Sistolica Presion_Diastolica Horas_Sueno Visitas_Medico
47 88.50964 1.583481 100.83824 75.95191 8.000231 8
23 79.51543 1.695203 137.65788 78.87234 9.864301 6
60 76.18033 1.702686 133.53759 97.97140 7.496438 2
25 81.90378 1.626974 101.08044 71.89674 7.159541 6
39 67.71384 1.789743 132.56183 99.00900 4.364693 7
39 66.56656 1.826365 84.77565 87.08954 9.814233 10
56 56.48812 1.698560 129.16457 87.36195 4.721423 9
48 58.97461 1.623426 119.28198 93.65777 4.530180 4
65 48.58471 1.665161 84.01203 74.23736 9.284585 0
34 79.28925 1.787661 119.71022 71.95268 7.050224 6

Tipos de variables

Clasifique cada uno de las siguientes variable, si es cualitativa diga de que tipo y si es cuantitativa diga de que tipo

  • Edad de la madre (en años cumplidos)
  • Talla de la madre (en centímetros)
  • Estado civil (soltera, casada, unión libre, otro)
  • Escolaridad (menos de primaria, primaria, secundaria, preparatoria o más)
  • Temperatura (en grados Celsius)
  • Ocupación durante el embarazo (según la Clasificación Mexicana de Ocupaciones)
  • Exposición al humo de tabaco durante el embarazo (no, fumadora pasiva, fumadora activa)
  • Hemoglobina en sangre (mg/dl) en la primera consulta prenatal
  • Número de consultas prenatales antes del tercer trimestre del embarazo

Tipos de variables

Clasifique cada uno de las siguientes variable, si es cualitativa diga de que tipo y si es cuantitativa diga de que tipo

  • Edad de la madre (en años cumplidos) Discreta, de razón
  • Talla de la madre (en centímetros) Continua, de razón
  • Estado civil (soltera, casada, unión libre, otro) Nominal
  • Escolaridad (menos de primaria, primaria, secundaria, preparatoria o más) Ordinal
  • Temperatura (en grados Celsius) Continua, de intervalo
  • Ocupación durante el embarazo (según la Clasificación Mexicana de Ocupaciones) Nominal
  • Exposición al humo de tabaco durante el embarazo (no, fumadora pasiva, fumadora activa) Ordinal
  • Hemoglobina en sangre (mg/dl) en la primera consulta prenatal Continua, de razón
  • Número de consultas prenatales antes del tercer trimestre del embarazo ) Discreta, de razón

Definición operativa

  • El sarampión es una enfermedad viral caracterizada por síntomas prodrómicos (fiebre, conjuntivitis, coriza, tos y manchas de Koplik en la mucosa bucal) que del tercer al séptimo días presenta en cara erupción exantemática que se generaliza al resto del cuerpo y desaparece de 4 a 7 días después. Durante el periodo de incubación, enfermedad y convalecencia, se presentan modificaciones inmunes características del proceso morboso

Arreglos de datos

Vectores

Un vector es la estructura de datos más sencilla en R. Un vector es una colección de uno o más datos del mismo tipo.

Todos los vectores tienen tres propiedades:

  • Tipo. Un vector tiene el mismo tipo que los datos que contiene. Si tenemos un vector que contiene datos de tipo numérico, el vector será también de tipo numérico. Los vectores son atómicos, pues sólo pueden contener datos de un sólo tipo, no es posible mezclar datos de tipos diferentes dentro de ellos.
  • Largo. Es el número de elementos que contiene un vector. El largo es la única dimensión que tiene esta estructura de datos.

Tomado de: https://bookdown.org/jboscomendoza/r-principiantes4/vectores.html

Vectores

Vector numérico

edades <- c(5,3,3,4,4,3,4,7,6,3,3,4)

Vector de texto (caracteres)

Identificador <- c("Patient A", "Patient B", "Patient C",
                   "Patient D", "Patient E")

Matrices

Las matrices son, por lo tanto, una estructura con forma rectangular, con renglones y columnas. Con un solo tipo de dato

           [,1]       [,2]       [,3]       [,4]
[1,] -0.5604756 0.07050839  0.4609162 -0.4456620
[2,] -0.2301775 0.12928774 -1.2650612  1.2240818
[3,]  1.5587083 1.71506499 -0.6868529  0.3598138

Data frame

  • El formato más popular para organizar datos en una base de datos es en forma de tablas, cada tabla tiene la forma de una matriz rectangular organizada en filas y columnas, donde una fila representa los valores de todas las variables en una sola observación

  • Contiene dos dimensiones y con más de un solo tipo de dato

Data frame

npreg glu bp skin bmi ped age type
5 86 68 28 30.2 0.364 24 No
7 195 70 33 25.1 0.163 55 Yes
5 77 82 41 35.8 0.156 35 No
0 165 76 43 47.9 0.259 26 No
0 107 60 25 26.4 0.133 23 No
5 97 76 27 35.6 0.378 52 Yes

Data frame

ID Genero Fumador Edad Peso Estatura Presion_Sistolica Presion_Diastolica
1 Femenino 47 88.50964 1.583481 100.83824 75.95191
2 Femenino No 23 79.51543 1.695203 137.65788 78.87234
3 Femenino No 60 76.18033 1.702686 133.53759 97.97140
4 Masculino 25 81.90378 1.626974 101.08044 71.89674
5 Femenino 39 67.71384 1.789743 132.56183 99.00900
6 Masculino 39 66.56656 1.826365 84.77565 87.08954

Codificación de variables

  • La codificación traslada la información alfanumérica a numérica (por ejemplo sexo: hombre=1; mujer=2)

  • Cuando las variables son ordinales (por ejemplo, nivel de estudios) es conveniente adjudicar el mayor código al encuestado de mayor nivel (por ejemplo, ninguno=0, primarios=1, secundarios=2 y universitarios=3)

Codificación de variables

  • En el caso de respuestas binarias “sí / no” se suele considerar sí=1 y no=0.

  • Los datos faltantes también son comunes, y se pueden representar de varias maneras, como usar “NA” o algún valor que normalmente no ocurriría, como 9999 para un dato de Edad faltante.

Nombres de las variables

  • Evitar el uso de nombres largos
  • PROHIBIDO Nombres sin espacios
  • Seguir un sistema
    • Tecnica_De_La_Serpiente
  • Evitar espacios vacíos
  • No agregar información en el nombre de la variable
  • Limitar respuestas

Software estadístico

JASP

JASP

JASP

JASP

JASP

https://jasp-stats.org/

First developed at the University of Amsterdam, JASP is a popular software program for conducting and teaching statistics.

JASP

JASP

SPSS

SPSS

SAS

SAS

Epi Info

Epi Info ## Jamovi

Jamovi ## Jamovi

The jamovi project was founded to develop a free and open statistical platform which is intuitive to use, and can provide the latest developments in statistical methodology. At the core of the jamovi philosophy, is that scientific software should be “community driven”, where anyone can develop and publish analyses, and make them available to a wide audience

Jamovi

Jamovi

Otros

  • Stata
  • Medcalc
  • Open Epi
  • GoogleSheet
  • Libre Oficce
  • Excel

Curva de aprendizaje y poder