Bioestadística básica/Posgrados CUCS
Instituto de Investigación en Ciencias Biomédicas
2024-09-01
Es un archivo de texto que permite la edición y lectura de código
La recomendación es que las tareas, apuntes de clase sean creados aquí
Necesita ser leído de arriba abajo
A veces llamamos objetos que no se encuentra en nuestro script
Es necesario tener órden
Es un maletín que contiene:
Objetos
Scripts
Carpetas
Gráficas
Bases de datos
Etc
Para la clase deberán crear uno o varios proyectos
En cada proyecto deberán cuando mínimo crear las siguientes carpetas
R
posee el poderoso concepto de directorio de trabajo (working directory en inglés). Aquí es donde R busca los archivos que le pides que lea y donde colocará todos los archivos que le pidas que guarde. RStudio muestra tu directorio de trabajo actual en la parte superior de la consola:
Para conocer en que carpeta están trabajando pueden utilizar el código:
En R
podemos encontrar varios operados conocidos conocidos como pipe. Los más utilizados es el símbolo %>%
que se encuentra en el paquete dplyr
y el símbolo |>
que se encuentra en el paquete base de R
.
Un pipe puede definirse como un símbolo que permite realizar llamadas o funciones encadenadas. De una manera más simple se puede entender como un símbolo que le permite pasar un resultado intermedio a la siguiente función y el resultado de esta función a la siguiente.
Un ejemplo del uso de pipes sería:
ID | EDAD | ID | EDAD | ID | EDAD |
---|---|---|---|---|---|
Paciente1 | 61 | Paciente21 | 53 | Paciente41 | 58 |
Paciente2 | 46 | Paciente22 | 50 | Paciente42 | 46 |
Paciente3 | 66 | Paciente23 | 54 | Paciente43 | 52 |
Paciente4 | 42 | Paciente24 | 64 | Paciente44 | 47 |
Paciente5 | 89 | Paciente25 | 73 | Paciente45 | 54 |
Paciente6 | 63 | Paciente26 | 61 | Paciente46 | 59 |
Paciente7 | 49 | Paciente27 | 53 | Paciente47 | 61 |
¿Cuál es la mejor manera de describir estos resultados?
Media aritmética
Media goemétrica
Media armónica
Media cuadrática
Mediana
Moda
Las unidades de medida de todos los parámetros de tendencia central son las mismas que la de los datos sobre los que se calculan
Se refiere al valor que tendría cada elemento de la serie de datos si todos tuvieran el mismo valor
La media aritmética de los datos: 2,4,6,8 y 9 es:
\(\bar{x}=\displaystyle\sum_{i=1}^n \frac{x_i}{n}=\frac{(2+4+6+8+9)}{5}=5.8\)
R
Se puede utilizar la función mean()
, la cual contiene los siguiente estructura:
R
R
\(\bar{x_p}= \frac {\displaystyle\sum_{i=1}^n {k_i}{x_i}}{\displaystyle\sum_{i=1}^n {k_i}} = \frac{{{k_1}{k_1}}+{{k_2}{k_2}}...{{k_n}{k_in}}}{{k_1}+{k_2}...{k_n}}\)
En la evaluación de un servicio sanitario, han sido calculados tres índices. La evaluación total del servicio se obtiene calculando la media ponderada de los índices ya que no tienen el mismo valor. Los pesos asignados son 3 al primer índice, 5 al segundo y 9 al tercero
Los datos que se obtuvieron son los siguientes:
Primer índice | 7 |
---|---|
Segundo índice | 8 |
Tercer índice | 7 |
Primer índice | 7 |
---|---|
Segundo índice | 8 |
Tercer índice | 7 |
Calcular la media geométrica de los datos siguientes: 4, 5, 6, 8, 9, 12
La media geométrica sólo es preferible a la aritmética en los casos que se presentan progresión geométricas. por ejemplo (cromatografía líquidos, citometría)
R
R
?Unicidad. Para un conjunto determinado de datos, sólo existe una media aritmética.
Simplicidad. La media aritmética es fácil de comprender y calcular.
Todos los valores en la serie de datos se utilizan para su cálculo. Por ello, los valores extremos pueden sesgar el resultado.
Se puede estimar una media de varios grupos.
Única.
Simple.
Los valores extremos no le afectan como a la media.
Divide al grupo de valores en dos partes iguales, cada una con el 50% de las observaciones.
Sus desventajas en relación con el promedio son:
Desprecia información, porque sólo considera los valores de 1 o 2 observaciones.
Cuando dos o más grupos se unen en uno solo, no es posible calcularla a partir de la mediana de cada grupo.
En la medidas de presión arterial sistólica en milímetros de mercurio en un grupo de pacientes se obtiene los siguientes resultados: 120, 135, 160, 100, 155, 115, 165, 125, 130.
Calcular el rango:
\(Máximo=165\)
\(Mínimo=100\)
\(Rango= 165-100=65\)
R
R
el rango se estima con la función:\({D_m}=\displaystyle\sum_{i=1}^n \frac{|{X_i}-\bar{X}|}{n}\)
Características:
\({D_m}=\displaystyle\sum_{i=1}^n \frac{|{X_i}-\bar{X}|}{n}\)
\[{D_m}=\frac{|180-170|+|165-170|+|160-170|+|175-170|}{4}\]
R
. EjemploNo hay una función para la desviación media
R
R
R
No hay una función en especifico para estimar el CV
R
creando una funciónEs necesario crear una función
R
creando una funciónR
creando una funciónfunction(x)
: Esto define una nueva función en R. x es el argumento de la función, y se espera que sea un vector numérico. Dentro de los paréntesis de function()
, puedes definir múltiples argumentos si fuera necesario, pero en este caso, solo se necesita un conjunto de datos (x) para calcular el CV.R
creando una funciónR
creando una funciónR
creando una funciónR
creando una funciónSon mayores o iguales a cero
A mayor dispersión de los datos mayor varianza y mayor desviación estándar
25% | \(Q_1\) | 25% | \(Q_2\) | 25% | \(Q_3\) | 25% |
---|
10% | 10% | 10% | 10% | 10% | 10% | 10% | 10% | 10% | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
\(D_1\) | \(D_2\) | \(D_3\) | \(D_4\) | \(D_5\) | \(D_6\) | \(D_7\) | \(D_8\) | \(D9\) | |||||||||
10% | 20% | 30% | 40% | 50% | 60% | 70% | 80% | 90% |
Cuartil | Decil | Percentil | |
---|---|---|---|
10 | 10% | ||
20 | 20% | ||
Q1 | 25% | ||
30 | 30% | ||
40 | 40% | ||
Mediana | Q2 | 50 | 50% |
Hay muchas formas de calcularlos
El primer cuartil está situado entre el segundo y tercer dato
Dado que la distancia entre el segundo (3) y el tercer dato (5) es de dos, 0.25 corresponde a 0.5
El primer cuartil es 3.5
R
?R
?R
tiene varios algoritmos para calcular los percentiles 80%
39.4
https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/quantile
R
edades
R
type
\(IQR=Q_3-Q_1\)
R
edades
describe
de la librería pshych
ds_tidy_stats()
de la librería descriptr
# A tibble: 1 × 16
vars min max mean t_mean median mode range variance stdev skew
<chr> <int> <int> <dbl> <dbl> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
1 glu 56 199 124. 123. 120. 100 143 1003. 31.7 0.456
# ℹ 5 more variables: kurtosis <dbl>, coeff_var <dbl>, q1 <dbl>, q3 <dbl>,
# iqrange <dbl>
stem
The decimal point is at the |
18 | 00
20 | 00000
22 | 0000000
24 | 000000000000000
26 | 000000000
28 | 0000000
30 | 000000000
32 | 0000000000
34 | 00000
36 | 000000
38 | 000000000
40 | 000000000
42 | 00000000000000
44 | 0000000
46 | 00000000000
48 | 00000000000
50 | 000000
52 | 00000000
54 | 00000
56 | 0000000000
58 | 00000000
60 | 000000000
62 | 000000000000
64 | 000000
Un histograma es un tipo de gráfico que se utiliza en estadística para representar la distribución de frecuencias de una variable cuantitativa. En un histograma, el eje horizontal representa los valores posibles de la variable y se dividen en intervalos o “bins”, mientras que el eje vertical representa la frecuencia o la densidad de ocurrencia de esos valore
R
hist(x, breaks = "Sturges",
freq = NULL, probability = !freq,
include.lowest = TRUE, right = TRUE, fuzz = 1e-7,
density = NULL, angle = 45, col = "lightgray", border = NULL,
main = paste("Histogram of" , xname),
xlim = range(breaks), ylim = NULL,
xlab = xname, ylab,
axes = TRUE, plot = TRUE, labels = FALSE,
nclass = NULL, warn.unused = TRUE, ...)
R
R
Construya un histograma para el obejto edades con 10 intervalos de clase y que cada uno de ellos tenga un color diferente
03:00
ggplot2
ggplot2
R
:
R
R
Interprete
¿A partir de que números se consideraría un valor extremo?
R
ggplot2
Un gráfico de densidad es una representación visual de la distribución de una variable cuantitativa. A diferencia de un histograma, que utiliza barras para representar la frecuencia de observaciones en intervalos de valores, un gráfico de densidad utiliza una curva suavizada para mostrar la densidad de probabilidad de los datos en diferentes valores de la variable
R
R
Un gráfico de violín es un tipo de visualización que combina un diagrama de caja (boxplot) con una representación de la densidad de probabilidad de los datos. Esta combinación proporciona una representación más completa de la distribución de los datos que un diagrama de caja y bigotes tradicional.
R
R
ggplot2
ggplot2
ggplot2
ggplot2
Bioestadística básica/Posgrados CUCS