4 Conceptos básicos de probabilidad
4.1 Definición de probabilidad.
El conjunto de datos es originalmente del Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales. El objetivo del conjunto de datos es predecir de forma diagnóstica si un paciente tiene diabetes o no, basándose en determinadas medidas de diagnóstico incluidas en el conjunto de datos. El conjunto de datos PimaIndiansDiabetes está disponible en el paquete mlbench.
library("mlbench")
data("PimaIndiansDiabetes2" , package = "mlbench" )
Vamos a revisar las variables Treatment y Type.
data( "PimaIndiansDiabetes2" , package = "mlbench" )
table(PimaIndiansDiabetes2$diabetes, PimaIndiansDiabetes2$age)
##
## 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
## neg 58 61 31 38 34 25 24 25 16 15 11 7 7 10 5 6 13 6 9 7 9 11 2 3 7 6 2 4
## pos 5 11 7 8 14 8 8 10 13 6 13 9 10 4 5 10 6 10 3 6 13 7 11 5 8 7 4 1
##
## 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 72 81
## neg 2 3 3 1 1 2 3 1 4 4 1 3 1 2 4 1 3 2 2 1 2 0 1 1
## pos 3 5 5 7 4 4 1 2 1 3 2 2 1 2 0 0 0 2 1 0 0 1 0 0
Y para obtener los totales en las tablas, anexamos al código anterior:
data( "PimaIndiansDiabetes2" , package = "mlbench" )
addmargins(table(PimaIndiansDiabetes2$diabetes, PimaIndiansDiabetes2$age))
##
## 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41
## neg 58 61 31 38 34 25 24 25 16 15 11 7 7 10 5 6 13 6 9 7 9
## pos 5 11 7 8 14 8 8 10 13 6 13 9 10 4 5 10 6 10 3 6 13
## Sum 63 72 38 46 48 33 32 35 29 21 24 16 17 14 10 16 19 16 12 13 22
##
## 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62
## neg 11 2 3 7 6 2 4 2 3 3 1 1 2 3 1 4 4 1 3 1 2
## pos 7 11 5 8 7 4 1 3 5 5 7 4 4 1 2 1 3 2 2 1 2
## Sum 18 13 8 15 13 6 5 5 8 8 8 5 6 4 3 5 7 3 5 2 4
##
## 63 64 65 66 67 68 69 70 72 81 Sum
## neg 4 1 3 2 2 1 2 0 1 1 500
## pos 0 0 0 2 1 0 0 1 0 0 268
## Sum 4 1 3 4 3 1 2 1 1 1 768
Ya con la tabla construida podemos responder las siguientes preguntas:
¿Cuál es la probabilidad de que sea negativo para diabetes?
Veamos la suma en Neg y el total al final de la tabla:
\[ P(Neg)=\frac{500}{768} \]
500/768
## [1] 0.6510417
Vea la suma de la columna en 60:
¿Cuál es la probabilidad de que tenga 60 años? \[ P(Neg)=\frac{5}{768} \]
5/768
## [1] 0.006510417
4.1.1 Leyes de la adición y la multiplicación. Eventos mutuamente excluyentes
data( "PimaIndiansDiabetes2" , package = "mlbench" )
addmargins(table(PimaIndiansDiabetes2$diabetes, PimaIndiansDiabetes2$age))
##
## 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41
## neg 58 61 31 38 34 25 24 25 16 15 11 7 7 10 5 6 13 6 9 7 9
## pos 5 11 7 8 14 8 8 10 13 6 13 9 10 4 5 10 6 10 3 6 13
## Sum 63 72 38 46 48 33 32 35 29 21 24 16 17 14 10 16 19 16 12 13 22
##
## 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62
## neg 11 2 3 7 6 2 4 2 3 3 1 1 2 3 1 4 4 1 3 1 2
## pos 7 11 5 8 7 4 1 3 5 5 7 4 4 1 2 1 3 2 2 1 2
## Sum 18 13 8 15 13 6 5 5 8 8 8 5 6 4 3 5 7 3 5 2 4
##
## 63 64 65 66 67 68 69 70 72 81 Sum
## neg 4 1 3 2 2 1 2 0 1 1 500
## pos 0 0 0 2 1 0 0 1 0 0 268
## Sum 4 1 3 4 3 1 2 1 1 1 768
Con los mismo datos, ¿Cuál es la probabilidad de que tenga 32 años y sea positivo?
\[ P(Pos \cap 32) =\frac{9}{768} \]
9/768
## [1] 0.01171875
Con los mismo datos, ¿Cuál es la probabilidad de que tenga 32 años ó sea positivo?
\[ P(Pos \cup 32) = P(Pos)+P(32)-P(Pos \cap 32) \]
\[ P(Pos \cup 32) = \frac{268}{768}+\frac{16}{768}-\frac{9}{768} \]
4.2 Probabilidad condicional, teorema de Bayes
data( "PimaIndiansDiabetes2" , package = "mlbench" )
addmargins(table(PimaIndiansDiabetes2$diabetes, PimaIndiansDiabetes2$age))
##
## 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41
## neg 58 61 31 38 34 25 24 25 16 15 11 7 7 10 5 6 13 6 9 7 9
## pos 5 11 7 8 14 8 8 10 13 6 13 9 10 4 5 10 6 10 3 6 13
## Sum 63 72 38 46 48 33 32 35 29 21 24 16 17 14 10 16 19 16 12 13 22
##
## 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62
## neg 11 2 3 7 6 2 4 2 3 3 1 1 2 3 1 4 4 1 3 1 2
## pos 7 11 5 8 7 4 1 3 5 5 7 4 4 1 2 1 3 2 2 1 2
## Sum 18 13 8 15 13 6 5 5 8 8 8 5 6 4 3 5 7 3 5 2 4
##
## 63 64 65 66 67 68 69 70 72 81 Sum
## neg 4 1 3 2 2 1 2 0 1 1 500
## pos 0 0 0 2 1 0 0 1 0 0 268
## Sum 4 1 3 4 3 1 2 1 1 1 768
Con los mismo datos, ¿Cuál es la probabilidad de que tenga 41 años dado que es positivo?
\[ P(41|Pos) = \frac{13}{268} \]
13/268
## [1] 0.04850746
Con los mismo datos, ¿Cuál es la probabilidad de que sea negativo dado que es tiene 65 años?
\[ P(65|Neg) = \frac{3}{500} \]
3/500
## [1] 0.006
¿Cuál es la probabilidad de que sea positivo dado que es tiene 65 años?
\[ P(65|Pos) = \frac{0}{268} \]
0
## [1] 0
4.2.1 Ejercicio
Presencia de glucosuria en pacientes diabéticos y sin diabetes
En total se examinó a 1.000 pacientes, 200 de los cuales eran diabéticos y 800 no diabéticos. Entonces, cargue los datos en su computador y descargados de:
Son datos en formato csv
por tanto, necesitan otra manera de cargar:
<-read.csv("Diabetes.csv", sep=";") diabetes
Presencia de glucosuria en pacientes diabéticos y sin diabetes
Se compara el diagnóstico clínico de úlcera gastroduodenal y su hallazgo en la autopsia en una serie de 10.000 pacientes. Al comenzar a analizar los datos, construya la tabla con los siguientes datos: