4 Conceptos básicos de probabilidad

4.1 Definición de probabilidad.

El conjunto de datos es originalmente del Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales. El objetivo del conjunto de datos es predecir de forma diagnóstica si un paciente tiene diabetes o no, basándose en determinadas medidas de diagnóstico incluidas en el conjunto de datos. El conjunto de datos PimaIndiansDiabetes está disponible en el paquete mlbench.

library("mlbench")
data("PimaIndiansDiabetes2" , package = "mlbench" )

Vamos a revisar las variables Treatment y Type.

data( "PimaIndiansDiabetes2" , package = "mlbench" )
table(PimaIndiansDiabetes2$diabetes, PimaIndiansDiabetes2$age)
##      
##       21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
##   neg 58 61 31 38 34 25 24 25 16 15 11  7  7 10  5  6 13  6  9  7  9 11  2  3  7  6  2  4
##   pos  5 11  7  8 14  8  8 10 13  6 13  9 10  4  5 10  6 10  3  6 13  7 11  5  8  7  4  1
##      
##       49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 72 81
##   neg  2  3  3  1  1  2  3  1  4  4  1  3  1  2  4  1  3  2  2  1  2  0  1  1
##   pos  3  5  5  7  4  4  1  2  1  3  2  2  1  2  0  0  0  2  1  0  0  1  0  0

Y para obtener los totales en las tablas, anexamos al código anterior:

data( "PimaIndiansDiabetes2" , package = "mlbench" )
addmargins(table(PimaIndiansDiabetes2$diabetes, PimaIndiansDiabetes2$age))
##      
##        21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41
##   neg  58  61  31  38  34  25  24  25  16  15  11   7   7  10   5   6  13   6   9   7   9
##   pos   5  11   7   8  14   8   8  10  13   6  13   9  10   4   5  10   6  10   3   6  13
##   Sum  63  72  38  46  48  33  32  35  29  21  24  16  17  14  10  16  19  16  12  13  22
##      
##        42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62
##   neg  11   2   3   7   6   2   4   2   3   3   1   1   2   3   1   4   4   1   3   1   2
##   pos   7  11   5   8   7   4   1   3   5   5   7   4   4   1   2   1   3   2   2   1   2
##   Sum  18  13   8  15  13   6   5   5   8   8   8   5   6   4   3   5   7   3   5   2   4
##      
##        63  64  65  66  67  68  69  70  72  81 Sum
##   neg   4   1   3   2   2   1   2   0   1   1 500
##   pos   0   0   0   2   1   0   0   1   0   0 268
##   Sum   4   1   3   4   3   1   2   1   1   1 768

Ya con la tabla construida podemos responder las siguientes preguntas:

¿Cuál es la probabilidad de que sea negativo para diabetes?

Veamos la suma en Neg y el total al final de la tabla:

\[ P(Neg)=\frac{500}{768} \]

500/768
## [1] 0.6510417

Vea la suma de la columna en 60:

¿Cuál es la probabilidad de que tenga 60 años? \[ P(Neg)=\frac{5}{768} \]

5/768
## [1] 0.006510417

4.1.1 Leyes de la adición y la multiplicación. Eventos mutuamente excluyentes

data( "PimaIndiansDiabetes2" , package = "mlbench" )
addmargins(table(PimaIndiansDiabetes2$diabetes, PimaIndiansDiabetes2$age))
##      
##        21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41
##   neg  58  61  31  38  34  25  24  25  16  15  11   7   7  10   5   6  13   6   9   7   9
##   pos   5  11   7   8  14   8   8  10  13   6  13   9  10   4   5  10   6  10   3   6  13
##   Sum  63  72  38  46  48  33  32  35  29  21  24  16  17  14  10  16  19  16  12  13  22
##      
##        42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62
##   neg  11   2   3   7   6   2   4   2   3   3   1   1   2   3   1   4   4   1   3   1   2
##   pos   7  11   5   8   7   4   1   3   5   5   7   4   4   1   2   1   3   2   2   1   2
##   Sum  18  13   8  15  13   6   5   5   8   8   8   5   6   4   3   5   7   3   5   2   4
##      
##        63  64  65  66  67  68  69  70  72  81 Sum
##   neg   4   1   3   2   2   1   2   0   1   1 500
##   pos   0   0   0   2   1   0   0   1   0   0 268
##   Sum   4   1   3   4   3   1   2   1   1   1 768

Con los mismo datos, ¿Cuál es la probabilidad de que tenga 32 años y sea positivo?

\[ P(Pos \cap 32) =\frac{9}{768} \]

9/768
## [1] 0.01171875

Con los mismo datos, ¿Cuál es la probabilidad de que tenga 32 años ó sea positivo?

\[ P(Pos \cup 32) = P(Pos)+P(32)-P(Pos \cap 32) \]

\[ P(Pos \cup 32) = \frac{268}{768}+\frac{16}{768}-\frac{9}{768} \]

4.2 Probabilidad condicional, teorema de Bayes

data( "PimaIndiansDiabetes2" , package = "mlbench" )
addmargins(table(PimaIndiansDiabetes2$diabetes, PimaIndiansDiabetes2$age))
##      
##        21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41
##   neg  58  61  31  38  34  25  24  25  16  15  11   7   7  10   5   6  13   6   9   7   9
##   pos   5  11   7   8  14   8   8  10  13   6  13   9  10   4   5  10   6  10   3   6  13
##   Sum  63  72  38  46  48  33  32  35  29  21  24  16  17  14  10  16  19  16  12  13  22
##      
##        42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62
##   neg  11   2   3   7   6   2   4   2   3   3   1   1   2   3   1   4   4   1   3   1   2
##   pos   7  11   5   8   7   4   1   3   5   5   7   4   4   1   2   1   3   2   2   1   2
##   Sum  18  13   8  15  13   6   5   5   8   8   8   5   6   4   3   5   7   3   5   2   4
##      
##        63  64  65  66  67  68  69  70  72  81 Sum
##   neg   4   1   3   2   2   1   2   0   1   1 500
##   pos   0   0   0   2   1   0   0   1   0   0 268
##   Sum   4   1   3   4   3   1   2   1   1   1 768

Con los mismo datos, ¿Cuál es la probabilidad de que tenga 41 años dado que es positivo?

\[ P(41|Pos) = \frac{13}{268} \]

13/268
## [1] 0.04850746

Con los mismo datos, ¿Cuál es la probabilidad de que sea negativo dado que es tiene 65 años?

\[ P(65|Neg) = \frac{3}{500} \]

3/500
## [1] 0.006

¿Cuál es la probabilidad de que sea positivo dado que es tiene 65 años?

\[ P(65|Pos) = \frac{0}{268} \]

0
## [1] 0

4.2.1 Ejercicio

Presencia de glucosuria en pacientes diabéticos y sin diabetes

En total se examinó a 1.000 pacientes, 200 de los cuales eran diabéticos y 800 no diabéticos. Entonces, cargue los datos en su computador y descargados de:

DATOS DIABETES1

Son datos en formato csv por tanto, necesitan otra manera de cargar:

diabetes<-read.csv("Diabetes.csv", sep=";")

Presencia de glucosuria en pacientes diabéticos y sin diabetes

Se compara el diagnóstico clínico de úlcera gastroduodenal y su hallazgo en la autopsia en una serie de 10.000 pacientes. Al comenzar a analizar los datos, construya la tabla con los siguientes datos:

DATOS ÚLCERA