3 Resúmenes numéricos

Ahora que hemos analizado la exploración de datos categóricos y numéricos, aprenderá algunas estadísticas útiles para describir distribuciones de datos.

3.1 Medidas de centralidad

3.1.0.1 Calcular medidas centrales

A lo largo de este capítulo, utilizará datos de gapminder, que rastrea datos demográficos en países del mundo a lo largo del tiempo. Para obtener más información al respecto, puede abrir el archivo de ayuda con `?gapminder’.

Primero revise como son los datos con la función `head()’

library("gapminder")
head(gapminder)
## # A tibble: 6 × 6
##   country     continent  year lifeExp      pop gdpPercap
##   <fct>       <fct>     <int>   <dbl>    <int>     <dbl>
## 1 Afghanistan Asia       1952    28.8  8425333      779.
## 2 Afghanistan Asia       1957    30.3  9240934      821.
## 3 Afghanistan Asia       1962    32.0 10267083      853.
## 4 Afghanistan Asia       1967    34.0 11537966      836.
## 5 Afghanistan Asia       1972    36.1 13079460      740.
## 6 Afghanistan Asia       1977    38.4 14880372      786.

Media

  • Punto de equilibrio de los datos
  • Sensible a valores extremos
sum(gapminder$lifeExp)/length(gapminder$lifeExp)
## [1] 59.47444
mean(gapminder$lifeExp)
## [1] 59.47444

Mediana

  • Valor medio de los datos
  • Vobusto a valores extremos
  • Medida más apropiada cuando se trabaja con datos sesgados
sort(gapminder$lifeExp)
##    [1] 23.59900 28.80100 30.00000 30.01500 30.33100 30.33200 31.22000 31.28600 31.57000
##   [10] 31.97500 31.99700 31.99900 32.06500 32.50000 32.54800 32.76700 32.97800 33.48900
##   [19] 33.60900 33.68500 33.77900 33.89600 33.97000 34.00000 34.02000 34.07800 34.11300
##   [28] 34.48200 34.48800 34.55800 34.81200 34.90600 34.97700 35.18000 35.30700 35.40000
##   [37] 35.46300 35.49200 35.75300 35.85700 35.92800 35.98300 35.98500 36.08700 36.08800
##   [46] 36.15700 36.16100 36.25600 36.31900 36.32400 36.48600 36.66700 36.68100 36.78800
##   [55] 36.93600 36.98100 36.98400 37.00300 37.19700 37.20700 37.27800 37.32800 37.37300
##   [64] 37.44400 37.46400 37.46500 37.46800 37.48400 37.48500 37.57800 37.57900 37.68600
##   [73] 37.80200 37.81400 37.92800 38.04700 38.09200 38.11300 38.22300 38.30800 38.33300
##   [82] 38.41000 38.43800 38.44500 38.48000 38.48700 38.52300 38.59600 38.59800 38.63500
##   [91] 38.84200 38.86500 38.97700 38.98700 38.99900 39.03100 39.14300 39.19300 39.32700
##  [100] 39.32900 39.34800 39.36000 39.39300 39.41700 39.47500 39.48300 39.48600 39.48700
##  [109] 39.48700 39.61300 39.62400 39.65800 39.69300 39.84800 39.85400 39.87500 39.88100
##  [118] 39.89700 39.90600 39.91800 39.94200 39.97700 39.97800 39.98900 40.00000 40.00600
##  [127] 40.05900 40.08000 40.11800 40.15800 40.23800 40.24900 40.31700 40.32800 40.35800
##  [136] 40.41200 40.41400 40.42800 40.47700 40.48900 40.50200 40.51600 40.53300 40.54300
##  [145] 40.54600 40.64700 40.65200 40.69600 40.69700 40.71500 40.76200 40.80200 40.82200
##  [154] 40.84800 40.87000 40.96300 40.97300 41.00300 41.01200 41.04000 41.20800 41.21500
##  [163] 41.21600 41.24500 41.29100 41.36600 41.40700 41.45400 41.47200 41.47800 41.50000
##  [172] 41.53600 41.67400 41.71400 41.71600 41.72500 41.76300 41.76600 41.84200 41.89000
##  [181] 41.89300 41.90500 41.91200 41.97400 42.02300 42.02400 42.03800 42.04500 42.07400
##  [190] 42.08200 42.11100 42.11500 42.12200 42.12900 42.13800 42.18900 42.22100 42.24400
##  [199] 42.27000 42.31400 42.33800 42.38400 42.46000 42.46900 42.49500 42.51800 42.56800
##  [208] 42.57100 42.58700 42.59200 42.59800 42.61400 42.61800 42.64300 42.72300 42.73100
##  [217] 42.79500 42.82100 42.85800 42.86100 42.86800 42.87300 42.88100 42.88700 42.89100
##  [226] 42.95500 42.97400 43.00000 43.07700 43.14900 43.15800 43.16000 43.16500 43.26600
##  [235] 43.30800 43.41300 43.41500 43.42400 43.42800 43.43600 43.45300 43.45700 43.48700
##  [244] 43.51500 43.54800 43.56300 43.58500 43.59000 43.59100 43.60100 43.60500 43.66200
##  [253] 43.75300 43.76400 43.76700 43.79500 43.82800 43.86900 43.89000 43.90200 43.91600
##  [262] 43.92200 43.97100 44.00000 44.02000 44.02600 44.05600 44.05700 44.07700 44.10000
##  [271] 44.14200 44.14200 44.17500 44.24600 44.24800 44.28400 44.36600 44.44400 44.46700
##  [280] 44.50100 44.50136 44.51000 44.51400 44.53500 44.55500 44.57800 44.59300 44.59800
##  [289] 44.60000 44.60000 44.66500 44.68600 44.73600 44.74100 44.77900 44.79900 44.85100
##  [298] 44.85200 44.86900 44.87300 44.88500 44.91600 44.93000 44.96600 44.99200 45.00000
##  [307] 45.00900 45.00900 45.03200 45.04700 45.05300 45.08300 45.10800 45.22600 45.24800
##  [316] 45.25200 45.26200 45.28900 45.32000 45.32600 45.34400 45.36300 45.41500 45.42300
##  [325] 45.43200 45.50400 45.54800 45.55200 45.55700 45.56900 45.58000 45.64200 45.66400
##  [334] 45.66900 45.67100 45.67800 45.68500 45.75700 45.81500 45.82600 45.88300 45.91000
##  [343] 45.91400 45.92800 45.93600 45.96400 45.98900 46.02300 46.02700 46.06600 46.10000
##  [352] 46.13700 46.21800 46.24200 46.24300 46.26300 46.28900 46.34400 46.36400 46.38800
##  [361] 46.45200 46.45300 46.46200 46.47100 46.47200 46.51900 46.60800 46.63300 46.63400
##  [370] 46.68400 46.71400 46.74800 46.76900 46.77500 46.80900 46.83200 46.85900 46.88100
##  [379] 46.88600 46.92300 46.95400 46.98800 46.99200 47.01400 47.04900 47.10000 47.18100
##  [388] 47.19300 47.35000 47.36000 47.38300 47.39100 47.41200 47.45300 47.45700 47.46400
##  [397] 47.47100 47.47200 47.49500 47.54500 47.62000 47.62200 47.67000 47.74700 47.75200
##  [406] 47.76800 47.78400 47.80000 47.80400 47.80800 47.81300 47.83800 47.92400 47.94900
##  [415] 47.98500 47.99100 48.04100 48.04200 48.05100 48.07200 48.07900 48.09100 48.12200
##  [424] 48.12600 48.12700 48.15900 48.21100 48.24500 48.25100 48.28400 48.29500 48.30300
##  [433] 48.30300 48.32800 48.35700 48.38600 48.38800 48.43500 48.43700 48.43700 48.45100
##  [442] 48.46300 48.46600 48.49200 48.57000 48.57600 48.63200 48.69000 48.81200 48.82500
##  [451] 48.87900 48.94400 48.94500 48.96900 49.09600 49.11300 49.19000 49.20300 49.26500
##  [460] 49.29300 49.32500 49.33900 49.34800 49.35000 49.35500 49.37900 49.39600 49.40200
##  [469] 49.42000 49.51700 49.55200 49.55700 49.57900 49.58000 49.59400 49.61800 49.65100
##  [478] 49.75900 49.76700 49.80000 49.80100 49.82800 49.84900 49.85600 49.87500 49.90100
##  [487] 49.90300 49.91900 49.92300 49.95100 49.99100 50.00900 50.01600 50.02300 50.04000
##  [496] 50.05600 50.10700 50.22700 50.25400 50.26000 50.30500 50.32400 50.33500 50.33800
##  [505] 50.35000 50.43000 50.44000 50.46900 50.48500 50.52500 50.54896 50.60800 50.64300
##  [514] 50.65000 50.65100 50.65100 50.65400 50.72500 50.72800 50.78900 50.82100 50.84800
##  [523] 50.85200 50.90400 50.91700 50.92400 50.93900 50.93900 50.95700 50.98600 50.99200
##  [532] 51.01600 51.05100 51.13700 51.15900 51.25300 51.31300 51.33400 51.35600 51.38600
##  [541] 51.40700 51.44500 51.45500 51.45700 51.46100 51.47900 51.50900 51.52000 51.53500
##  [550] 51.54200 51.57300 51.57900 51.60400 51.62900 51.63100 51.72400 51.74400 51.75600
##  [559] 51.81800 51.82100 51.88400 51.89300 51.92700 51.92900 52.04000 52.04400 52.05300
##  [568] 52.09800 52.10200 52.14300 52.19900 52.20800 52.21400 52.29500 52.30700 52.33700
##  [577] 52.35800 52.37400 52.37900 52.46900 52.51700 52.53700 52.53700 52.55600 52.64400
##  [586] 52.68100 52.70200 52.72400 52.77300 52.79000 52.81900 52.86200 52.88700 52.90600
##  [595] 52.92200 52.93300 52.94700 52.96100 52.96200 52.97000 53.07000 53.15700 53.28500
##  [604] 53.29800 53.31900 53.36500 53.37300 53.37800 53.45900 53.55600 53.55900 53.59900
##  [613] 53.63000 53.63600 53.65500 53.67600 53.69600 53.73800 53.74400 53.75400 53.82000
##  [622] 53.83200 53.85900 53.86700 53.88400 53.88600 53.91400 53.91900 53.98300 53.99500
##  [631] 54.04300 54.08100 54.11000 54.20800 54.28900 54.31400 54.33600 54.40600 54.40700
##  [640] 54.42500 54.45900 54.46700 54.49600 54.51800 54.64000 54.65500 54.74500 54.75700
##  [649] 54.77700 54.79100 54.90700 54.92600 54.97800 54.98500 55.07800 55.08800 55.08900
##  [658] 55.09000 55.11800 55.15100 55.19000 55.19100 55.23000 55.23400 55.24000 55.29200
##  [667] 55.32200 55.37300 55.44800 55.47100 55.49100 55.52700 55.55800 55.56100 55.56500
##  [676] 55.59900 55.60200 55.62500 55.63500 55.66500 55.72700 55.72900 55.73000 55.73700
##  [685] 55.76400 55.76900 55.80300 55.85500 55.86100 55.92800 56.00600 56.00700 56.01800
##  [694] 56.02400 56.02900 56.05900 56.06100 56.07400 56.14500 56.15500 56.15800 56.15900
##  [703] 56.36900 56.39300 56.43300 56.43700 56.48000 56.52800 56.53200 56.53400 56.56400
##  [712] 56.59600 56.60400 56.65600 56.67100 56.67800 56.69500 56.69600 56.72800 56.73500
##  [721] 56.75100 56.75200 56.76100 56.86700 56.92300 56.94100 56.95000 57.00500 57.04600
##  [730] 57.18000 57.20600 57.25100 57.28600 57.29600 57.36700 57.40200 57.44200 57.47000
##  [739] 57.47000 57.48900 57.50100 57.56100 57.59300 57.63200 57.66600 57.67400 57.67800
##  [748] 57.70200 57.71600 57.86300 57.90700 57.92400 57.93900 57.99600 58.01400 58.02000
##  [757] 58.03300 58.04000 58.04100 58.05600 58.06100 58.06500 58.08900 58.13700 58.13700
##  [766] 58.16100 58.19600 58.20700 58.24500 58.28500 58.29900 58.33300 58.33900 58.38112
##  [775] 58.39000 58.42000 58.44700 58.45000 58.45300 58.47400 58.50000 58.53000 58.55000
##  [784] 58.55300 58.55600 58.55600 58.69000 58.76600 58.79600 58.81100 58.81600 58.90900
##  [793] 58.96800 59.10000 59.16400 59.20100 59.28000 59.28500 59.29800 59.31900 59.32000
##  [802] 59.33900 59.37100 59.41200 59.42100 59.42600 59.44300 59.44800 59.46100 59.48900
##  [811] 59.50400 59.50700 59.54500 59.60000 59.62000 59.63100 59.65000 59.68500 59.72300
##  [820] 59.79700 59.82000 59.83700 59.90800 59.92300 59.94200 59.95700 59.96300 60.02200
##  [829] 60.02600 60.06000 60.11000 60.13700 60.18700 60.19000 60.22200 60.22300 60.23600
##  [838] 60.24600 60.30800 60.32800 60.35100 60.36300 60.37700 60.39600 60.40500 60.41300
##  [847] 60.43000 60.46100 60.47000 60.52300 60.54200 60.66000 60.76500 60.77000 60.78200
##  [856] 60.83400 60.83500 60.83800 60.90900 60.91600 60.96000 61.03600 61.05000 61.13400
##  [865] 61.19500 61.21000 61.27100 61.31000 61.31000 61.34000 61.36600 61.36800 61.40600
##  [874] 61.44800 61.45600 61.48400 61.48900 61.51000 61.55700 61.60000 61.62300 61.68500
##  [883] 61.72800 61.76500 61.78800 61.80000 61.81700 61.81800 61.88800 61.93000 61.99900
##  [892] 62.00800 62.01300 62.03800 62.05000 62.06900 62.08200 62.09400 62.15500 62.19200
##  [901] 62.24700 62.32500 62.35100 62.36100 62.40000 62.48500 62.49400 62.61000 62.61200
##  [910] 62.64900 62.67700 62.68100 62.69800 62.72800 62.74200 62.74500 62.82000 62.84200
##  [919] 62.87900 62.94400 62.97400 63.01000 63.01200 63.03000 63.04000 63.06200 63.10800
##  [928] 63.11888 63.15400 63.17900 63.19600 63.30000 63.30600 63.33600 63.37300 63.44100
##  [937] 63.47900 63.61000 63.62200 63.62500 63.67400 63.72700 63.72800 63.73900 63.78500
##  [946] 63.83700 63.87000 63.88300 63.96736 63.98300 64.03000 64.04800 64.06200 64.07100
##  [955] 64.10000 64.13400 64.15100 64.16400 64.26600 64.27400 64.28000 64.33700 64.34200
##  [964] 64.36000 64.36100 64.39000 64.39900 64.40600 64.49200 64.53100 64.59000 64.59700
##  [973] 64.62400 64.69800 64.75000 64.76600 64.77000 64.79000 64.82000 64.90000 64.93000
##  [982] 64.94000 64.95100 65.03200 65.03300 65.04200 65.04400 65.14200 65.15200 65.20000
##  [991] 65.20500 65.24600 65.25600 65.39000 65.39300 65.40000 65.42100 65.42400 65.48300
## [1000] 65.50000
##  [ reached getOption("max.print") -- omitted 704 entries ]
median(gapminder$lifeExp)
## [1] 60.7125

Moda

  • Valor más común.

R no dispone de una función en su paquete base que nos permita calcular la moda. Pero tiene la función `table’ que muestra una tabla el número de veces que sale cada respuesta.

table(gapminder$country) #En este caso, todos los valores se repiten la mismas veces, no hay moda.
## 
##              Afghanistan                  Albania                  Algeria 
##                       12                       12                       12 
##                   Angola                Argentina                Australia 
##                       12                       12                       12 
##                  Austria                  Bahrain               Bangladesh 
##                       12                       12                       12 
##                  Belgium                    Benin                  Bolivia 
##                       12                       12                       12 
##   Bosnia and Herzegovina                 Botswana                   Brazil 
##                       12                       12                       12 
##                 Bulgaria             Burkina Faso                  Burundi 
##                       12                       12                       12 
##                 Cambodia                 Cameroon                   Canada 
##                       12                       12                       12 
## Central African Republic                     Chad                    Chile 
##                       12                       12                       12 
##                    China                 Colombia                  Comoros 
##                       12                       12                       12 
##         Congo, Dem. Rep.              Congo, Rep.               Costa Rica 
##                       12                       12                       12 
##            Cote d'Ivoire                  Croatia                     Cuba 
##                       12                       12                       12 
##           Czech Republic                  Denmark                 Djibouti 
##                       12                       12                       12 
##       Dominican Republic                  Ecuador                    Egypt 
##                       12                       12                       12 
##              El Salvador        Equatorial Guinea                  Eritrea 
##                       12                       12                       12 
##                 Ethiopia                  Finland                   France 
##                       12                       12                       12 
##                    Gabon                   Gambia                  Germany 
##                       12                       12                       12 
##                    Ghana                   Greece                Guatemala 
##                       12                       12                       12 
##                   Guinea            Guinea-Bissau                    Haiti 
##                       12                       12                       12 
##                 Honduras         Hong Kong, China                  Hungary 
##                       12                       12                       12 
##                  Iceland                    India                Indonesia 
##                       12                       12                       12 
##                     Iran                     Iraq                  Ireland 
##                       12                       12                       12 
##                   Israel                    Italy                  Jamaica 
##                       12                       12                       12 
##                    Japan                   Jordan                    Kenya 
##                       12                       12                       12 
##         Korea, Dem. Rep.              Korea, Rep.                   Kuwait 
##                       12                       12                       12 
##                  Lebanon                  Lesotho                  Liberia 
##                       12                       12                       12 
##                    Libya               Madagascar                   Malawi 
##                       12                       12                       12 
##                 Malaysia                     Mali               Mauritania 
##                       12                       12                       12 
##                Mauritius                   Mexico                 Mongolia 
##                       12                       12                       12 
##               Montenegro                  Morocco               Mozambique 
##                       12                       12                       12 
##                  Myanmar                  Namibia                    Nepal 
##                       12                       12                       12 
##              Netherlands              New Zealand                Nicaragua 
##                       12                       12                       12 
##                    Niger                  Nigeria                   Norway 
##                       12                       12                       12 
##                     Oman                 Pakistan                   Panama 
##                       12                       12                       12 
##                 Paraguay                     Peru              Philippines 
##                       12                       12                       12 
##                   Poland                 Portugal              Puerto Rico 
##                       12                       12                       12 
##                  Reunion                  Romania                   Rwanda 
##                       12                       12                       12 
##    Sao Tome and Principe             Saudi Arabia                  Senegal 
##                       12                       12                       12 
##                   Serbia             Sierra Leone                Singapore 
##                       12                       12                       12 
##          Slovak Republic                 Slovenia                  Somalia 
##                       12                       12                       12 
##             South Africa                    Spain                Sri Lanka 
##                       12                       12                       12 
##                    Sudan                Swaziland                   Sweden 
##                       12                       12                       12 
##              Switzerland                    Syria                   Taiwan 
##                       12                       12                       12 
##                 Tanzania                 Thailand                     Togo 
##                       12                       12                       12 
##      Trinidad and Tobago                  Tunisia                   Turkey 
##                       12                       12                       12 
##                   Uganda           United Kingdom            United States 
##                       12                       12                       12 
##                  Uruguay                Venezuela                  Vietnam 
##                       12                       12                       12 
##       West Bank and Gaza              Yemen, Rep.                   Zambia 
##                       12                       12                       12 
##                 Zimbabwe 
##                       12

Media Geométrica

geom.mean < -exp(mean(y})

geom.mean <- exp(mean(gapminder$lifeExp))
geom.mean
## [1] 6.75182e+25

¡A TRABAJAR!

Cargue los siguientes datos en su computador y responda:

DATOS DIETA.txt

3.2 Medidas de variabilidad

  • Queremos saber “¿Cuánto se distribuyen los datos desde la media?”

  • Solo mirar los datos nos da una idea de esto. Pero queremos ponerlo en un número para poder comparar distribuciones de muestra

Podríamos simplemente tomar la diferencia entre todos los puntos y la media y sumarla:

sum(gapminder$lifeExp - mean(gapminder$lifeExp))
## [1] 2.859935e-12

Entonces podemos elevar al cuadrado la diferencia:

sum(gapminder$lifeExp - mean(gapminder$lifeExp))^2
## [1] 8.179225e-24

Varianza

  • Entonces dividimos por n - 1

  • Esto se llama varianza muestral. Una de las medidas más útiles de la distribución de una muestra.

var(gapminder$lifeExp)
## [1] 166.8517

Desviación Estándar

  • Esta es solo la raíz cuadrada de la varianza

  • Lo bueno del desarrollador estándar es que está en las mismas unidades que los datos originales

sqrt(sum((gapminder$lifeExp - mean(gapminder$lifeExp))^2)/(length(gapminder$lifeExp) - 1))
## [1] 12.91711
sd(gapminder$lifeExp)
## [1] 12.91711

Rango intercuartil

  • Calculamos todos los percentiles.
  • Lo bueno de este es que no es sensible a valores extremos.

Todas las demás medidas enumeradas aquí son sensibles a valores extremos

summary(gapminder$lifeExp)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   23.60   48.20   60.71   59.47   70.85   82.60

¡SU TURNO!

Cargue los siguientes datos en su computador y responda:

DATOS DIETA.txt

3.3 Funciones en R

Rpermite añadir funciones definidas por el usuario con la orden `functíon()’. El programa guardará esa nueva función para otras ocasiones. La plantilla es la siguiente:

my_fun <- función (arg1, arg2) {
  cuerpo
}

Observe que esta receta usa el operador de asignación ‘(<-)’ como si estuviera asignando un vector a una variable. Esto no es una coincidencia. ¡Crear una función en R es básicamente la asignación de un objeto de función a una variable! En la receta anterior, está creando una nueva variable R: ‘my_fun,’ que estará disponible en el espacio de trabajo tan pronto como ejecute la definición. A partir de ese momento, puede utilizar ‘my_fun’ como función

Cree una función pot2(): toma un argumento y devuelve ese número al cuadrado (ese número multiplicado por sí mismo):

pot2<-function(x){
   x ^ 2
  }

Ahora pruebela, llame a esta función recién definida con x=12 como entrada.

pot2<-function(x){
   x ^ 2
}

pot2(12)
## [1] 144

A continuación, cree una función sum_abs(), que toma dos argumentos y devuelve la suma de los valores absolutos de ambos argumentos.

# Crea la función sum_abs()
sum_abs <- function(x, y) {
  abs(x) + abs(y)
}

# Use su función
sum_abs(-2, 3)
## [1] 5

Por ejemplo, para crear una función que calcule directamente medias geométricas, primero se escribe:

media.geom<-function(x){
  exp(mean(log(x)))
}

media.geom(gapminder$lifeExp)
## [1] 57.96498

Vaya, las cosas se están poniendo serias … ¡estás a punto de escribir tu propia función!

Error estándar de la media (EEM)

Va a trata de escribir una función que calcule el Error estándar de la media, cuya formula:

\[ EEM = \frac{Desviación\,\, estándar}{\sqrt{n}} \] Llame a la función para calcular ‘EEM(gapminder$lifeExp)’:

eem<-function(x){
  sqrt(var(x)/length(x))
}

eem(gapminder$lifeExp)
## [1] 0.3129179