Capítulo 2 Introducción

2.1 Marco Téorico

Existen muchas definiciones del análisis multivariado. Kendall en su libro “Multivariate Analysis” (Kendall, 1975) proporciona una de las definiciones más usadas del análisis multivariado, la define como un “conjunto de las técnicas estadísticas que analizan simultáneamente más de dos variables en una muestra de observaciones.” Sin embargo, existen técnicas multivariadas como el Análisis de Correspondencia Simple donde se utilizan dos variables pero se trata de relacionar las categorías de una variable con las categorías de otra variable.

2.2 Ejemplos

# Paquetes
library(pacman)
p_load(scatterplot3d,rgl,car,FactoMineR,
              factoextra,ggplot2,magick)

Supongamos que nos encargan realizar el posicionamiento de 8 empresas. Para ello disponemos de tres variables: la inversión en publicidad, las ventas anuales y la antigüedad de la empresa.

datos<-read.csv("Ejemplo_Multivariado.csv",
                       sep = ";",
                       stringsAsFactors = T)
str(datos)
'data.frame':   8 obs. of  4 variables:
 $ Empresa  : Factor w/ 8 levels "E1      ","E2      ",..: 1 2 3 4 5 6 7 8
 $ Inversion: int  16 12 10 15 45 50 48 55
 $ Ventas   : int  10 14 22 25 12 15 28 30
 $ Antig    : int  8 12 11 15 25 30 35 20
attach(datos)
row.names(datos) <- datos$Empresa
datos$Empresa <- NULL

Análisis descriptivo univariado

Considerando únicamente la inversion en publicidad

summary(Inversion)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  10.00   14.25   30.50   31.38   48.50   55.00 
ggplot(datos,aes(x=Inversion,y=0)) + 
  geom_point() +
  geom_text(aes(label=row.names(datos)),vjust=-1) +
  theme_light()

Análisis descriptivo bivariado

Considerando que disponemos los datos de las variables inversión en publicidad y las ventas anuales

summary(Inversion)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  10.00   14.25   30.50   31.38   48.50   55.00 
summary(Ventas)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  10.00   13.50   18.50   19.50   25.75   30.00 
ggplot(datos,aes(x=Inversion,y=Ventas)) + 
  geom_point() +
  geom_text(aes(label=row.names(datos)),vjust=-1) +
  geom_vline(xintercept=mean(Inversion),lty=5)+
  geom_hline(yintercept=mean(Ventas),lty=5)+
  theme_bw()

Análisis descriptivo con 3 dimensiones

summary(datos)
   Inversion         Ventas          Antig      
 Min.   :10.00   Min.   :10.00   Min.   : 8.00  
 1st Qu.:14.25   1st Qu.:13.50   1st Qu.:11.75  
 Median :30.50   Median :18.50   Median :17.50  
 Mean   :31.38   Mean   :19.50   Mean   :19.50  
 3rd Qu.:48.50   3rd Qu.:25.75   3rd Qu.:26.25  
 Max.   :55.00   Max.   :30.00   Max.   :35.00  
library(scatterplot3d)
with(datos, {
   s3d <- scatterplot3d(Ventas, Antig, Inversion, 
                 color="blue", pch=19,     
                 type="p",                  
                 xlab="Ventas",
                 ylab="Antig",
                 zlab="Inversion")
    s3d.coords <- s3d$xyz.convert(Ventas, Antig, Inversion)
    text(s3d.coords$x, s3d.coords$y,    
         labels=row.names(datos),           
         cex=0.7, pos=4)          
})

library(plot3D)
with(datos, text3D(Ventas,Antig,Inversion, 
                  labels = rownames(datos),
                  col = gg.col(100), 
                  theta = 60, phi = 20,
                  xlab = "Ventas",
                  ylab ="Antigüedad", 
                  zlab = "Inversión", 
                  cex = 0.8, 
                  bty = "g", ticktype = "detailed", 
                  adj = 0.5, font = 2))
with(datos, scatter3D(Ventas,Antig,Inversion, 
                      col = gg.col(100), 
                      type = "h", pch = ".", add = TRUE))

Análisis Multivariado de Componentes Principales

library(FactoMineR)
res.pca <- PCA(datos, ncp=2,graph=FALSE)
library(factoextra)
fviz_pca_biplot(res.pca, repel = TRUE,
                col.var = "steelblue",
                col.ind = "black" )