Capítulo 2 Introducción
2.1 Marco Téorico
Existen muchas definiciones del análisis multivariado. Kendall en su libro “Multivariate Analysis” (Kendall, 1975) proporciona una de las definiciones más usadas del análisis multivariado, la define como un “conjunto de las técnicas estadísticas que analizan simultáneamente más de dos variables en una muestra de observaciones.” Sin embargo, existen técnicas multivariadas como el Análisis de Correspondencia Simple donde se utilizan dos variables pero se trata de relacionar las categorías de una variable con las categorías de otra variable.
2.2 Ejemplos
# Paquetes
library(pacman)
p_load(scatterplot3d,rgl,car,FactoMineR,
factoextra,ggplot2,magick)
Supongamos que nos encargan realizar el posicionamiento de 8 empresas. Para ello disponemos de tres variables: la inversión en publicidad, las ventas anuales y la antigüedad de la empresa.
<-read.csv("Ejemplo_Multivariado.csv",
datossep = ";",
stringsAsFactors = T)
str(datos)
'data.frame': 8 obs. of 4 variables:
$ Empresa : Factor w/ 8 levels "E1 ","E2 ",..: 1 2 3 4 5 6 7 8
$ Inversion: int 16 12 10 15 45 50 48 55
$ Ventas : int 10 14 22 25 12 15 28 30
$ Antig : int 8 12 11 15 25 30 35 20
attach(datos)
row.names(datos) <- datos$Empresa
$Empresa <- NULL datos
Análisis descriptivo univariado
Considerando únicamente la inversion en publicidad
summary(Inversion)
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.00 14.25 30.50 31.38 48.50 55.00
ggplot(datos,aes(x=Inversion,y=0)) +
geom_point() +
geom_text(aes(label=row.names(datos)),vjust=-1) +
theme_light()
Análisis descriptivo bivariado
Considerando que disponemos los datos de las variables inversión en publicidad y las ventas anuales
summary(Inversion)
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.00 14.25 30.50 31.38 48.50 55.00
summary(Ventas)
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.00 13.50 18.50 19.50 25.75 30.00
ggplot(datos,aes(x=Inversion,y=Ventas)) +
geom_point() +
geom_text(aes(label=row.names(datos)),vjust=-1) +
geom_vline(xintercept=mean(Inversion),lty=5)+
geom_hline(yintercept=mean(Ventas),lty=5)+
theme_bw()
Análisis descriptivo con 3 dimensiones
summary(datos)
Inversion Ventas Antig
Min. :10.00 Min. :10.00 Min. : 8.00
1st Qu.:14.25 1st Qu.:13.50 1st Qu.:11.75
Median :30.50 Median :18.50 Median :17.50
Mean :31.38 Mean :19.50 Mean :19.50
3rd Qu.:48.50 3rd Qu.:25.75 3rd Qu.:26.25
Max. :55.00 Max. :30.00 Max. :35.00
library(scatterplot3d)
with(datos, {
<- scatterplot3d(Ventas, Antig, Inversion,
s3d color="blue", pch=19,
type="p",
xlab="Ventas",
ylab="Antig",
zlab="Inversion")
<- s3d$xyz.convert(Ventas, Antig, Inversion)
s3d.coords text(s3d.coords$x, s3d.coords$y,
labels=row.names(datos),
cex=0.7, pos=4)
})
library(plot3D)
with(datos, text3D(Ventas,Antig,Inversion,
labels = rownames(datos),
col = gg.col(100),
theta = 60, phi = 20,
xlab = "Ventas",
ylab ="Antigüedad",
zlab = "Inversión",
cex = 0.8,
bty = "g", ticktype = "detailed",
adj = 0.5, font = 2))
with(datos, scatter3D(Ventas,Antig,Inversion,
col = gg.col(100),
type = "h", pch = ".", add = TRUE))
Análisis Multivariado de Componentes Principales
library(FactoMineR)
<- PCA(datos, ncp=2,graph=FALSE)
res.pca library(factoextra)
fviz_pca_biplot(res.pca, repel = TRUE,
col.var = "steelblue",
col.ind = "black" )