4.4 Factor
Un factor es un tipo de datos específico a R. Puede ser descrito como un dato numérico representado por una etiqueta.
Supongamos que tenemos un conjunto de datos que representan el sexo de personas encuestadas por teléfono, pero estos se encuentran capturados con los números 1 y 2. El número 1 corresponde a femenino y el 2 a masculino.
En R, podemos indicar que se nos muestre, en la consola y para otros análisis, los 1 como femenino
y los 2 como masculino
. Aunque para nuestra computadora, femenino
tiene un valor de 1, pero a nosotros se nos muestra la palabra femenino
. De esta manera reducimos el espacio de almacenamiento necesario para nuestros datos.
Este comportamiento es similar a lo que ocurre con paquetes estadísticos comerciales como SPSS Statistics, en los que podemos asignar etiquetas a los datos, dependiendo de su valor. La diferencia se encuentra en que R trata a los factores de manera diferente a un dato numérico.
Por último, cada una de las etiquetas o valores que puedes asumir un factor se conoce como nivel. En nuestro ejemplo con femenino
y masculino
, tendríamos dos niveles.