Chapter 2 Laboratorio

2.0.1 Laboratorio 1 BLOCO 1: R básico

  1. Calcule as seguintes expressoes no R:
  1. 12 + (16-7)x7-8/4
Resul = 12 + (16-7) * 7 - 9 / 4
  1. Multiplique a sua idade por meses e salve o resultado em um objeto chamado idade_em_meses.
idade_em_meses = 45 * 12
## [1] 540

2.1 - Em seguida, multiplique esse objeto por 30 e salve o resultado em um objeto chamado idade_em_dias.

idade_em_dias = idade_em_meses * 30
  1. Guarde em um objeto chamado nome uma string contendo o seu nome completo
nome = "Marcos Albero alves"

nome = "Marcos"
SobreNome = "Alves"
NomeCompleto <- str_c(nome," ",SobreNome)
  1. Qual é a soma dos números de 101 a 1000?
sum( 101:1000 )
## [1] 495450
  1. Quantos algarismos possui o resultado do produto dos números de 1 a 12?
  #Cria um objeto dianamico de n=12
  for(coluna in 1:12)
    x[[coluna]] <- c( coluna )
  #lista Elementos do Vetor
  #retorna o produto do Vetor
## [1] 2.631308e+35
  1. Use o vetor números abaixo para responder as questões seguintes:
numeros <- -4:2

6.1 - Escreva um código que devolva apenas valores positivos do vetor numeros.

numeros[numeros > 0]
## [1] 1 2

6.2. - Escreva um código que de volta apenas os valores pares do vetor numeros.

numeros[numeros %% 2 == 0]
## [1] -4 -2  0  2

6.3 - Filtre o vetor para que retorne apenas aqueles valores que, quando elevados a 2, são menores do que 4.

numeros[numeros^2 < 4]
## [1] -1  0  1
  1. Quais as diferenças entre NaN, NULL, NA e Inf? Digite expressões que retornem cada um desses valores.


numeros <- c( 0, NaN , "F", NaN , 3 )
## [1] 0


numeros <- c( NULL, 3 )
## [1] 0


numeros <- c( NA, 2 )
## [1] 1
  1. Carregue o conjunto de dados airquality com o comando data(airquality) para responder às questões abaixo.
## [1] "C:/Users/Administrador/Documents/Biblioteca/Codigo/Rstudio/BIG019"
tabelaAir <- read.table("dados/airquality.csv" , sep=',', header=T)

#lista as 5 primeiras linhas da Tabelas
  1. Conte quantos NAs tem na coluna Solar.R.
## [1] 7
  1. Filtre a tabela airquality com apenas linhas em que Solar.R é NA.
##            X Ozone Solar.R Wind Temp Month Day
## 23    24\t23     4      25  9.7   61     5  23
## 24    25\t24    32      92 12.0   61     5  24
## 25    26\t25    NA      66 16.6   57     5  25
## 26    27\t26    NA     266 14.9   58     5  26
## 28    29\t28    23      13 12.0   67     5  28
## 29    30\t29    45     252 14.9   81     5  29
## 30    31\t30   115     223  5.7   79     5  30
## 31    32\t31    37     279  7.4   76     5  31
## 32    33\t32    NA     286  8.6   78     6   1
## 33    34\t33    NA     287  9.7   74     6   2
## 34    35\t34    NA     242 16.1   67     6   3
## 35    36\t35    NA     186  9.2   84     6   4
## 36    37\t36    NA     220  8.6   85     6   5
## 37    38\t37    NA     264 14.3   79     6   6
## 38    39\t38    29     127  9.7   82     6   7
## 39    40\t39    NA     273  6.9   87     6   8
## 40    41\t40    71     291 13.8   90     6   9
## 41    42\t41    39     323 11.5   87     6  10
## 42    43\t42    NA     259 10.9   93     6  11
## 43    44\t43    NA     250  9.2   92     6  12
## 44    45\t44    23     148  8.0   82     6  13
## 45    46\t45    NA     332 13.8   80     6  14
## 46    47\t46    NA     322 11.5   79     6  15
## 47    48\t47    21     191 14.9   77     6  16
## 48    49\t48    37     284 20.7   72     6  17
## 49    50\t49    20      37  9.2   65     6  18
## 50    51\t50    12     120 11.5   73     6  19
## 51    52\t51    13     137 10.3   76     6  20
## 52    53\t52    NA     150  6.3   77     6  21
## 53    54\t53    NA      59  1.7   76     6  22
## 54    55\t54    NA      91  4.6   76     6  23
## 55    56\t55    NA     250  6.3   76     6  24
## 56    57\t56    NA     135  8.0   75     6  25
## 57    58\t57    NA     127  8.0   78     6  26
## 58    59\t58    NA      47 10.3   73     6  27
## 59    60\t59    NA      98 11.5   80     6  28
## 60    61\t60    NA      31 14.9   77     6  29
## 61    62\t61    NA     138  8.0   83     6  30
## 62    63\t62   135     269  4.1   84     7   1
## 63    64\t63    49     248  9.2   85     7   2
## 64    65\t64    32     236  9.2   81     7   3
## 65    66\t65    NA     101 10.9   84     7   4
## 66    67\t66    64     175  4.6   83     7   5
## 67    68\t67    40     314 10.9   83     7   6
## 68    69\t68    77     276  5.1   88     7   7
## 69    70\t69    97     267  6.3   92     7   8
## 70    71\t70    97     272  5.7   92     7   9
## 71    72\t71    85     175  7.4   89     7  10
## 72    73\t72    NA     139  8.6   82     7  11
## 73    74\t73    10     264 14.3   73     7  12
## 74    75\t74    27     175 14.9   81     7  13
## 75    76\t75    NA     291 14.9   91     7  14
## 76    77\t76     7      48 14.3   80     7  15
## 77    78\t77    48     260  6.9   81     7  16
## 78    79\t78    35     274 10.3   82     7  17
## 79    80\t79    61     285  6.3   84     7  18
## 80    81\t80    79     187  5.1   87     7  19
## 81    82\t81    63     220 11.5   85     7  20
## 82    83\t82    16       7  6.9   74     7  21
## 83    84\t83    NA     258  9.7   81     7  22
## 84    85\t84    NA     295 11.5   82     7  23
## 85    86\t85    80     294  8.6   86     7  24
## 86    87\t86   108     223  8.0   85     7  25
## 87    88\t87    20      81  8.6   82     7  26
## 88    89\t88    52      82 12.0   86     7  27
## 89    90\t89    82     213  7.4   88     7  28
## 90    91\t90    50     275  7.4   86     7  29
## 91    92\t91    64     253  7.4   83     7  30
## 92    93\t92    59     254  9.2   81     7  31
## 93    94\t93    39      83  6.9   81     8   1
## 94    95\t94     9      24 13.8   81     8   2
## 95    96\t95    16      77  7.4   82     8   3
## 99   100\t99   122     255  4.0   89     8   7
## 100 101\t100    89     229 10.3   90     8   8
## 101 102\t101   110     207  8.0   90     8   9
## 102 103\t102    NA     222  8.6   92     8  10
## 103 104\t103    NA     137 11.5   86     8  11
## 104 105\t104    44     192 11.5   86     8  12
## 105 106\t105    28     273 11.5   82     8  13
## 106 107\t106    65     157  9.7   80     8  14
## 107 108\t107    NA      64 11.5   79     8  15
## 108 109\t108    22      71 10.3   77     8  16
## 109 110\t109    59      51  6.3   79     8  17
## 110 111\t110    23     115  7.4   76     8  18
## 111 112\t111    31     244 10.9   78     8  19
## 112 113\t112    44     190 10.3   78     8  20
## 113 114\t113    21     259 15.5   77     8  21
## 114 115\t114     9      36 14.3   72     8  22
## 115 116\t115    NA     255 12.6   75     8  23
## 116 117\t116    45     212  9.7   79     8  24
## 117 118\t117   168     238  3.4   81     8  25
## 118 119\t118    73     215  8.0   86     8  26
## 119 120\t119    NA     153  5.7   88     8  27
## 120 121\t120    76     203  9.7   97     8  28
## 121 122\t121   118     225  2.3   94     8  29
## 122 123\t122    84     237  6.3   96     8  30
## 123 124\t123    85     188  6.3   94     8  31
## 124 125\t124    96     167  6.9   91     9   1
## 125 126\t125    78     197  5.1   92     9   2
## 126 127\t126    73     183  2.8   93     9   3
## 127 128\t127    91     189  4.6   93     9   4
## 128 129\t128    47      95  7.4   87     9   5
## 129 130\t129    32      92 15.5   84     9   6
## 130 131\t130    20     252 10.9   80     9   7
## 131 132\t131    23     220 10.3   78     9   8
## 132 133\t132    21     230 10.9   75     9   9
## 133 134\t133    24     259  9.7   73     9  10
## 134 135\t134    44     236 14.9   81     9  11
## 135 136\t135    21     259 15.5   76     9  12
## 136 137\t136    28     238  6.3   77     9  13
## 137 138\t137     9      24 10.9   71     9  14
## 138 139\t138    13     112 11.5   71     9  15
## 139 140\t139    46     237  6.9   78     9  16
## 140 141\t140    18     224 13.8   67     9  17
## 141 142\t141    13      27 10.3   76     9  18
## 142 143\t142    24     238 10.3   68     9  19
## 143 144\t143    16     201  8.0   82     9  20
## 144 145\t144    13     238 12.6   64     9  21
## 145 146\t145    23      14  9.2   71     9  22
## 146 147\t146    36     139 10.3   81     9  23
## 147 148\t147     7      49 10.3   69     9  24
## 148 149\t148    14      20 16.6   63     9  25
## 149 150\t149    30     193  6.9   70     9  26
##  [ reached 'max' / getOption("max.print") -- omitted 4 rows ]
  1. Filtre a tabela airquality com apenas linhas em que Solar.R não é NA e Month é igual a 5.
tabelaAir[tabelaAir$Month == 5 & !$Solar.R), ]
##         X Ozone Solar.R Wind Temp Month Day
## 1    2\t1    41     190  7.4   67     5   1
## 2    3\t2    36     118  8.0   72     5   2
## 3    4\t3    12     149 12.6   74     5   3
## 4    5\t4    18     313 11.5   62     5   4
## 7    8\t7    23     299  8.6   65     5   7
## 8    9\t8    19      99 13.8   59     5   8
## 9   10\t9     8      19 20.1   61     5   9
## 10 11\t10    NA     194  8.6   69     5  10
## 12 13\t12    16     256  9.7   69     5  12
## 13 14\t13    11     290  9.2   66     5  13
## 14 15\t14    14     274 10.9   68     5  14
## 15 16\t15    18      65 13.2   58     5  15
## 16 17\t16    14     334 11.5   64     5  16
## 17 18\t17    34     307 12.0   66     5  17
## 18 19\t18     6      78 18.4   57     5  18
## 19 20\t19    30     322 11.5   68     5  19
## 20 21\t20    11      44  9.7   62     5  20
## 21 22\t21     1       8  9.7   59     5  21
## 22 23\t22    11     320 16.6   73     5  22
## 23 24\t23     4      25  9.7   61     5  23
## 24 25\t24    32      92 12.0   61     5  24
## 25 26\t25    NA      66 16.6   57     5  25
## 26 27\t26    NA     266 14.9   58     5  26
## 28 29\t28    23      13 12.0   67     5  28
## 29 30\t29    45     252 14.9   81     5  29
## 30 31\t30   115     223  5.7   79     5  30
## 31 32\t31    37     279  7.4   76     5  31 BLOCO 2: Análise descritiva de dados

  1. Carregue o conjunto de dados USArrests com o comando data(USArrests). Examine a sua documentação com help(USArrests) e responda as perguntas a seguir.
data <- USArrests
  1. Qual o número médio e mediano de cada um dos crimes?
  2. Encontre a mediana e quartis para cada crime?
  3. Encontre o número máximo e mínimo para cada crime?
  1. faça um gráfico adequado para o número de assassinatos (murder).
media = mean(data$Murder, na.rm = T)
## [1] 7.788
plot(data$Murder,xlab="", ylab = "",  col = 3, pch = 17, lower.panel=NULL,main="Dispersão de Assassinatos tipo Murder")
abline(h = media)

e) verifique se há correlação entre os diferentes tipos de crime.

corrplot(cor(data),method = "circle", type="upper", diag=FALSE,addCoef.col="black",tl.col="black")

f) - Verifique se há correlação entre os crimes e a proporção de população urbana.

#Calcular o coeficiente de correlação de Pearson entre duas variaveis
cor ( data, data$UrbanPop, method = "pearson") 
Referencia: ANÁLISE Multivariada - Trabalho 01. Disponível em: Acesso em: 30 out. 2022.

## Error in install.packages : Updating loaded packages
imdb <- readr::read_rds("dados/imdb.rds")
a). Crie um gráfico de dispersão da nota do imdb pelo orçamento.

plot(imdb$orcamento,xlab="", ylab = "",  col = 3, pch = 17, lower.panel=NULL,main="Dispersão de Orçamento")

2.1 Laboratorio – 03

2.1.1 Conjunto de dados inibina

  1. Faça uma breve análise descritiva dos dados Carregar o conjunto de dados inibina
## [1] "C:/Users/Administrador/Documents/Biblioteca/Codigo/Rstudio/BIG019"
inibina <- read_excel("dados/inibina.xls")
## [1] 32
## [1] 0
inibina$difinib = inibina$inibpos - inibina$inibpre
#agrupar as respostas e contador a qtde

inibina$resposta = as.factor(inibina$resposta)

plot(inibina$difinib ~ inibina$resposta, ylim = c(0,400))

# Hmisc::describe(inibina)

sd( inibina$difinib )
## [1] 159.2217
modLogist01 = glm( resposta ~  difinib, family = binomial, data = inibina )
summary( modLogist01 )
#c. Ajuste um modelo de regressão logística aos dados. Qual é a acurácia do modelo em fazer classificação?

predito = predict.glm( modLogist01, type = "response")
classPred = ifelse(predito>0.5,"positiva", "negativa")
classPred = as.factor(classPred)
confusionMatrix(classPred, inibina$resposta, positive = "positiva" )
#d.Use o classificador linear de Fisher para classificar a variável resposta de acordo com a variável preditora.

modFisher01 = lda( resposta ~ difinib, data = inibina, prior = c(0.5 , 0.5))
predito = predict(modFisher01)
confusionMatrix(classPred, inibina$resposta, positive = "positiva")
Qual é a acurácia do classificador? 0.8438

#e. Use o classificador linear de Bayes para classificar a variável resposta de acordo com as variáveis explicativas. Utilize priori 0,65 e 0,35 para resposta negativa e positiva, respectivamente.

modBayes01 = lda(resposta ~ difinib, data = inibina, prior = c(0.65, 0.35))
predito = predict(modBayes01)
classPred = predito$class
# table(classPred)
confusionMatrix(classPred, inibina$resposta, positive = "positiva")
Qual é a acurácia do classificador? 0.5938

#f. Use o classificador knn para classificar a variável resposta de acordo com as variáveis preditoras. Utilize k = 1, 3, 5.

modKnn1_01 = knn3(resposta ~ difinib, data = inibina, k = 1)
predito = predict(modKnn1_01, inibina, type = "class")
confusionMatrix(predito, inibina$resposta, positive = "positiva")
modKnn3_01 = knn3(resposta ~ difinib, data = inibina, k = 3)
predito = predict(modKnn3_01, inibina, type = "class")
confusionMatrix(predito, inibina$resposta, positive = "positiva")
modKnn5_01 = knn3(resposta ~ difinib, data = inibina, k = 5)
predito = predict(modKnn5_01, inibina, type = "class")
confusionMatrix(predito, inibina$resposta, positive = "positiva")
#g. Use naive Bayes para para classificar a variável resposta de acordo com as variáveis preditoras.

modNaiveBayes01 = naiveBayes(resposta ~ difinib, data = inibina)
predito = predict(modNaiveBayes01, inibina)
confusionMatrix(predito, inibina$resposta, positive = "positiva")
#h. Use uma arvore de decisão para classificar a variável resposta de acordo com as variáveis preditoras

## Warning in install.packages :
##   package 'rpart' is in use and will not be installed

modArvDec01 = rpart(resposta ~ difinib, data = inibina) 
prp(modArvDec01,  faclen=0, #use full names for factor labels
    extra=1, #display number of observations for each terminal node
    roundint=F, #don't round to integers in output

predito = predict(modArvDec01, type = "class")
confusionMatrix(predito, inibina$resposta, positive = "positiva")
#i. Use SVM para fazer para classificar a variável resposta de acordo com as variáveis preditoras.

x = 1:32
plot(inibina$difinib ~x, col = inibina$resposta)

modSVM01 = svm(resposta ~ difinib, data = inibina, kernel = "linear")

predito = predict(modSVM01, type = "class")
confusionMatrix(predito, inibina$resposta, positive = "positiva")
#j. Use uma rede neural para classificar a variável resposta de acordo com as variáveis preditoras.


modRedNeural01 = neuralnet(resposta ~ difinib, data = inibina, hidden = c(2,4,3))

ypred = neuralnet::compute(modRedNeural01, inibina)
yhat = ypred$net.result
yhat=data.frame("yhat"=ifelse(max.col(yhat[ ,1:2])==1, "negativa", "positiva"))

cm = confusionMatrix(inibina$resposta, as.factor(yhat$yhat))
#k. Refaça os itens c à j usando o método de validação cruzada leave-one-out. Dica: use a função train do pacote caret.


trControl <- trainControl(method = "LOOCV")

fit <- train(resposta ~ difinib, method = "glm", data = inibina,
             trControl = trControl, metric = "Accuracy")
fit <- train(resposta ~ difinib, method = "lda", data = inibina, prior = c(0.5, 0.5), 
             trControl = trControl, metric = "Accuracy")
fit <- train(resposta ~ difinib, method = "lda", data = inibina, prior = c(0.65, 0.35), 
             trControl = trControl, metric = "Accuracy")
fit <- train(resposta ~ difinib, method = "knn", data = inibina, 
             tuneGrid = expand.grid(k = 1:5), 
             trControl = trControl, metric = "Accuracy")

totalAcerto = 0
for (i in 1:nrow(inibina)){
    treino = inibina[-i,]
    teste = inibina[i,]
    modelo = svm(resposta ~ difinib, data = treino)
    predito = predict(modelo, newdata = teste,  type = "class")
    if(predito == teste$resposta[1])  totalAcerto = totalAcerto+1

iris = tibble(iris)
irisS = iris[,1:4]

d <- dist(irisS, method = "maximum")
grup = hclust(d, method = "ward.D")
plot(grup, cex = 0.6)

groups <- cutree(grup, k=3)
table(groups, iris$Species)
rect.hclust(grup, k=3, border="red")

## Warning in install.packages :
##   package 'factoextra' is in use and will not be installed

km1 = kmeans(irisS, 4)
p1 = fviz_cluster(km1, data=irisS,
                  palette = c("#2E9FDF", "#FC4E07", "#E7B800", "#E7B700"),
                  # repel=TRUE,

groups = km1$cluster
table(groups, iris$Species)
#Qual classificador você escolheria? Resp.: Muito modelos apresentaram uma acuracia abaixo de 0,90. Apenas o modelo KNN chegou a uma acucaria de 1. Desta forma, seleciono o modelo KNN.


2.1.2 Conjunto de dados Hospital Universitário

#a. Qual é a variável resposta e quais são as explicativas? Faça uma breve análise descritiva dos dados.

Variavel resposta: medidas obtidas ultrassonograficamente Explicativas: Distâncias cápsula-côndilo (em mm) com boca aberta ou fechada Disco correspondente foi classificado como deslocado (1) ou não (0)

#b. Como você modelaria esse conjunto de dados?

Importando os dados

tabdisc <- read_excel("dados/disco.xls")
n = length(tabdisc$deslocamento)
res <- paste("Tamanho da amostra: ", n)
print(res )
## [1] "Tamanho da amostra:  104"

#Inspecionado a estrutura de dados #Lista tipo de dados do DataFrame

#Lista os rotulo das colunas

## [1] "deslocamento" "distanciaA"   "distanciaF"

#Tamanho do DataSet Linhas e Colunas

## [1] 104   3

#Agrupando as respostas e somando a distanciaA e distanciaB

tabdisc$soma = tabdisc$distanciaA + tabdisc$distanciaF
tabdisc$descolamento = as.factor(tabdisc$deslocamento)
plot(tabdisc$soma ~ tabdisc$descolamento, ylim = c(0,10))

#Gráfico de dispersão da Distancia Aberto e Fechada

#plot(tabdisc$distanciaA ~ tabdisc$distanciaF , col=tabdisc$deslocamento, ylim = c(0,100000) )
plot(tabdisc$distanciaA, col=tabdisc$distanciaF)

#Sumarizando os dados importados

#c. Separe o conjunto de dados em conjunto de treinamento (70% dos dados) e conjunto de teste (30%).

##   [1] 0 0 0 1 0 1 0 0 0 0 0 0 1 0 1 1 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 1 0 0 1 0 1 0 1 1 0 0 1 0 1 0 0 0 1 0 1 1 0 0 1
##  [92] 1 0 0 0 0 1 1 0 0 0 0 1 1
## Levels: 0 1
modBayes01 = lda(descolamento ~ soma, data = tabdisc, prior = c(0.70, 0.30))
predito = predict(modBayes01)
classPred = predito$class
confusionMatrix(classPred, tabdisc$descolamento)
#d. Ajuste um modelo de regressão logística conjunto de treinamento. Qual é a acurácia do modelo no conjunto de teste? Modelo 1

modBayes01 = lda(descolamento ~ soma, data = tabdisc, prior = c(0.65, 0.35))
predito = predict(modBayes01)
classPred = predito$class
confusionMatrix(classPred, tabdisc$descolamento)
Modelo 2

modBayes01 = lda(descolamento ~ soma, data = tabdisc, prior = c(0.60, 0.40))
predito = predict(modBayes01)
classPred = predito$class
confusionMatrix(classPred, tabdisc$descolamento)
Modelo 3

modBayes01 = lda(descolamento ~ soma, data = tabdisc, prior = c(0.80, 0.20))
predito = predict(modBayes01)
classPred = predito$class
confusionMatrix(classPred, tabdisc$descolamento)
#e. Use o classificador de Fisher para classificar a variável resposta de acordo com a variável preditora. Qual é a acurácia do classificador? Ajuste o modelo no conjunto de treino e faça a predição no conjunto de teste

modFisher01 = lda(descolamento ~ soma, data = tabdisc, prior = c(0.5, 0.5))
predito = predict(modFisher01)
classPred = predito$class
confusionMatrix(classPred, tabdisc$descolamento)
#f. Use o classificador de Bayes para classificar a variável resposta de acordo com a variável preditora. Utilize priori 0,65 e 0,35 para 0 e 1, respectivamente. Qual é a acurácia do classificador? Ajuste o modelo no conjunto de treino e faça a predição no conjunto de teste.

modBayes01 = lda(descolamento ~ soma, data = tabdisc, prior = c(0.65, 0.35))
predito = predict(modBayes01)
classPred = predito$class
confusionMatrix(classPred, tabdisc$descolamento)
#g. Use o classificador knn para classificar a variável resposta de acordo com a variável preditora. Utilize k = 1, 3, 5. Ajuste o modelo no conjunto de treino e faça a predição no conjunto de teste.

modKnn1_01 = knn3(descolamento ~ soma, data = tabdisc, k = 1)
predito = predict(modKnn1_01, tabdisc, type = "class")
modKnn3_01 = knn3(descolamento ~ soma, data = tabdisc, k = 3)
predito = predict(modKnn3_01, tabdisc, type = "class")
modKnn5_01 = knn3(descolamento ~ soma, data = tabdisc, k = 5)
predito = predict(modKnn5_01, tabdisc, type = "class")
confusionMatrix(predito, tabdisc$descolamento)
#h. Use naive Bayes para classificar a variável resposta de acordo com as variáveis preditoras. Ajuste o modelo no conjunto de treino e faça a predição no conjunto de teste.

modNaiveBayes01 = naiveBayes(descolamento ~ soma, data = tabdisc)
predito = predict(modNaiveBayes01, tabdisc)
confusionMatrix(predito, tabdisc$descolamento)
#j. Use svm para fazer para classificar a variável resposta de acordo com as variáveis preditoras. Ajuste o modelo no conjunto de treino e faça a predição no conjunto de teste.

plot(tabdisc$deslocamento, col = tabdisc$soma)

modSVM01 = svm(descolamento ~ soma, data = tabdisc, kernel = "linear")

predito = predict(modSVM01, type = "class")
confusionMatrix(predito, tabdisc$descolamento)
#Use uma rede neural para classificar a variável resposta de acordo com as variáveis preditoras. Ajuste o modelo no conjunto de treino e faça a predição no conjunto de teste.


modRedNeural01 = neuralnet(descolamento ~ soma, data = tabdisc, hidden = c(2,4,3))

ypred = neuralnet::compute(modRedNeural01, tabdisc)
yhat = ypred$net.result

#Qual classificador você escolheria? O modelo que apresentou uma melhor acuracia quando comparado aos demais, o modelo selecionado, foi o KNN com uma acuracia de 0,88

2.1.3 Conjunto de dados do arquivo tipofacial

tabfacial <- read_excel("dados/tipofacial.xls")
## # A tibble: 101 × 13
##    paciente sexo  grupo idade  nsba    ns   sba altfac proffac eixofac planmand arcomand  vert
##       <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl>  <dbl>   <dbl>   <dbl>    <dbl>    <dbl> <dbl>
##  1       10 M     braq   5.58  132   58    36      1.2     0.8     0.4      0.4      2.5  1.06
##  2       10 M     braq  11.4   134   63    42.5    1.2     0.4     1        1        3.6  1.44
##  3       27 F     braq  16.2   122.  77.5  48      2.6     0.2     0.3      0.9      3.4  1.48
##  4       39 F     braq   4.92  130.  64    34.5    3.1    -1       1.9      1.3      1.6  1.38
##  5       39 F     braq  10.9   130.  70    36.5    3.1     0.6     1.2      2.2      2.3  1.88
##  6       39 F     braq  12.9   128   68.5  41.5    3.3    -0.6     1.1      1.2      2.1  1.42
##  7       55 F     braq  16.8   130   71    42      2.4     0.3     1.1      1.2      3.5  1.7 
##  8       76 F     braq  16     125   72    46.5    1.9     0.5     1.4      0.6      3.5  1.58
##  9       77 F     braq  17.1   130.  70    44      2.1    -0.1     2.2      0.8      0.7  1.14
## 10      133 M     braq  14.8   130   80    52      2.8     0.2     0.4      1.1      1.8  1.26
## # … with 91 more rows

#a. faça uma breve análise descritiva. Desenhe um gráfico das variáveis altura facial X profundidade facial e marque cada observação de acordo com o tipo facial do indivíduo.

tabfacial$soma = tabfacial$altfac + tabfacial$proffac
tabfacial$grupo = as.factor(tabfacial$grupo)
plot(tabfacial$altfac ~ tabfacial$grupo)

plot(tabfacial$proffac ~ tabfacial$grupo)

plot(tabfacial$altfac ~ tabfacial$proffac, col=tabfacial$grupo)

#b. Separe o conjunto de dados em conjunto de treinamento (70% dos dados) e conjunto de teste (30%). Faça isso de 5 formas diferentes. MOdelo 1

modBayes01 = lda(grupo ~ soma, data = tabfacial)
predito = predict(modBayes01)
classPred = predito$class
confusionMatrix(classPred, tabfacial$grupo)
Modelo 2

modKnn1_01 = knn3(grupo ~ soma, data = tabfacial, k = 1)
predito = predict(modKnn1_01, tabfacial, type = "class")
confusionMatrix(classPred, tabfacial$grupo)
Modelo 3

modNaiveBayes01 = naiveBayes(grupo ~ soma, data = tabfacial)
predito = predict(modNaiveBayes01, inibina)
## Warning in predict.naiveBayes(modNaiveBayes01, inibina): Type mismatch between training and new data for variable 'soma'. Did you use factors with numeric labels for training, and numeric
## values for new data?
confusionMatrix(classPred, tabfacial$grupo)
Modelo 4

modSVM01 = svm(grupo ~ soma, data = tabfacial, kernel = "linear")

predito = predict(modSVM01, type = "class")
confusionMatrix(classPred, tabfacial$grupo)
Modelo 5


modArvDec01 = rpart(grupo ~ soma, data = tabfacial) 
prp(modArvDec01,  faclen=0,

predito = predict(modArvDec01, type = "class")
confusionMatrix(predito, tabfacial$grupo)
#c. É possível ajustar um modelo de regressão logística nesse conjunto de dados? Por quê?

#d. Use o classificador de Fisher para classificar a variável resposta de acordo com variáveis preditoras. Qual é a acurácia do classificador? Ajuste o modelo no conjunto de treino e faça a predição no conjunto de teste.

modFisher01 = lda(grupo ~ soma, data = tabfacial)
predito = predict(modFisher01)
classPred = predito$class
confusionMatrix(classPred, tabfacial$grupo)
#e. Use o classificador de Bayes para classificar a variável resposta de acordo com as variáveis preditoras. Utilize como priori a proporção amostral. Qual é a acurácia do classificador?

modNaiveBayes01 = naiveBayes(grupo ~ soma, data = tabfacial)
predito = predict(modNaiveBayes01, tabfacial)
confusionMatrix(classPred, tabfacial$grupo)
#f. Use o classificador knn para classificar a variável resposta de acordo com a variável preditora. Utilize k = 1,3,5. Ajuste o modelo no conjunto de treino e faça a predição no conjunto de teste.

modKnn1_01 = knn3(grupo ~ soma, data = tabfacial, k = 1)
predito = predict(modKnn1_01, tabfacial, type = "class")
confusionMatrix(classPred, tabfacial$grupo)
modKnn3_01 = knn3(grupo ~ soma, data = tabfacial, k = 3)
predito = predict(modKnn3_01, tabfacial, type = "class")
confusionMatrix(classPred, tabfacial$grupo)
modKnn5_01 = knn3(grupo ~ soma, data = tabfacial, k = 5)
predito = predict(modKnn5_01, tabfacial, type = "class")
confusionMatrix(classPred, tabfacial$grupo)
#g. Use naive Bayes para classificar a variável resposta de acordo com as variáveis preditoras. Ajuste o modelo no conjunto de treino e faça a predição no conjunto de teste

modNaiveBayes01 = naiveBayes(grupo ~ soma, data = tabfacial)
predito = predict(modNaiveBayes01, tabfacial)
confusionMatrix(classPred, tabfacial$grupo)
#i. Use svm para fazer para classificar a variável resposta de acordo com as variáveis preditoras. Ajuste o modelo no conjunto de treino e faça a predição no conjunto de teste.

modSVM01 = svm(grupo ~ soma, data = tabfacial, kernel = "linear")

predito = predict(modSVM01, type = "class")
confusionMatrix(classPred, tabfacial$grupo)
#j. Use uma rede neural para classificar a variável resposta de acordo com as variáveis preditoras. Ajuste o modelo no conjunto de treino e faça a predição no conjunto de teste.


modRedNeural01 = neuralnet(grupo ~ soma, data = tabfacial, hidden = c(2,4,3))

ypred = neuralnet::compute(modRedNeural01, tabfacial)
yhat = ypred$net.result

#Ajustando os modelos

trControl <- trainControl(method = "LOOCV")

fit <- train(sexo ~ soma, method = "glm", data = tabfacial,
             trControl = trControl, metric = "Accuracy")
fit <- train(sexo ~ soma, method = "lda", data = tabfacial, prior = c(0.5, 0.5), 
             trControl = trControl, metric = "Accuracy")
fit <- train(sexo ~ soma, method = "lda", data = tabfacial, prior = c(0.65, 0.35), 
             trControl = trControl, metric = "Accuracy")
fit <- train(sexo ~ soma, method = "knn", data = tabfacial, 
             tuneGrid = expand.grid(k = 1:5), 
             trControl = trControl, metric = "Accuracy")
totalAcerto = 0
for (i in 1:nrow(tabfacial)){
    treino = tabfacial[-i,]
    teste = tabfacial[i,]
    modelo = svm(grupo ~ soma, data = treino)
    predito = predict(modelo, newdata = teste,  type = "class")
    if(predito == teste$sexo[1])  totalAcerto = totalAcerto+1

2.1.4 Agrupamento:

#Considere os dados a seguir do consumo alimentar médio de diferentes tipos de alimentos para famílias classificadas de acordo com o número de filhos (2, 3, 4 ou 5) e principal área de trabalho (MA: Setor de Trabalho Manual, EM: Empregados do Setor Público ou CA: Cargos Administrativos)

#Um código no R para o conjunto de dados é dado a seguir: #library(tibble) #dados = tibble(AreaTrabalho = as.factor(rep(c(“MA”, “EM”, “CA”), 4)), # Filhos = as.factor(rep(2:5, each = 3)), # Paes = c(332, 293, 372, 406, 386, 438, 534, 460, 385, 655, 584, 515), # Vegetais = c(428, 559, 767, 563, 608, 843, 660, 699, 789, 776, 995, 1097), # Frutas = c(354, 388, 562, 341, 396, 689, 367, 484, 621, 423, 548, 887), # Carnes = c(1437,1527,1948,1507,1501,2345,1620,1856,2366,1848,2056,2630), # Aves = c(526, 567, 927, 544, NA, 1148,638, 762, 1149,759, 893, 1167), # Leite = c(247, 239, 235, 324, 319, 243, 414, 400, 304, 495, 518, 561), # Alcoolicos = c(427, 258, 433, 407, 363, 341, 407, 416, 282, 486, 319, 284))

dados = tibble(AreaTrabalho = as.factor(rep(c("MA", "EM", "CA"), 4)),
 Filhos = as.factor(rep(2:5, each = 3)),
 Paes = c(332, 293, 372, 406, 386, 438, 534, 460, 385, 655, 584, 515),
 Vegetais = c(428, 559, 767, 563, 608, 843, 660, 699, 789, 776, 995, 1097),
 Frutas = c(354, 388, 562, 341, 396, 689, 367, 484, 621, 423, 548, 887),
 Carnes = c(1437,1527,1948,1507,1501,2345,1620,1856,2366,1848,2056,2630),
 Aves = c(526, 567, 927, 544, NA, 1148,638, 762, 1149,759, 893, 1167),
 Leite = c(247, 239, 235, 324, 319, 243, 414, 400, 304, 495, 518, 561),
 Alcoolicos = c(427, 258, 433, 407, 363, 341, 407, 416, 282, 486, 319, 284))

#a. Utilize regressão linear para predizer o dado faltante em Aves.

x <- dados
y <- dados$Aves
N = nrow(x)
baseTreino <- sample(1:N, N*0.75, FALSE)
modeloNB <- naiveBayes(y[baseTreino]~., data = x[baseTreino,])
probsTeste <- predict(modeloNB, x[-baseTreino,], type = "raw")
#b. Faça uma análise de agrupamento com as variáveis numéricas. Compare vários métodos hierárquicos, combinando com os tipos de distâncias. Compare também com o método kmédias.

x = dados[,2:6]
