terça-feira, 14 de novembro de 2017

Correlação Residual - MANOVA




Rodar MANOVA dos Dados do Exemplo Anterior (aula passada)

Programa para Rodar MANOVA:

SAS Students Remoto Servidor LCE:
143.107.212.50:10080



data imc_dat;
input cat $ imc corr kcal;
cards;
AT 20.2 60.7 3200
AT 21.3 54.8 3100
AT 19.3 49.6 2800
AT 21.1 52.3 3300
SEM 22.4 14.9 2600
SEM 21.9 17.8 2700
SEM 23.8 18.6 3200
SEM 24.1 15.1 3300
SE  27.3 2.5 2700
SE  23.4 4.3 2300
SE  25.2 2.3 2600
SE  26.4 2.6 3200
PR 26.2 4.1 2600
PR 24.2 2.1 2700
PR 25.4 1.9 2650
;
proc print;
run;
proc glm;
 class cat;
 model imc corr kcal  = cat;
 contrast " Atl e Semiat Vs Seden e Prof"  cat 1 1 -1 -1;
 manova h=_all_ / printe printh;
run;
/* Se tirar o comando manova faz os contrastes univariados 
contrast " Se Vs Prof " cat 0 0 1 -1;

*/

Resultado do Programa de MANOVA:
Arquivo para Download (mht abrir no Wodr)
Arquivo Word de Resultados






- Análise Multivariada Exemplos: 
















Comparar resultados ANOVA com Kruskal-Wallis.


Criar programa de KruskalWallis para os dados da Manova com base nos Slides a Seguir








data imc_dat;
input cat $ imc corr kcal;
cards;
AT    20.2  60.7  3200
AT    21.3  54.8  3100
AT    19.3  49.6  2800
AT    21.1  52.3  3300
SEM   22.4  14.9  2600
SEM   21.9  17.8  2700
SEM   23.8  18.6  3200
SEM   24.1  15.1  3300
SE    27.3  2.5   2700
SE    23.4  4.3   2300
SE    25.2  2.3   2600
SE    26.4  2.6   3200
PR    26.2  4.1   2600
PR    24.2  2.1   2700
PR         25.4         1.9        2650
;
proc print;
run;
proc npar1way data=imc_dat wilcoxon dscf;
 class cat;
 var imc corr kcal = cat;
run;
Tem um erro nesse programa, onde esta? Compare com os slides apresentados antes do programa SAS (Dois slides de Kruskal Wallis com trechos de programa SAS).


 var imc corr kcal = cat; ==> ANOVA, GLM, MANOVA
 var imc corr kcal;          ==> Kruskal Wallis







Resultados de Kruskal Wallis

Arquivo Word para Download:




Resultados ANOVA dados brutos, transformados e da Estat. Robusta. Tese doutorado do Gabriel.



Regressão Múltipla 2

Regressão Múltipla

Exemplo em SAS (Todo o que está escrito em fonte azul é entrada os saída do SAS):


Estamos testando a influencia das variáveis: Quilocalorias ingeridas por dia (Kcal_d), dos Quilômetros que as pessoas correm por semana (Corr_s) e das Xícaras de Chá do Sol (Cha_Sol), que é recomendado para emagrecer, anticancerígeno, antienvelhecimento e anti-infarto. As 3 variáveis anteriores as relacionaremos com a variável de resposta: Índice de Massa Corporal (IMC)?
Veja o comando SAS para testar esse modelo:

model IMC = Kcal_d Corr_s Cha_Sol;


O Modelo Estatístico é:
Assim voces o acharao na literatura (Douglas Montgomery Introduction to Linear Regression Analysis)


IMC = Bo + B1 * Kcal + B2 * Corr_s  +  B* Cha_Sol  +                        Erro do Modelo


IMC é a: 
 variável dependente (efeito)

Kcal_d Corr_s Cha_Sol:    
                          são as variáveis independentes (causa)


data multipl;
input IMC Kcal_d Corr_s Cha_Sol;
cards;
28 2500 1 20
19 2100 34 19
22 2300 12 18
29 2600 . 22
20 2200 17 25
18 2100 32 25
29  2780    0.5 28
31  2890    1   27
20  2000    10  25
;
proc glm;
model IMC = Kcal_d Corr_s Cha_Sol;
run;



Resultados:


The SAS System


The GLM Procedure
Number of Observations Read9
Number of Observations Used9




The SAS System


The GLM Procedure
Dependent Variable: IMC

SourceDFSum of SquaresMean SquareF ValuePr > F
Model3205.979516968.659839057.020.0003
Error56.02048311.2040966
Corrected Total8212.0000000


Aqui podemos ver que se rejeita a Hipótese:

Rejeita-se Ho: B1 = B2 = B3 = 0 (ou seja que não ha nenhuma relação de causa  -->  efeito) com (1-0,0003) * 100 =  99,97 % de confiança rejeita-se Ho. Então existe alguma relação causas efeito.

Quando a confiança para se rejeitar Ho for menor do que 95%, ou a margem de erro menor do que 0,05 = 5%, então nenhuma variável independente esta influenciado o IMC (variável dependente). Não foi esse o caso deste exemplo.



R-SquareCoeff VarRoot MSEIMC Mean
0.9720574.8485611.13335123.37500


SourceDFType I SSMean SquareF ValuePr > F
Kcal_d1169.2880791169.2880791131.790.0003
Corr_s18.47903478.47903476.600.0620
Cha_Sol10.96994620.96994620.760.4339


SourceDFType III SSMean SquareF ValuePr > F
Kcal_d143.6836446343.6836446334.010.0043
Corr_s18.653658428.653658426.740.0603
Cha_Sol10.969946180.969946180.760.4339

Sempre na Regressão Múltipla Temos que utilizar Soma de Quadrados Tipo III. Também quando tivermos parcela perdida e ANOVA e MANOVA, temos que utilizar Soma de Quadrados Tipo III.


ParameterEstimateStandard Errort ValuePr > |t|
Intercept0.11690925155.301741860.020.9835
Kcal_d0.01161837450.001992285.830.0043
Corr_s-.12291356000.04735485-2.600.0603
Cha_Sol-.10674221160.12283635-0.870.4339




Podemos ver que a estimativa dos parâmetros 
Bo, B1, B e   B foi:


Parameter
Estimate
Bo = Intercept
0.1169092515
B1 = Kcal_d
0.0116183745
B2 = Corr_s
-.1229135600
B3 = Cha_Sol
-.1067422116


Podemos observar que:
             B> 0
                          B <0 
                 B <0
            assim as variáveis independentes (causa) ainda sem pensar em significância estatistifica atuaram em relação a IMC da seguinte forma: 
             Bpositivamente ou seja quando aumentam as quilocalorias por dia aumenta o IMC
             Bnegativamente    ou seja quando aumenta corrida diminuí o IMC  
              B3  negativamente    ou seja quando aumentam as xícaras de chá por sema diminui o IMC 


Agora temos que observar para quais variáveis independentes o coeficiente foi estatisticamente diferente de O (zero), para isso temos que observar a margem de erro do teste de cada coeficiente:

Parameter
Estimate
Pr > |t|
Bo = Intercept
0.1169092515
0.9835
B1 = Kcal_d
0.0116183745
0.0043
B2 = Corr_s
-.1229135600
0.0603
B3 = Cha_Sol
-.1067422116
0.4339


Assim:
            O Intersepto foi igual a zero (Bo = Intercept), o que tem muito poco valor pratico, seria o valor do IMC se todas as variáveis independentes fossem zeradas, logicamente se a ingestão diária de calorias fosse zero o individuo estaria morto.
            O coeficiente da variável independente Quilocalorias Ingeridas por Dia (B1 = Kcal_d)  foi diferente de zero, assim com 99,57 % de confiança podemos afirmar que a quantidade de quilocalorias ingeridas por dia impacta positivamente no IMC.
            O coeficiente a variável independente Quilômetros que as pessoas correm por semana (B2 = Corr_snão foi diferente de zero se utilizarmos o critério de 95% de confiança (ou 5% de margem de erro), porem esta muito perto da significânciarejeitaríamos a hipótese de ser igual a zero com 94% de confiança. Assim poderíamos entrar na discussão da suficiência do tamanho amostral, foi igual a 9 pontos amostrais. Esse tamanho amostral é insuficiente para todos os critérios que o professor conhece:
                      - Teorema do Limite Central da Estatística ( o mais importante da Estatística) requer no minimo 30 pontos amostrais;
                      - Recomendação da Estatística Experimental, minimo 10 graus de liberdade do resíduo e 20 do total ajustado, assim deveríamos ter no minimo 21 pontos amostrais, 
                      - Recomendação das normas ISO, minimo 9 graus de liberdade do resíduodeveríamos ter 13 pontos amostrais.
    
Vemos que não conseguimos satisfazer nenhum dos 3 critérios, assim uma significância de 94% é uma evidencia forte de que a variável  Quilômetros que as pessoas correm por semana (Corr_s) tem influencia significativa no IMC, uma relação inversamente proporcional, assim quando aumenta a corrida diminui o IMC. Seguramente se aumentarmos o tamanho amostral chegaremos a uma significância maior do que 95%.

                  O coeficiente a variável independente Xícaras de Chá do Sol por semana ( B3 = Cha_Sol) foi não significativa (p < 0,4339), assim o Chá do Sol não influenciou no IMC ou não tivemos argumentos estatisticamente significativos para rejeitar Ho: B3 = 0.

Temos um problema de Tamanho Amostral, isso impacta na significância da Variável Independente Corrida por Semana.
Assim utilizamos o Algoritmo de Cochran, para pesquisarmos o Tamanho Ótimo da Amostra.
Observamos que para uma população de tamanho N=25, o Tamanho Ótimo da Amostra é: 23 (por que a variação é muito grande, CV%= 100,3 %).
Assim deveríamos aumentar o tamanho da amostra para chegarmos em n = 23, deveríamos tomar dados de 23 - 8 = 15 pessoas mais.
Assim muito provavelmente a variável Corrida por Semana passara a ser estatisticamente significativa. 


Obs
IMC
Kcal_d
Corr_s
Cha_Sol
1
28
2500
1
20
2
19
2100
34
19
3
22
2300
12
18
4
29
2600

22
5
20
2200
17
25
6
18
2100
32
25
7
29
2780
0,5
28
8
31
2890
1
27
9
20
2000
10
25


Media=
13,4375



Desvio=
13,47335



CV%=
100,2668






Tamanho Otimo





da Amostra:









Pop. Infinita = 

401,7877


Pop. Finita=

23,53557