terça-feira, 31 de outubro de 2017

Medidas Repetidas - Contrastes - Resuduos

Data repeti;
Input varied $ BaCO BaIV BrCO BrIV CaCO CaIV CoCO CoIV CrCO CrIV CsCO CsIV FeCO FeIV HfCO HfIV KCO KIV LaCO LaIV NaCO NaIV RbCO RbIV ScCO ScIV SmCO SmIV ThCO ThIV ZnCO ZnIV ;
Cards;
CTC20 2.981 12.915 2.610 8.703 449.26 2675.27 0.108 0.444 2.767 34.531 0.090 0.250 1383.50 948.13 0.015 0.018 9212.87 18450.14 0.088 0.617 40.349 24.494 11.84 26.86 0.013 0.023 0.010 0.054 0.015 0.022 10.024 16.977
CTC20 4.709 14.097 4.274 9.552 564.29 2927.91 0.071 0.703 2.543 55.450 0.105 0.224 596.14 1474.19 0.013 0.019 10943.15 18017.89 0.060 0.637 21.489 37.277 14.49 25.49 0.008 0.024 0.007 0.059 0.009 0.026 8.946 16.759
CTC20 2.594 12.882 4.003 9.759 526.10 2842.35 0.126 0.765 6.501 61.772 0.093 0.215 818.56 890.26 0.010 0.020 11109.79 17155.62 0.060 0.515 30.063 25.960 14.46 24.06 0.010 0.022 0.008 0.052 0.016 0.030 8.675 14.212
CTC4 4.667 22.607 3.897 12.921 1240.00 3800.00 0.076 0.485 4.804 38.173 0.078 0.406 152.09 398.60 0.016 0.030 2928.81 14900.13 0.187 0.553 10.999 24.241 6.36 36.38 0.020 0.058 0.025 0.065 0.013 0.053 14.621 18.302
CTC4 3.262 29.174 2.225 17.617 837.00 3910.00 0.065 0.366 4.145 18.150 0.063 0.347 169.80 829.19 0.019 0.147 2115.90 13081.47 0.215 1.037 9.619 61.326 4.72 26.37 0.019 0.185 0.032 0.130 0.000 0.120 11.167 23.726
CTC4 5.262 25.649 3.574 14.437 1100.00 4220.00 0.059 0.497 3.228 33.422 0.077 0.291 248.15 645.11 0.013 0.079 3049.74 13029.70 0.200 0.793 9.890 47.946 6.89 26.16 0.018 0.127 0.027 0.093 0.013 0.091 12.557 20.706
RB855156 4.037 19.256 3.321 7.626 590.00 3770.00 0.058 0.162 3.388 11.789 0.090 0.263 304.85 222.13 0.000 0.026 16087.21 22776.36 0.050 0.383 10.895 13.983 28.23 49.38 0.011 0.043 0.012 0.063 0.000 0.029 12.108 17.623
RB855156 4.328 19.953 3.621 6.647 608.00 3800.00 0.104 0.189 7.071 14.038 0.086 0.220 377.39 308.82 0.000 0.042 16751.50 24398.82 0.068 0.337 9.441 16.531 28.92 52.52 0.013 0.061 0.015 0.053 0.000 0.044 14.113 19.708
RB855156 3.107 22.201 2.525 7.070 413.00 4190.00 0.042 0.093 1.653 5.956 0.088 0.246 193.70 226.75 0.042 0.031 16786.61 21375.29 0.046 0.293 9.154 18.199 29.30 46.57 0.013 0.050 0.009 0.042 0.000 0.040 9.062 17.690
RB855453 5.688 20.252 11.915 20.633 505.77 2270.64 0.047 0.360 2.993 29.604 0.274 0.536 210.31 461.29 0.009 0.023 13024.27 20251.61 0.601 1.647 11.417 17.439 18.04 30.99 0.010 0.023 0.070 0.138 0.010 0.032 9.935 16.456
RB855453 4.765 20.640 11.835 22.901 388.12 2168.24 0.043 0.248 2.570 17.817 0.272 0.606 200.46 808.92 0.007 0.019 12637.43 21995.11 0.622 1.647 12.255 18.425 17.32 33.67 0.010 0.027 0.071 0.141 0.013 0.036 10.145 19.444
RB855453 4.921 20.146 10.074 21.529 447.85 2424.14 0.036 0.214 2.020 16.430 0.228 0.640 168.40 521.96 0.007 0.032 11297.93 21868.85 0.643 1.857 12.374 14.033 15.13 34.35 0.008 0.026 0.071 0.158 0.015 0.037 8.680 18.843
RB855453 5.160 20.528 11.491 20.22 531.86 2188.81 0.043 0.298 2.486 25.888 0.266 0.503 190.03 375.37 0.015 0.014 12917.52 19637.93 0.613 1.555 11.379 14.897 18.04 27.82 0.010 0.021 0.068 0.126 0.016 0.021 9.669 15.133
RB855511 5.396 25.735 4.390 7.978 571.00 3730.00 0.063 0.341 3.503 23.988 0.183 0.313 212.93 435.14 0.024 0.068 12579.32 16573.16 0.093 0.891 9.201 31.289 19.54 22.75 0.015 0.083 0.016 0.105 0.000 0.066 9.908 14.993
RB855511 4.306 23.367 3.106 8.638 448.00 2750.00 0.048 0.468 2.773 32.488 0.174 0.297 120.04 529.13 0.000 0.074 10483.48 18693.44 0.050 0.712 6.675 35.918 16.03 28.24 0.007 0.101 0.007 0.086 0.000 0.083 6.880 21.632
RB855511 4.246 22.911 4.278 7.541 619.00 2690.00 0.086 0.933 4.858 76.199 0.199 0.358 288.01 557.26 0.041 0.034 13007.80 14626.13 0.131 0.698 13.445 27.880 19.46 24.55 0.022 0.063 0.021 0.083 0.022 0.056 10.174 11.962
RB965902 3.597 15.165 5.734 8.275 531.25 3059.78 0.065 0.308 2.919 22.822 0.143 0.304 785.52 704.99 0.009 0.016 15710.50 20467.44 0.171 1.178 20.517 20.019 14.45 20.98 0.008 0.025 0.022 0.125 0.011 0.028 8.578 14.576
RB965902 4.565 14.939 6.431 9.020 524.89 2608.48 0.082 0.352 3.846 26.311 0.155 0.326 312.94 802.13 0.012 0.024 18613.00 23197.98 0.151 0.902 18.676 16.661 16.16 23.71 0.010 0.023 0.019 0.094 0.010 0.023 10.479 18.812
RB965902 5.772 15.108 7.016 8.749 562.77 2544.07 0.160 0.105 11.008 6.871 0.170 0.367 478.31 453.55 0.018 0.020 19814.38 24398.08 0.178 0.881 17.258 14.580 17.15 27.63 0.010 0.016 0.023 0.091 0.016 0.016 9.137 20.604
RB965902 4.878 16.281 5.727 8.16 513.41 3059.78 0.068 0.252 3.017 18.916 0.149 0.299 666.38 649.17 0.016 0.019 16343.14 19950.58 0.186 1.178 18.468 18.946 14.45 20.57 0.008 0.023 0.023 0.125 0.014 0.024 8.832 13.730
RB966928 5.233 31.717 18.781 22.784 499.81 3381.56 0.053 0.259 2.953 18.997 0.116 0.301 291.75 750.67 0.017 0.038 18815.96 22306.09 0.401 2.689 14.091 36.838 21.14 31.47 0.017 0.057 0.033 0.165 0.025 0.071 7.665 15.532
RB966928 5.671 29.646 19.770 26.857 538.58 3181.13 0.064 0.416 3.766 34.554 0.129 0.258 567.66 645.46 0.019 0.033 20334.07 26372.57 0.378 2.011 14.986 27.845 23.30 33.86 0.020 0.040 0.031 0.127 0.024 0.055 7.637 18.144
RB966928 4.959 27.208 24.046 22.561 624.75 3167.58 0.060 0.207 3.466 14.889 0.128 0.251 368.07 566.45 0.022 0.038 20822.06 25381.92 0.416 1.909 16.628 29.508 23.03 33.74 0.025 0.044 0.034 0.125 0.033 0.053 8.352 21.168
RB975952 3.747 13.579 8.472 11.151 660.27 2785.34 0.052 0.451 2.806 36.574 0.191 0.350 359.15 692.11 0.107 0.070 16527.47 24899.22 0.212 0.885 10.263 19.381 20.66 28.28 0.025 0.062 0.021 0.070 0.040 0.083 14.107 22.948
RB975952 3.956 13.550 8.072 11.623 562.79 2454.34 0.044 0.190 2.473 14.166 0.177 0.355 290.93 467.15 0.016 0.029 16338.24 26090.22 0.178 0.898 8.688 14.547 20.13 29.18 0.016 0.038 0.019 0.061 0.022 0.051 12.488 25.851
RB975952 4.697 11.104 8.068 13.129 658.77 2076.88 0.050 0.153 2.515 11.544 0.172 0.377 455.22 382.47 0.023 0.016 15456.19 29096.86 0.175 0.503 10.687 11.087 19.06 34.55 0.018 0.025 0.017 0.040 0.025 0.033 11.610 30.492
SP803280 9.249 30.316 19.868 18.980 545.37 2841.47 0.077 0.269 4.308 16.591 0.085 0.205 344.32 975.40 0.011 0.056 22006.72 23041.72 0.271 1.219 16.610 35.305 30.43 39.37 0.009 0.099 0.020 0.100 0.015 0.103 11.954 14.620
SP803280 7.947 36.191 19.948 21.910 557.62 2939.36 0.074 0.230 4.664 14.065 0.083 0.196 367.23 1224.73 0.011 0.056 21866.30 26637.92 0.231 1.133 16.759 40.243 32.12 42.66 0.010 0.100 0.020 0.093 0.012 0.104 12.268 17.485
SP803280 5.211 30.946 17.620 21.662 464.28 2966.75 0.049 0.191 2.259 9.028 0.079 0.205 342.58 1132.19 0.008 0.072 19441.14 26208.07 0.247 1.111 12.328 39.345 28.79 47.38 0.012 0.103 0.022 0.084 0.015 0.105 8.903 16.861
;
proc print;
run;

Title “Bario”;
PROC GLM DATA=repeti;
  CLASS varied;
MODEL BaCO BaIV= varied / NOUNI ;
  REPEATED trial 2;
RUN;

Title “Bromo”;
PROC GLM DATA=repeti;
  CLASS varied;
MODEL BrCO BrIV= varied / NOUNI ;
  REPEATED trial 2;
RUN;

Title “Calcio”;
PROC GLM DATA=repeti;
  CLASS varied;
MODEL  CaCO CaIV= varied / NOUNI ;
  REPEATED trial 2;
RUN;

Title “Cobalto”;
PROC GLM DATA=repeti;
CLASS varied;
MODEL  CoCO CoIV= varied / NOUNI ;
  REPEATED trial 2;
RUN;

Title “Cromo”;
PROC GLM DATA=repeti;
CLASS varied;
MODEL  CrCO CrIV= varied / NOUNI ;
  REPEATED trial 2;
RUN;

Title “Cs”;
PROC GLM DATA=repeti;
  CLASS varied;
MODEL  CsCO CsIV= varied / NOUNI ;
  REPEATED trial 2;
RUN;

Title “Ferro”;
PROC GLM DATA=repeti;
  CLASS varied;
  MODEL   FeCO FeIV= varied / NOUNI ;
  REPEATED trial 2;
RUN;

Title “Hafnio”;
PROC GLM DATA=repeti;
CLASS varied;
  MODEL   HfCO HfIV= varied / NOUNI ;
  REPEATED trial 2;
RUN;

Title “Potacio”;
PROC GLM DATA=repeti;
  CLASS varied;
  MODEL   KCO KIV  = varied / NOUNI ;
  REPEATED trial 2;
RUN;

Title “Lantanio”;
PROC GLM DATA=repeti;
CLASS varied;
MODEL  LaCO LaIV= varied / NOUNI ;
  REPEATED trial 2;
RUN;

Title “Sodio”;
PROC GLM DATA=repeti;
  CLASS varied;
  MODEL  NaCO NaIV= varied / NOUNI ;
REPEATED trial 2;
RUN;

Title “Rubidio”;
PROC GLM DATA=repeti;
CLASS varied;
MODEL  RbCO RbIV= varied / NOUNI ;
  REPEATED trial 2;
RUN;

Title “Scandio”;
PROC GLM DATA=repeti;
  CLASS varied;
MODEL  ScCO ScIV= varied / NOUNI ;
  REPEATED trial 2;
RUN;

Title “Samario”;
PROC GLM DATA=repeti;
CLASS varied;
MODEL  SmCO SmIV= varied / NOUNI ;
  REPEATED trial 2;
RUN;






Title “Torio”;
PROC GLM DATA=repeti;
  CLASS varied;
  MODEL ThCO ThIV= varied / NOUNI ;
  REPEATED trial 2;
RUN;

Title “Zinco”;
PROC GLM DATA=repeti;
CLASS varied;
  MODEL ZnCO ZnIV= varied / NOUNI ;
  REPEATED trial 2;
RUN;






proc glm DATA =repeti;
CLASS varied;
 MODEL BaCO BaIV = varied / NOUNI ;
 output out = res r = rBaCO rBaIV;
 contrast  'CTC20 vs CTC4' varied 1 -1 0 0 0 0 0 0 0;
 contrast  'CTC20 vs RB855156' varied 1 0 -1 0 0 0 0 0 0;
 MANOVA H = varied/printE printH;
RUN;

proc univariate normal DATA =  res;
var  rBaCO rBaIV;
RUN;














terça-feira, 24 de outubro de 2017

Aula 31/10 - MANOVA do Cluster feito na aula anterior e Distancias

MANOVA do Cluster feito na aula anterior



data DISTANCI;
input INDIV $ X1 X2;
cards;
1 10 4
2  5 8
3  9 3
;
proc distance data=DISTANCI method=euclid out=SAIDA1;
var interval (X1 X2);
run;
proc print data=SAIDA1;
run;

proc distance data=DISTANCI method=sqeuclid out=SAIDA2;
var interval (X1 X2);
run;
proc print data=SAIDA2;
run;

data DISTANCA;
input INDIV $ X1 X2 X3 $;
cards;
1 10 4 A
2  5 8 A
3  9 3 V
;
proc distance data=DISTANCA method=sqeuclid out=SAIDA3;
var interval (X1 X2) ordinal (X3);
run;
proc print data=SAIDA3;
run;
proc cluster data=SAIDA3 (type=distance) outtree=A;
run;
proc tree data=A;
run;

data DISTANC;
input INDIV $ X1 X2 X3 $;
cards;
1 10 4 A
2  5 8 A
3  9 3 V
;
proc distance data=DISTANC method=djaccard out=SAIDA4;
var ratio (X1 X2) anominal (X3);
run;
proc print data=SAIDA4;
run;

data DIST;
input ESPECIE $ L1-L10;
cards;
E1 0 0 1 1 1 0 1 1 1 0
E2 1 1 1 1 0 0 0 0 1 1
;
proc distance data=DIST method=jaccard out=SAIDA4;
var anominal(L1-L10);
run;
proc print data=SAIDA4;
run;

Pivot Tables (Excel) e Cluster Analysis (SAS)

Aula 9 - Pivot Tables (Excel) e Cluster Analysis (SAS)


 Tabela Dinâmica e Cluster Analysis


Estatística Multivariada – Cluster Analysis

Vamos começar a “olhar” com a Estatística (algoritmos matemáticos), de forma multivariada.

Isso é muito familiar para a gente por que nosso cérebro (muito mais poderoso que qualquer computador, 30.000 core i7) enxerga de forma multivariada. 

Como reconhecemos os objetos ou as pessoas, por somente um item? Por exemplo, como reconhecemos uma pessoa: sexo, altura, cor do cabelo, formato do rosto, timbre da voz, sotaque, perfume que utiliza (ou que não utiliza), etc.

Na verdade utilizamos todos esses dados e muitos mais simultaneamente, ou seja, nosso sistema de reconhecimento natural é multivariado (como a Estatística Multivariada).

Como nosso cérebro processa toda essa informação em frações de segundo não sabemos. A neurociência está quebrando cabeça com isso. Podemos perguntar para Nicolelis (o neurocientista que dizem ter a maior chance de conseguir um Premio Nobel para o Brasil, também o casal que descobriu a vacina da malaria).

O que podemos fazer com a matemática, estatística e computação é simular de alguma forma primitiva o funcionamento do cérebro.

Esse tipo de abordagem é utilizado nas áreas de Inteligencia de Negócios (BI), Sistemas de Informação ( Data Mining, Data Crunching, Decision Support Systems-DSS e Big Data) e Pesquisa Cientifica.

No exemplo a ser apresentado (arquivo de Excel para download), temos 4 categorias de pessoas: Atletas, Semi-atletas, Sedentários e Professores da ESALQ. Nessas pessoas foram medidas 3 variáveis, Índice de Massa Corporal, Quantos quilômetros corre ou anda por semana e Quilocalorias que Ingere por Dia (modelo trivariado, se tem mais do que uma já é multivariado).
Exemplo para Download:



Aqui apresentamos o nosso objetivo, elaborarmos um dendrograma, que é a representação gráfica da saída do procedimento Cluster Analysis do Programa SAS:




                      Tabela Dinâmica em Excel

Podemos ver nesse exemplo que temos vários representantes de cada categoria, são exatamente 4 (ou quatro repetições de cada categoria)

Para aplicarmos Cluster Analysis devemos calcular previamente as medias aritméticas de cada categoria, para cada uma das 3 variáveis de resposta.





Vamos colocar a sequencia de passos para obtermos essas medias utilizando um recurso muito poderoso de bancos de dados do Excel (tal vez o mais poderoso):

 Tabela Dinâmica ou Pivot Table ou Pivot.


Passo 1 – Marcar o banco de dados original

Passo 2 – Entrar em Inserir e Depois em Tabela Dinâmica.





Passo 3 – Dar OK. Entraremos no Ambiente de Trabalho da Tabela Dinâmica:




Passo 4 – Clicar em Categorias “Cat.”(sem soltar o mouse, operação “Drag”) e arrastar as categorias para o local Rótulos de Linha.




Passo 5 – Arrastar as 3 variáveis observadas: IMC, Corr e Kcal para o local Somatória de Valores (Σ valores). Veja que o protótipo da Tabela Dinâmica, já está pronto, no canto superior esquerdo.



Passo 6 – O problema é que temos somatória dos valores e precisamos de medias aritméticas para entrar no Programa de 

Cluster Analysis do SAS. Como fazer para trocar 

somatória para medias?:


Veja que os dados são de soma, um IMC de 100, praticamente não existe ( 81,9 ; 100,7 ...)


·       Colocar o cursor na célula “soma de IMC

    ·   Pressionar o botão direito do mouse






    ·       Escolher a opção: “Configurações do Campo de Valor

    ·       Veja que está em “Soma”, clicar em “Média”. 




    Veja que agora temos Média de ICM para cada categoria.


    ·       Fazer mesma operação para Corr e Kcal.




    Fim do calculo das medias de cada categoria.


    Agora é somente copiar e colar no SAS.

    Programa SAS para Cluster Analysis dos Dados Calculados no Excel:

    data  pessoas;
    input cat $ imc corr kcal;
    cards;
    DADOS DO SAS DEPOIS DE APLICAR TABELA DINAMICA
    ;
    proc cluster data=pessoas outtree = arvore method = average;
    var imc corr kcal;
    id cat;
    run;
    PROC TREE DATA = arvore;
    RUN;













    Banaco de Dados Custo

    Gestao de Custos:




    No.
    Mes
    Dia
    Item
    Quant. ($R)
    1
    Jan
    3
    Remun. Gerais
    10000
    2
    Jan
    3
    Infraestrutura
    2000
    3
    Jan
    5
    Capacit. Prof.
    500
    4
    Jan
    6
    Serv. Terceriz.
    5000
    5
    Jan
    7
    Outros
    3456
    6
    Jan
    9
    Serv. Terceriz.
    3700
    7
    Jan
    15
    Incentivos Produt.
    567
    8
    Jan
    25
    Infraestrutura
    3450
    9
    Fev
    4
    Incentivos Produt.
    1234
    10
    Fev
    4
    Remun. Gerais
    5678
    11
    Fev
    4
    Serv. Terceriz.
    4000
    12
    Fev
    7
    Infraestrutura
    3500
    13
    Fev
    9
    Outros
    690
    14
    Fev
    16
    Capacit. Prof.
    1200
    15
    Fev
    19
    Remun. Gerais
    3500
    16
    Fev
    26
    Infraestrutura
    7000
    17
    Fev
    27
    Incentivos Produt.
    2700
    18
    Fev
    27
    Capacit. Prof.
    800
    19
    Fev
    28
    Outros
    1200
    20
    Fev
    28
    Serv. Terceriz.
    6660