Covariância
Em teoria da probabilidade e na estatística, a covariância, ou variância conjunta, é uma medida do grau de interdependência (ou inter-relação) numérica entre duas variáveis aleatórias[1]. Assim, variáveis independentes têm covariância zero.
A covariância é por vezes chamada de medida de dependência linear entre as duas variáveis aleatórias.
Definição formal
[editar | editar código-fonte]A covariância ou variância conjunta é um momento conjunto de primeira ordem das variáveis aleatórias X e Y, centrados nas respectivas médias. É a média do grau de interdependência ou inter-relação numérica linear entre elas[1].
Se a variável for discreta, a covariância pode ser calculada de duas formas:
- , onde é a frequência relativa (ou probabilidade de ocorrer o par e é a média para os valores da variável indicada.
Prova matemática
[editar | editar código-fonte]Em teoria da probabilidade e na estatística, a covariância entre duas variáveis aleatórias reais X e Y, com valores esperados e é definida como uma medida de como duas variáveis variam conjuntamente:
onde é o operador do valor esperado[2]. Desenvolvendo a expressão para a Covariância, temos:
Usando a propriedade de que a Esperança (Valor esperado) de uma variável aleátória X qualquer é um operador linear, determinamos que a Esperança de uma soma é a soma das Esperanças:
Novamente utilizando da linearidade da Esperança, temos que a Esperança de uma constante K qualquer multiplicada pela variável X é equivalente à constante K multiplicada pela Esperança da variável X. Sendo a Esperança de X um número qualquer definido no conjunto dos Números Reais, podemos fatorá-la em dois fatores:
Isto equivale à seguinte fórmula, a qual é geralmente usada para fazer os cálculos[2]:
Se X e Y são independentes, então a sua covariância é zero. Isto acontece porque sob independência[2]:
- .
Assim:
O inverso, no entanto, não é verdadeiro: é possível que X e Y não sejam independentes e terem no entanto covariância zero[2]. Variáveis aleatórias cuja covariância é zero são chamadas descorrelacionadas.
Propriedades da Covariância
[editar | editar código-fonte]Se X e Y são variáveis aleatórias de valor real e a, b, c e d constantes ("constante", neste contexto, significa não aleatória), então os seguintes factos são uma consequência da definição da covariância[2]:
Para variáveis aleatórias em vetores coluna X e Y com respectivos valores esperados μX e μY, e n e m de componentes escalares respectivamente, a covariância é definida como matriz n×m
Para variáveis aleatórias em vetor, cov(X, Y) e cov(Y, X) são a transposta de cada um.
Relação entre variância e covariância
[editar | editar código-fonte]A covariância entre duas variáveis pode ser obtida de dados de variância[1]. Para variáveis aleatórias X e Y, sejam:
- é a variância populacional de X
- é a variância populacional de Y
- é a variância populacional de uma variável obtida a partir da soma simples das variáveis X e Y.
- "a" e "b" são constantes
Então, teremos:
Outras nomenclaturas
[editar | editar código-fonte]A covariância é por vezes chamada de medida de dependência linear entre as duas variáveis aleatórias.
O Coeficiente de Correlação Linear é um conceito relacionado usado para medir o grau de dependência linear entre duas variáveis, variando entre -1 e 1, indicando o sentido da dependência.
Exemplo de cálculo de covariância populacional
[editar | editar código-fonte]Seja X a variável "altura dos jogadores de basquete" e seja Y a variável "peso dos mesmos atletas". A partir desses dados, é possível montar uma tabela com os desvios em relação a média. Essa tabela auxilia no cálculo da covariância[1]:
Atleta | Variável X (altura em metros) | Variável Y (peso em kg) | Desvio de X (valor menos média da variável) | Desvio de Y (valor menos média da variável) | Multiplicação dos desvios |
---|---|---|---|---|---|
1) Pedro | 1,95 | 93,1 | -0,038 | -1,34 | -0,038*-1,34=+0,05092 |
2) João | 1,96 | 93,9 | -0,028 | -0,54 | -0,028*-0,54=+0,01512 |
3) José | 1,95 | 89,9 | -0,038 | -4,54 | -0,038*-4,54=+0,17252 |
4) Renato | 1,98 | 95,1 | -0,008 | +0,66 | -0,008*0,66=-0,00528 |
5) André | 2,10 | 100,2 | +0,112 | +5,76 | 0,112*5,76=0,64512 |
Soma | = 1,95+1,96+...+2,10=9,94 | A soma de desvios é sempre igual a zero | A soma de desvios é sempre igual a zero | +0,05092+0,01512+0,17252-0,00528+0,64512=0,8784. | |
Número de elementos | N = 5 alturas medidas | N = 5 pesos medidos | 5 desvios calculados | 5 desvios calculados | 5 multiplicações feitas |
Média | A média de desvios é sempre igual a zero | A média de desvios é sempre igual a zero | 0,8784/(5)=0,17568=covariância de X e Y |