Porque devemos ter cuidado ao usar o PSM (Propensed Score Matching)

Porque devemos ter cuidado ao usar o PSM (Propensed Score Matching)

Nesse breve texto gostaria de refletir sobre um tema recorrente dentro das ciências econômicas, mais especificamente dentro da análise de politicas públicas, e suas discussões metodológicas que é sobre a aplicação do PSM em estudos sobre analise de impactos.

Motivação

Assim como muitos trabalhos também acabei usando a metodologia PSM em minha monografia da graduação, de inicio achava que seria o suficiente para um trabalho de nível inicial, mas ao buscar a literatura metodológica acabei percebendo que o buraco era mais embaixo, sendo o ponto de partida de King & Nielsen (2018), e mesmo para um trabalho mais simples, seria interessante agregar mais metodologias que garantissem uma maior robustez do trabalho.

Vocês podem encontrar a monografia que inspirou e um artigo derivado dela aqui, ou direto no meu github.

O que é o PSM ?

O ponto de partida para a aplicação do PSM se da na estimação do que chamamos de ATT (Average Treatment on Treated), ou seja efeito médio do tratamento no tratados.

O ATT é uma das principais metodologias de avaliação de impacto utilziadas na literatura de ciências sociais aplicadas, e principalmente dentro da avaliação de políticas publicas, a estimação consiste em estimar a diferença de uma variável alvo, entre observações expostas/tratadas a um evento, quando comparadas a observações não expostas/tratadas a esse mesmo evento, o ATT pode ser representado pela formula abaixo:

\[ATT = E(y_{i} | D = 1) - E(y_{i} | D = 0)\]

O grande problema dessa metodologia quando pensada em ciências sociais, é que não podemos replicar os resultados para individuos em duas realidades ou oportunidades, portanto não conseguimos estimar um ATT que seja puro e demonstre de forma totalmente pura o efeito do tratamento, dessa forma dada a aplicação de uma política, ou de um evento que afeta parte de uma população devemos encontrar outros meios de estimar o efeito dos tratados, é ai que entra a aplicação do PSM e outros procedimentos de Matching.

Dentro desse contexto em que não conseguimos replicar um individuo em duas situações diferentes o que podemos fazer no caso é comparar as duas populações, porém ao invés de aplicarmos de forma direta, selecionamos as observações do grupo controle que tenham um conjunto de características observaveis o mais parecida com cada observação do grupo controle, sendo assim ai que entram as técnicas de matching.

O PSM surge como uma proposta para “driblar” o problema do ATT sugerido por Rubin (1983), em essencial o Propensed Score seria a probabilidade condicional de se participar de um tratamento dado um conjunto de variáveis observáveis. A primeira premissa do PSM é que os resultados potências $Y_{0}$ sendo apenas baseadas em características observáveis;

\[Y_{0}, Y_{1} \perp D|X\]

A segunda condição é que para cada observação tratada, existe um par controle que reproduziria o resultado do indíviduo tratado na ausência de tratamento, essa hipótese é representada por:

\[0 < P(D=1|X) < 1\]

1. Criação do Propensed Score

A primeira é a que busca criar um score de propensão baseada na amostra de tratados em que características observaveis são utilizadas para a construção desse score, que significaria : Dada as características observaveis dessa observação qual seria a probabilidade dessa ser uma observação tratada. Os calculos são efetuados por meio da aplicação de uma regressão logística como segue exemplo abaixo:

\[\pi = \frac{exp( -\beta 'X )}{1+exp( -\beta 'X )}\]

2. Calculo das distâncias

A partir da estimação do Propensed Score para a amostra como um todo agora devemos calcular as distâncias entre os scores das observações tratadas e as controles, a partir desse calculo podemos selecionar as observações que mais se aproximam em relação ao score.

\[d = | \hat{ \pi_{c} } - \hat{\pi_{t}} |\]

3. Seleção dos k mais próximos

A partir das distâncias calculadas selecionamos as k observações mais próximas de cada observação tratada e a partir dai temos o matching completo, assim poderiamos estimar um ATT dada a diferenciação entre grupos e portanto teriamos amostras conntrole e tratadas com uma série de características observaveis semelhantes e portanto nosso ATT estimado incorreria em menor erro.

\[min_k( d( \hat{ \pi_{c} }, \hat{\pi_{t}} ) )\]

Resumo

O PSM como demonstrado de fomra simplória acima, funciona como uma redução de dimensões de um procedimento clássico de Matching como o KNN ( K Nearest Neighbours ), porém ao invés de realizar o procedimento sobre o vetor de variáveis observadas, realizamos sobre o score de propenção, um ponto posítivo sobre a realização dessa técnica é que diante condições em que possuimos muitas caracteristicas observaveis, a aplicação de um KNN sobre todas elas implicaria em um auto tempo de processamento, assim o PSM reduz o número de dimensões de n para apenas uma.

Porém ao mesmo tempo a redução de dimensões pode apresentar um lado negativo que é o fato do matching sofrer problemas e não conseguirmos parearmos observações do grupo controle que sejam pareadas as tratadas que realmente tenham características similares, e portanto podemos ter erros em não selecionarmos as observaçoes que são mais próximas.

Exemplos Práticos

set.seed( 1200 )

 

data <-
    data.frame(
        x1 = c( rnorm( 500, mean = 10, sd = 25 ),
                rnorm( 120, mean = 23, sd = 20 ) ) ,

        x2 = c( rnorm( 500, mean = 34, sd = 17 ),
                rnorm( 120, mean = 53, sd = 19 ) ) ,

        y = c( rep(0, 500), rep(1, 120 ))
)

Estatísticas descritivas básicas das variáveis :

Estatística $Y$ $X_{1}$ $X_{2}$
Min 0 -65.930 -14.23
1st Qu. 0 -2.356 24.93
Median 0 14.171 36.34
Mean 0.1935 13.015 37.70
3rd Qu. 0 28.877 49.45
Max 1 92.046 99.26

Descrição das estatísticas básicas por Tratamento/Controle:

Tratamento Estatística $X_{1}$ $X_{2}$
  Min -27.252974 13.93817
  1st Qu. 12.529418 38.48299
Sim Median 22.634250 52.04538
  Mean 23.222553 53.57092
  3rd Qu. 36.437639 69.29709
  Max 67.587539 99.26132
       
  Min -65.930316 -14.22998
  1st Qu. -6.815461 22.98394
Não Median 10.579938 33.57835
  Mean 10.565734 33.88806
  3rd Qu. 27.718731 45.07952
  Max 92.046170 84.87077

Resultado da Regressão Logística :

Call:
glm(formula = y ~ x1 + x2, family = "binomial", data = data)

Deviance Residuals:
    Min      1Q  Median      3Q    Max
-1.8061 -0.5848 -0.3926 -0.2085 2.4764

Coefficients:
            Estimate  Std. Error z value Pr(>|z|)
(Intercept) -4.390128 0.356175   -12.326 < 2e-16  ***
x1           0.023382 0.005062   4.620   3.84e-06 ***
x2           0.058949 0.006590   8.946   < 2e-16  ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 609.25 on 619 degrees of freedom
Residual deviance: 481.30 on 617 degrees of freedom
AIC: 487.3

Number of Fisher Scoring iterations: 5

Observação do Matching:

Olhando os plots bi-dimencionais abaixo podemos perceber como se dá o pareamento pelo PSM e a distância das caracteristicas observaveis $X_{1}$ e $X_{2}$ dos dois grupos em um plot.

</a>

Olhando o passo a passo vemos que as observações pareadas não são necessariamente os mais próximos e de certa forma parece existir um certo padrão de seleção, aonde observaçoes de um certo angulo são selecionadas, a baix vemos as densidades dos Scores e das variáveis $X_{1}$ e $X_{2}$ antes e depois do pareamento do PSM

</a>

Como podemos ver, a distribuição dos scores acaba se aproximando muito, mostrando um gráfico em que há sobreposição quase que exata das curvas, porém quando olhamos a nível da variável não necessariamento isso se traduz, havendo algumas diferenças entre as distribuições.

</a>

Metodologias complementares

A questão toda envolvendo o PSM, não é que não devemos utiliza-lo, mas sim que sua utilização precisa de um maior cuidado, e que metodologias alternativas devem ser usadas como forma de validação e comparação dos resultados.

Distância de Mahalanobis

Como mostrado em King & Nielsen (2018), uma metodologia capaz de demonstrar matchings robustos é a distância de Mahalanobis.

A distância é definida pela formula abaixo, aonde $\vec{x}$ e $\vec{y}$ são vetores de características observaveis das observações tratadas e controle, e $S^{-1}$ é inversa da matriz de correlação das características observaveis.

\[d(\vec{x} , \vec{y}) = \sqrt{( \vec{x} - \vec{y} )S^{-1}( \vec{x} - \vec{y} )}\]

Essencialmente se trata de uma distância euclidiana ponderada pela matriz de correlação das variaveis. A grande vantagem que veremos abaixo é o fato de realmente parearmos sempre os pontos com caracteristicas mais próximas, evitando problemas de incorrência do erro de selecionarmos individuos que tenham características diferentes, porém a contrapartida é que se trata de um processo e matching bem mais intensivo computacionalmente.

</a>

</a>