Regularização

Laboratório de Estatística e Geoinformação - LEG/UFPR

Nos dias atuais, frequentemente nos deparamos com um grande número de variáveis preditoras, que explicam determinada resposta. Nessas situações, precisamos de mecanismos de escolha das melhores variáveis. Por exemplo, no caso de regressão linear, estimamos os parâmetros \(\beta\), e as variáveis associadas às estimativas diferentes de zero entrarão no modelo. Como sabemos, sob certas condições, os estimadores de Mínimos Quadrados Ordinários (MQO) são não viesados e de variância mínima. Ou seja, dentro da classe dos estimadores não viciados, procuramos aquele de menor variabilidade. Mas, como nosso interesse em Machine Learning está na predição de novas observações, podemos permitir certo viés nas estimativas dos parâmetros, a fim de obter consideráveis decrescemos na função custo. Trata-se de um trade-off entre vício e variância. Dessa forma, deixamos de selecionar variáveis em um cenário discreto de opções, em que as variáveis são mantidas ou descartadas (e, muitas vezes, o valor que minimiza a função custo está entre estes saltos), passando para um caso contínuo de possibilidades.

Além disso, em problemas com “small \(n\) and large \(p\)”, a maioria dos métodos modernos de análise de dados falha, por diferentes razões:

Modelos Lineares Generalizados: falham, pois a matriz do modelo não tem posto completo;
Random Forests: falha, pois a probabilidade de selecionar variáveis importantes diminui muito;
Análise de Clusters: métodos baseados em distâncias no plano cartesiano falham devido à “maldição da dimensionalidade”.

Diante dessas situações, os métodos de regularização são aconselhados, pois permitem cenários contínuos do domínio da função custo e lidam bem com casos em que \(p>n\). Tal abordagem torna-se ainda mais atrativa na presença de variáveis correlacionadas, devido ao fator de inflação da variância (variance inflation factor). Fazemos isso, incorporando uma restrição (penalty) às estimativas dos parâmetros de MQO: \[\hat \beta^{restrito} = \underset{\mathbf{\beta}}{min} \ \displaystyle \sum_{i=1}^{n}\left(y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij}\right)^2, \ \ \mbox{sujeito a} \ \ g(\mathbf{\beta}) <t,\] em que \(g(\mathbf{\beta})\) representa a função penalty (shrinkage penalty), cujo papel é manter as estimativas de \(\beta_j\) próximas de zero (regulando-as) e \(t\) é um escalar entre zero e infinito, quanto menor seu valor, maior o penalty. A figura abaixo representa essa situação (nesse caso, \(g(\mathbf{\beta}) = \beta_1^2+ \beta_2^2\)). Nosso objetivo é encontrar os valores de \(\mathbf{\beta}\) que representam um custo mínimo, restrito à região em azul.

Implementamos o processo de penalização através dos Multiplicadores de Lagrange, aumentando a função objetivo, da seguinte forma: \[\hat \beta^{restrito} = \underset{\mathbf{\beta}}{min} \ \displaystyle \sum_{i=1}^{n}\left(y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij}\right)^2 + \lambda g(\mathbf{\beta}), \] em que \(\lambda\) um escalar entre zero e infinito. Trata-se de um tuning parameter, determinado separadamente (veremos adiante). A medida que \(\lambda\) cresce, a flexibilidade do modelo diminui (reduzindo a variância e aumentando o vício). Quando a regularização pertence à família das potências, temos a seguinte especificação: \[\hat \beta^{restrito} = \underset{\mathbf{\beta}}{min} \ \displaystyle \sum_{i=1}^{n}\left(y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij}\right)^2 + \lambda \sum_{j=1}^{p}|\beta_j|^q,\] dependendo da escolha de \(q>0\), obtemos diferentes penalizações:

\(q=2\): Penalização Ridge;
\(q=1\): Penalização Lasso;
\(q<1\): Penalização Horseshoe.

Observação: na regressão penalizada, o \(\mathbf{X}_j\hat \beta^{restrito}_{j,\lambda}\) depende não somente de \(\lambda\), mas da escala do \(j\)-ésimo preditor. Dessa forma, todos os parâmetros devem ter a mesma métrica, para que sejam compráveis. Diante disso, antes de aplicar a regressão penalizada, deve-se padronizar os preditores: \[ \tilde x_{ij} = \frac{x_{ij}}{\sqrt{\frac{1}{n}\sum_{i=1}^{n}\left(x_{ij} - \bar x_{j}\right)^2}}. \]

Esse caso é diferente dos coeficientes obtidos por Mínimos Quadrados Ordinários, que são equivariantes por transformação de escala, ou seja, multiplicando \(\mathbf{X}_j\) por uma constante \(c\), as estimativas dos coeficientes são escalados por um fator \(1/c\). Assim, o produto \(\mathbf{X}_j\hat \beta^{MQO}\) permanece inalterado. Veremos em seguida alguns tipos de regressão que se diferenciam segunda seu tipo de penalização.

1) Penalização Ridge

A regressão Ridge “encolhe” (shrinks) os coeficientes impondo uma restrição na norma \(\ell_2\) dos mesmos: \[ \displaystyle\hat\beta^{ridge} = \underset{\mathbf{\beta}}{min} \ \displaystyle \sum_{i=1}^{n}\left(y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij}\right)^2 + \lambda \sum_{j=1}^{p}\beta_j^2. \]

Note que aplicamos a regularização em \(\beta_1,\dots, \beta_p\), mas não no intercepto, \(\beta_0\), pois queremos encolher as estimativas associadas às variáveis explicativas, não na resposta média quando \(x_{i1} = x_{i2} = \dots = x_{ip} = 0\). Inicialmente, essa abordagem surgiu para resolver o problema do condicionamento da matriz. Fez-se isso, perturbando sua diagonal, ou seja: \[ \displaystyle\hat\beta^{ridge} = (X^tX + \lambda I)^{-1}+X^ty. \] Esse resultado é bastante intuitivo, se \(\lambda = 0\), estamos no caso irrestrito, e a medida que aumentamos seu valor, a restrição passa a dominar a solução. O caso extremo seria \((X^tX + \lambda I)^{-1}+X^ty \approx 1/\lambda\).

2) Penalização Lasso

A regressão Ridge falha na parcimônia do modelo, pois ainda que as estimativas dos parâmetros sejam muito próximos de zero, elas nunca atingem exatamente esse valor. Assim, todos os \(p\) preditores, ainda que com pouco peso, permanecem no modelo. A regressão Lasso é uma alternativa que contorna essa desvantagem. Os coeficientes Lasso, \(\hat \beta^{Lasso}_\lambda\), minimizam a quantidade \[ \underset{\mathbf{\beta}}{min} \ \displaystyle \sum_{i=1}^{n}\left(y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij}\right)^2 + \lambda \sum_{j=1}^{p}|\beta_j| \]

Embora possa parecer uma pequena modificação, as implicações práticas são significantes. Neste caso, dependendo do valor de \(\lambda\), algumas estimativas dos parâmetros são realmente 0. Assim, o penalty \(\ell_1\) funciona também como um selecionador de variáveis. A figura abaixo ilustra essa situação. A estimativa de \(\beta_1\) via penalização Lasso é exatamente igual a 0, enquanto via Ridge nunca atingirá esse valor.

Ridge Lasso

“Ridge regression is known to shrink the coefficients of correlated predictors towards each other, allowing them to borrow strength from each other. In the extreme case of k identical predictors, they each get identical coefficients with 1/kth the size that any single one would get if fit alone [\(\dots\)] Lasso, on the other hand, is somewhat indifferent to very correlated predictors, and will tend to pick one and ignore the rest.” Friedman et al. (2010)

3) Penalização Elastic Net

Elastic net trata-se de um compromisso entre a regressão Ridge e Lasso, combinando os dois tipos de penalties. Os coeficientes elastic net minimizam a quantidade \[ \hat \beta^{Elastic Net}_\lambda = \underset{\mathbf{\beta}}{min} \ \displaystyle \sum_{i=1}^{n}\left(y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij}\right)^2 + \lambda_1 \sum_{j=1}^{p}|\beta_j| + \lambda_2 \sum_{j=1}^{p}\beta_j^2 \]

A vantagem deste modelo é permitir uma efetiva regularização com penalidade do tipo Ridge - especialmente em grupos de preditores correlacionados - aliado à qualidade da seleção de características através do Lasso. A figura abaixo ilustra esta penalização, comparando-a com ridge e lasso (Zou and Hastie, 2005).

4) Penalização horseshoe

O que acontece se reduzirmos \(q\) ainda mais? Esse estudo deu origem aos estimadores baseados em penalização horseshoe. Ela favorece ainda mais a presença de 0’s (maior esparsidade). Ou seja, tende a encontrar as elipses geradas pelos mínimos quadrados em cima dos eixos com mais frequência que Ridge e Lasso. Quando \(q=0\) voltamos ao Best subset selection.

Ridge Lasso Horseshoe

Selecionando o tuning parameter, \(\lambda\)

Todos os métodos supracitados exigem um tuning para decidir sobre o valor de \(\lambda\) ótimo, realizamos esse processo utilizando validação cruzada. A partir de uma grade de valores de \(\lambda\), escolhemos aquele que resulta na menor taxa de erro de validação. Note que, quando \(\lambda=0\), o termo de penalty não terá efeito na estimação por mínimos quadrados. A medida que \(\lambda \rightarrow \infty\), a regularização aumenta.