Além disso, em problemas com “small \(n\) and large \(p\)”, a maioria dos métodos modernos de análise de dados falha, por diferentes razões:
Modelos Lineares Generalizados: falham, pois a matriz do modelo não tem posto completo;
Random Forests: falha, pois a probabilidade de selecionar variáveis importantes diminui muito;
Análise de Clusters: métodos baseados em distâncias no plano cartesiano falham devido à “maldição da dimensionalidade”.
Diante dessas situações, os métodos de regularização são aconselhados, pois permitem cenários contínuos do domínio da função custo e lidam bem com casos em que \(p>n\). Tal abordagem torna-se ainda mais atrativa na presença de variáveis correlacionadas, devido ao fator de inflação da variância (variance inflation factor). Fazemos isso, incorporando uma restrição (penalty) às estimativas dos parâmetros de MQO: \[\hat \beta^{restrito} = \underset{\mathbf{\beta}}{min} \ \displaystyle \sum_{i=1}^{n}\left(y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij}\right)^2, \ \ \mbox{sujeito a} \ \ g(\mathbf{\beta}) <t,\] em que \(g(\mathbf{\beta})\) representa a função penalty (shrinkage penalty), cujo papel é manter as estimativas de \(\beta_j\) próximas de zero (regulando-as) e \(t\) é um escalar entre zero e infinito, quanto menor seu valor, maior o penalty. A figura abaixo representa essa situação (nesse caso, \(g(\mathbf{\beta}) = \beta_1^2+ \beta_2^2\)). Nosso objetivo é encontrar os valores de \(\mathbf{\beta}\) que representam um custo mínimo, restrito à região em azul.
Implementamos o processo de penalização através dos Multiplicadores de Lagrange, aumentando a função objetivo, da seguinte forma: \[\hat \beta^{restrito} = \underset{\mathbf{\beta}}{min} \ \displaystyle \sum_{i=1}^{n}\left(y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij}\right)^2 + \lambda g(\mathbf{\beta}), \] em que \(\lambda\) um escalar entre zero e infinito. Trata-se de um tuning parameter, determinado separadamente (veremos adiante). A medida que \(\lambda\) cresce, a flexibilidade do modelo diminui (reduzindo a variância e aumentando o vício). Quando a regularização pertence à família das potências, temos a seguinte especificação: \[\hat \beta^{restrito} = \underset{\mathbf{\beta}}{min} \ \displaystyle \sum_{i=1}^{n}\left(y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij}\right)^2 + \lambda \sum_{j=1}^{p}|\beta_j|^q,\] dependendo da escolha de \(q>0\), obtemos diferentes penalizações:
Observação: na regressão penalizada, o \(\mathbf{X}_j\hat \beta^{restrito}_{j,\lambda}\) depende não somente de \(\lambda\), mas da escala do \(j\)-ésimo preditor. Dessa forma, todos os parâmetros devem ter a mesma métrica, para que sejam compráveis. Diante disso, antes de aplicar a regressão penalizada, deve-se padronizar os preditores: \[ \tilde x_{ij} = \frac{x_{ij}}{\sqrt{\frac{1}{n}\sum_{i=1}^{n}\left(x_{ij} - \bar x_{j}\right)^2}}. \]
Esse caso é diferente dos coeficientes obtidos por Mínimos Quadrados Ordinários, que são equivariantes por transformação de escala, ou seja, multiplicando \(\mathbf{X}_j\) por uma constante \(c\), as estimativas dos coeficientes são escalados por um fator \(1/c\). Assim, o produto \(\mathbf{X}_j\hat \beta^{MQO}\) permanece inalterado. Veremos em seguida alguns tipos de regressão que se diferenciam segunda seu tipo de penalização.
A regressão Ridge “encolhe” (shrinks) os coeficientes impondo uma restrição na norma \(\ell_2\) dos mesmos: \[ \displaystyle\hat\beta^{ridge} = \underset{\mathbf{\beta}}{min} \ \displaystyle \sum_{i=1}^{n}\left(y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij}\right)^2 + \lambda \sum_{j=1}^{p}\beta_j^2. \]
Note que aplicamos a regularização em \(\beta_1,\dots, \beta_p\), mas não no intercepto, \(\beta_0\), pois queremos encolher as estimativas associadas às variáveis explicativas, não na resposta média quando \(x_{i1} = x_{i2} = \dots = x_{ip} = 0\). Inicialmente, essa abordagem surgiu para resolver o problema do condicionamento da matriz. Fez-se isso, perturbando sua diagonal, ou seja: \[ \displaystyle\hat\beta^{ridge} = (X^tX + \lambda I)^{-1}+X^ty. \] Esse resultado é bastante intuitivo, se \(\lambda = 0\), estamos no caso irrestrito, e a medida que aumentamos seu valor, a restrição passa a dominar a solução. O caso extremo seria \((X^tX + \lambda I)^{-1}+X^ty \approx 1/\lambda\).
A regressão Ridge falha na parcimônia do modelo, pois ainda que as estimativas dos parâmetros sejam muito próximos de zero, elas nunca atingem exatamente esse valor. Assim, todos os \(p\) preditores, ainda que com pouco peso, permanecem no modelo. A regressão Lasso é uma alternativa que contorna essa desvantagem. Os coeficientes Lasso, \(\hat \beta^{Lasso}_\lambda\), minimizam a quantidade \[ \underset{\mathbf{\beta}}{min} \ \displaystyle \sum_{i=1}^{n}\left(y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij}\right)^2 + \lambda \sum_{j=1}^{p}|\beta_j| \]
Embora possa parecer uma pequena modificação, as implicações práticas são significantes. Neste caso, dependendo do valor de \(\lambda\), algumas estimativas dos parâmetros são realmente 0. Assim, o penalty \(\ell_1\) funciona também como um selecionador de variáveis. A figura abaixo ilustra essa situação. A estimativa de \(\beta_1\) via penalização Lasso é exatamente igual a 0, enquanto via Ridge nunca atingirá esse valor.
Ridge Lasso“Ridge regression is known to shrink the coefficients of correlated predictors towards each other, allowing them to borrow strength from each other. In the extreme case of k identical predictors, they each get identical coefficients with 1/kth the size that any single one would get if fit alone [\(\dots\)] Lasso, on the other hand, is somewhat indifferent to very correlated predictors, and will tend to pick one and ignore the rest.” Friedman et al. (2010)
Elastic net trata-se de um compromisso entre a regressão Ridge e Lasso, combinando os dois tipos de penalties. Os coeficientes elastic net minimizam a quantidade \[ \hat \beta^{Elastic Net}_\lambda = \underset{\mathbf{\beta}}{min} \ \displaystyle \sum_{i=1}^{n}\left(y_i - \beta_0 - \sum_{j=1}^{p} \beta_j x_{ij}\right)^2 + \lambda_1 \sum_{j=1}^{p}|\beta_j| + \lambda_2 \sum_{j=1}^{p}\beta_j^2 \]
A vantagem deste modelo é permitir uma efetiva regularização com penalidade do tipo Ridge - especialmente em grupos de preditores correlacionados - aliado à qualidade da seleção de características através do Lasso. A figura abaixo ilustra esta penalização, comparando-a com ridge e lasso (Zou and Hastie, 2005).O que acontece se reduzirmos \(q\) ainda mais? Esse estudo deu origem aos estimadores baseados em penalização horseshoe. Ela favorece ainda mais a presença de 0’s (maior esparsidade). Ou seja, tende a encontrar as elipses geradas pelos mínimos quadrados em cima dos eixos com mais frequência que Ridge e Lasso. Quando \(q=0\) voltamos ao Best subset selection.
Ridge Lasso Horseshoe
Todos os métodos supracitados exigem um tuning para decidir sobre o valor de \(\lambda\) ótimo, realizamos esse processo utilizando validação cruzada. A partir de uma grade de valores de \(\lambda\), escolhemos aquele que resulta na menor taxa de erro de validação. Note que, quando \(\lambda=0\), o termo de penalty não terá efeito na estimação por mínimos quadrados. A medida que \(\lambda \rightarrow \infty\), a regularização aumenta.