Logistic回歸

出自集智百科
跳轉到: 導覽搜尋

你在拉斯維加斯(也許只是單機PC版)玩着一系列“公平”賭博——如果“公平”真的存在!

有的賭博勝面小,你用1元押注就可以獲得額外1024元的回報;而有的賭博勝面大,要押注2元;於是還有4元,8元的押注……

你想用一個“風險值”(Risk Score)描述公平賭博的勝面,需要押注每大一倍,說明勝面多一些,這個賭博的“風險值”就下降1分。

用線性變化的得分描述倍增/倍減的押注額,或者解決類似問題,你需要的是Logistic回歸。

目錄

定義

先從公平賭博開始講:如果一場賭博,支付x元之後獲勝能夠超額得到A元,否則輸掉這x元,那麼你的勝率是多少?

令勝率為P,收益隨機變量為X,可知

0=E(X)=AP-x(1-P); P=\frac{x}{A+x}

如果我們加倍賭注,勝率就變成了P^*=\frac{2x}{A+2x}

勝率不是在翻倍的,此時勝率/輸率在翻倍(勝面對負面按比例擴張)

\frac{p}{1-p}=\frac{x}{A}, \frac{p^*}{1-p^*}=\frac{2x}{A},...

使用之前的等差線性風險記分來描述勝負面比例的等比大小,在不知道勝負面大小的時候,我們使用一系列觀測變量的線性組合\beta_0+\sum_{i=1}^k{\beta_kX_k}來估計出勝負面比例,可以構建模型如下:

\mbox{Logit}(P)=log(\frac{p}{1-p}) = f(X) = \beta_0+\sum_{i=1}^k{\beta_kX_k} + \epsilon

其中聯合正態分布的變量集\{X_k\}與正態分布的誤差項\epsilon互相獨立。

與線性回歸的比較

如果在實際問題中,我們觀測到的是一批偏向於“實驗設計出”的數據,往往會得到如下形式的數據:

\bar{P}\backslash X 觀測數 X1 X2
0.8 N_1 0 0
0.65 N_2 1 0
0.7 N_3 0 1
0.55 N_4 1 1

\mbox{Logit}(P)=log(\frac{p}{1-p}) = f(X) = \beta_0+\beta_1X_1+\beta_2X_2 + \epsilon

在數據點N的數目較大的情況下,先估計Logit(\hat{p})的方差,並給每一條觀測加上適當的權重\sqrt{Np(1-p)},可以把問題簡化為一般線性模型並使用最小二乘法迭代求解。

這樣求解的問題在於,十分依賴變量需要離散化成為水平數有限的列名型或者序數型變量,考察變量間相互作用時往往帶來大量待估參數。


Logistic回歸求解

Logistic回歸的目標在於如何更準確的建立泛用性的Logistic線性模型,允許變量集\{X_1,X_2,...X_k\}是連續型變量,如下圖所示:

Y \backslash X 觀測數 X1 X2
1 1 x_{1,1} x_{1,2}
0 1 x_{2,1} x_{2,2}
0 1 x_{3,1} x_{2,3}
1 1 x_{4,1} x_{2,4}

可以得到“事件發生/未發生”的單條觀測,x_{i,j}可以取到連續值,但因為觀測量只有一條,此時的目標變量變成了二值變量,無法再使用“先估計合理p再調整權重”的思路了。

為了解決這個問題,我們把Logistic回歸放在“尋找參數的最大似然估計(MLE)”框架下求解。


求解最優問題:Newton-Raphson迭代

簡化版問題:信用風險評分卡

相關wiki

個人工具
名字空間
動作
導覽
工具箱