MLエンジニアへの道 #2 - ロジスティック回帰の前提知識

機械学習には2つの主要なタスクがあります：回帰と分類です。前回の記事では、線形回帰を使用して線形相関のあるデータに対する回帰タスクに取り組む方法を学んだので、次にロジスティック回帰を使用してバイナリ分類を実行する方法について説明します。ただし、ロジスティック回帰には確率と統計の理解が必要です。そのため、この記事では前提知識を学ぶことでロジスティック回帰をより理解しやすくしたいと思います。

ロジスティック関数

上で確率からロジットへの変換方法を学んだところで、ロジットから確率への変換方法も見てみましょう。

x = log(\frac{p}{1-p})

上記のようにロジットを $x$ として設定し、 $p$ を孤立させてロジット関数の逆関数を求めることができます。計算を続けましょう。

e^x = \frac{p}{1-p} \\ p = (1-p)e^x \\ p = e^x - pe^x \\ (1+e^x)p = e^x \\ p = \frac{e^x}{1+e^x}

分母と分子の両方に $e^{-x}$ を掛けると、

p = \frac{1}{e^{-x}+1}

これは、ロジットを確率に変換できる標準ロジスティック関数（またはシグモイド関数）と呼ばれます。これは、ロジットを $-\infty$ から $\infty$ の範囲で取得し、0から1の範囲の確率を導出できます。

一般的なロジスティック関数には他のパラメータもあります：

f(x) = \frac{L}{1+e^{-k(x-x_0)}}

ここで、 $L$ は関数の上限、 $k$ は曲線の急峻度、 $x_0$ は関数の中点です。このロジスティック関数を、0および1で表されるバイナリ結果変数をプロットして得られるデータにパラメータ $k$ および $x_0$ を変更することでフィットさせることを想像できるでしょう。

尤度

英語では、確率(probability)と尤度(likelihood)は互換的に使用されますが、数学の世界では異なる意味を持ちます。確率は分布またはモデルがあるときの観測値の可能性に関するもので（P(観測 | モデル)）、尤度は観測値があるとき分布またはモデルがどれほど観測値に適しているかを示します（L(モデル | 観測)）。

最尤推定

尤度は、モデルがデータにどれだけ適合するかの尺度として使用できます。尤度が高いほど、そのモデルがデータを生成した正しいものである可能性が高くなります。尤度が最高に達するモデルのパラメータを見つけるプロセスは最尤推定(MLE)と呼ばれ、これには複数の方法があります。

たとえば、モデルのパラメータに関する尤度関数を取得、尤度関数の偏微分を計算、それを0に設定し、方程式のを解くことで、尤度が最大になるパラメータを導出できます。また、負の尤度関数をコスト関数として設定することで、勾配降下法を使用することもできます。

KLダイバージェンス

2つの分布やモデルがどれだけ異なるかを定量化したい場合、次のようにモデルに応じて観測値の確率を比較できます。

\frac{P(Observations | Model_p)}{P(Observations | Model_q)} = \frac{p_1^np_2^{(t-n)}}{q_1^nq_2^{(t-n)}}

上記の方程式は、実際のモデル $p$ と予測モデル $q$ の両方がバイナリな結果の確率分布を持ち( $p_1, p_2, q_1, q_2$ )、 $t$ 回の観測が行われ、そのうちの1の結果を $n$ 回観測したと仮定します。上記の方程式の解を1と比較することで、2つの分布がどれだけ異なるかを把握することができます。

しかし上の指標は、1からの距離が値が1より小さいか大きいかに応じて異ってしまうという対称性の問題があります。この問題を解決するために、ログ関数を使用できます。（ログ関数を適用する実際の理由は情報理論に関連しており、この記事の範囲を超えています。）

log(\frac{p_1^np_2^{(t-n)}}{q_1^nq_2^{(t-n)}})

観測の総数 $t$ で割ることもできます。これは単調関数であるためです。（これも情報理論に関連しています。）

\frac{1}{t}log(\frac{p_1^np_2^{(t-n)}}{q_1^nq_2^{(t-n)}})

この方程式をさらに整理すると、次のようになります：

\frac{n}{t}log(p_1) + \frac{t-n}{t}log(p_2) - \frac{n}{t}log(q_1) - \frac{t-n}{t}log(q_2) \\ = p_1log(p_1) + p_2log(p_2) - p_1log(q_1) - p_2log(q_2) \\ = \sum_{i=1}^{2}p_ilog(p_i) - \sum_{i=1}^{2}p_ilog(q_i)

これで、モデルごとの観測値の確率の比を導出することで、バイナリな結果におけるKLダイバージェンスの公式に到達しました。 KLダイバージェンスの一般的な公式は次のとおりです：

D_{KL}(P || Q) = \sum_iP(i)log(P(i)) - \sum_iP(i)log(Q(i))

KLダイバージェンスが大きくなるほど、モデル $P$ と $Q$ の違いが大きいということを指します。

クロスエントロピー

上記のKLダイバージェンス公式を使用して、予測モデル $Q$ と実際のモデル $P$ がどれだけ異なるかを比較できます。モデル $Q$ KLダイバージェンスを最小化できるようパラメータを調整することで、モデル $Q$ をモデル $P$ に近似するようにすることができます。

しかし、KLダイバージェンス公式を詳しく見ると、方程式の最初の部分はモデル $Q$ のパラメータに依存しないことがわかります。（最初の部分は $P$ のエントロピーに対応しますが、これはこの記事の範囲を超えています。）したがって、モデルのパラメータを変更してKLダイバージェンスを最適化したい場合、後者の部分のみを求めれば良いことになります。KLダイバージェンスの後者の部分は、 $P$ と $Q$ の間のクロスエントロピーに対応します。

H(P, Q) = - \sum_iP(i)log(Q(i))

クロスエントロピーを最小化することで、KLダイバージェンスを最小化し、観測値を生成するために使用されたモデル $P$ に $Q$ を近似することができます。

リソース

Liusie, A. 2021. Intuitively Understanding the KL Divergence YouTube.
StatQuest. 2018. Odds and Log(Odds), Clearly Explained!!! YouTube.
StatQuest. 2018. Probability is not Likelihood. Find out why!!! YouTube.