MLエンジニアへの道 #1 - 線形回帰モデル

前回の記事「機械学習の真の姿とはどのようなものか」では、線形回帰について触れました。この記事では、コーディングに取り組み、機械学習の重要な概念についてさらに詳しく説明します。

sklearnの事前定義されたモデルを使用しましたが、自分で構築することもできます。ここでは、異なる学習アルゴリズムである勾配降下法を使用して自分のモデルを作成してみましょう。すでに気づいたかもしれませんが、パラメータの数が増えるにつれて最適なパラメータセットを見つけるための方程式系を解くことがますます難しくなります。複雑なケースにも使用できる最適なパラメータセットを得るための簡単な方法のその1つが勾配降下法です。

勾配降下法とは？

コスト関数が次のようであると仮定しましょう。

私たちが見つけたいのは、最小点に導くパラメータです。まずランダムなパラメータを選んだところ8.5であったとします。勾配を計算すると、8.5に触れる線、つまり次のような接線を導くことができます。

ここで、左に行き、傾斜を下ることで局所最小値に近づくことができることに気が付いたでしょうか。傾斜が負の場合、右に行って傾斜を下ることで局所最小値に近づくことができます。つまり、傾斜の反対方向に進むことで常に局所最小値に近づくことができます。（傾斜が正の場合は負の方向に進み、その逆も同様です。）この手順を繰り返し行うことで、局所最小値にかなり近づくことができます。これが勾配降下法の基本的な考え方です。これを次の式で表すことができます。

\phi_t = \phi_{t-1} - \frac{d}{d\phi}J(\phi)

ここで、 $t$ はタイムステップであり、 $J$ はコスト関数です。しかし、反対方向に遠くに行きすぎると、曲線の反対側に交差してしまい、局所最小値に到達できなくなります。よって、反対方向に小さなステップを踏んで、徐々に局所最小値に降下することの方が理想的です。これは学習率（ $\alpha$ ）を調整することで実現されます。学習率を勾配に乗じることで、ステップが小さくなります。

\phi_t = \phi_{t-1} - \alpha\frac{d}{d\phi}J(\phi)

勾配の計算

では、関数の勾配をどのように求めるのでしょうか？パラメータに関して偏微分を行うことで求めることができます。MSEをコスト関数として使用し、偏微分を求めてみましょう。MSEの式は次の通りです：

MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i-f(x_i,\phi))^2 = J

チェーンルール(連鎖律)を使用して偏微分を取りましょう。

\frac{\partial}{\partial\phi} J = \frac{2}{n}\sum_{i=1}^{n}(y_i-f(x_i,\phi))\frac{d}{d\phi}f(x_i,\phi)

$f$ は線形関数であるため、 $f$ の偏微分は傾きに対しては $\phi$ 、切片に対しては1です。したがって、偏微分は次のようになります：傾きに対しては：

\frac{\partial}{\partial\phi} J = \frac{2}{n}\sum_{i=1}^{n}(y_i-f(x,\phi))x_i

切片に対しては：

\frac{\partial}{\partial\phi} J = \frac{2}{n}\sum_{i=1}^{n}(y_i-f(x,\phi))

これらの値に学習率を乗じて、パラメータから差し引くことでパラメータを最適化できます。

コードの実装

上記の概念を使用して、勾配降下法を用いた線形回帰モデルを自作することができます。

class LinearRegressionGD():
  def __init__(self, lr=0.01):
    self.W = np.zeros(X.shape[1])
    self.b = 0
    self.lr = lr # Learning rate
    self.history = [] # History of loss
 
  def predict(self, X):
    return np.sum(self.W*X + self.b, axis=1)
 
  def fit(self, X, y, epochs=100):
    for i in range(epochs):
      pred = self.predict(X)
      n = len(y)
 
      self.history.append(mean_squared_error(y, pred))
 
      diff = pred - y
      grad_W = np.sum((1/n)*diff[:, np.newaxis]*X, axis=0)
      grad_b = np.sum((1/n)*diff)
 
      self.W -= self.lr * grad_W
      self.b -= self.lr * grad_b
    return self.history

上記のモデルに訓練データを学習させて結果を見てみましょう。

# LinearRegressionGD() モデルの初期化
lrgd = LinearRegressionGD()
 
# モデルをトレーニング/フィット
history = lrgd.fit(X_train, y_train)

エポックごとのMSEを追跡し、勾配降下法がどのように機能しているかをプロットしてみましょう。

import matplotlib.pyplot as plt
plt.plot(history)
plt.title("MSE vs Epoch")
plt.ylabel("MSE")
plt.xlabel("Epoch")
plt.show()

上記のプロットから、エポックごとにMSEが徐々に減少していることがわかります。これは、勾配降下法が機能している良いサインです。モデルをMSEとMAEで評価してみましょう。

pred = lrgd.predict(X_test)
print('Mean Absolute Error:', mean_absolute_error(y_test, pred))
print('Mean Squared Error:', mean_squared_error(y_test, pred))
 
# 結果
# Mean Absolute Error: 0.2809225334352517
# Mean Squared Error: 0.11678672963320082

LinearRegressionGDのMAEとMSEがLinearRegressionに近いことがわかります。方程式系を解く必要がないため、勾配降下法は、これから学習するより複雑なモデルに対処する際に役立ちますので、この概念を完全に理解しておくべき概念といえます。

リソース

Shen, S. W. Darryl. 2020. Linear Regression using Iris Dataset — ‘Hello, World!’ of Machine Learning. Medium.

振り返り

線形回帰モデル

ステップ 1. データ探索

ステップ 2. データ前処理

ステップ 3. モデル

ステップ 4. モデルの評価

勾配降下法による線形回帰

勾配降下法とは？

勾配の計算

コードの実装

リソース