機械学習/パターン識別 2 | j3259の日記

j3259の日記：機械学習/パターン識別 2 0

日記 by j3259 2009年02月11日 15時45分

λ(α_i|ω_j) = { 0 if i = j; 1 if i != j.
0-1損失関数(zero-one loss function)。決定された状態が真の状態の場合は 0，それ以外の場合は 1 を返す損失関数。この損失関数に関わる統計的リスク（期待損失）は平均誤差率と等価である。定義より条件付リスクは
R(α_i|x→) = ∑(j=1,c){λ(α_i|ω_j)p(ω_j|x→)}
　　= ∑(i!=j){P(ω_j|x→)}
= 1 - P(ω_i|x→)
リスクを最小化するには事後確率が最大のi を選ぶべきである。つまり，0-1損失の場合の誤差率を最小化するには「i != j である全ての j について P(ω_i|x) > P(ω_j|x) である状態 ω_i を選択する」。
g_i(x→). 判別関数(discriminant function)。分類器は「i != j である全ての j について g_i(x→) > g_j(x→) である」場合，特徴ベクトル x→ をにクラスω_i に割り当てる。
ベイズ分類器も判別関数として表現することができる。リスクありの一般的な場合は g_i(x→) = -R(α_i|x→)。誤差率最小の場合は，g_i(x→) = P(ω_i|x→)。
判別関数は大小を比較するためにだけ用いられるため，正の定数を掛けたり，定数を足し引きしてもかまわない。一般には，判別関数は単調増加な関数 f(・)に入れても判別の結果に変わりはない。
g_i(x→) = P(ω_i|x→) = p(x→|ω_j)P(ω_j) / P(x→)
= p(x→|ω_j)P(ω_j)
= ln p(x→|ω_j) + ln P(ω_j)
と大幅に式を単純化していける。

ベイズ分類器の構造は条件付確率密度(conditional density) p(x→|ω_j) と事前確率 P(ω_j) に依存するが，さまざまな密度関数の中でも多変量正規分布(multivariate normal)，つまりガウス密度(Gaussian density)が注目されてきた。
E[f(x)] = ∫f(x)p(x)dx. 密度p(x)におけるスカラー関数f(x)の期待値(expected value)。x が離散の場合は E[f(x)] = ∑(x∈D){f(x)P(x)}。
p(x) = 1/sqrt(2πδ)*exp(-1/2 * ((x - μ)/δ))²). 連続単変量正規分布，ガウス密度。
μ := E[x] = ∫xp(x)dx.
δ² := E[(x - μ)²] = ∫(x - μ)²p(x)dx.
簡易的に p(x) ~ N(μ,δ²) と表記する。
p(x→) = 1/{(2π)^d/2 * |∑|^^1/2} * exp[-1/2(x→ - μ→)^T∑^-1(x→ - μ→)]. d次元の多変量正規密度。
μ→はd成分の平均ベクトル(mean vector)，∑は共分散行列(covariance matrix)，|∑|は∑の行列式，∑^-1は∑の逆行列である。
簡易的に p(x→) ~ N(μ→,∑) と表記する。
μ→ := E[x→] = ∫x→p(x→)dx→.
∑ := E[(x→ - μ→)(x→ - μ→)^T] = ∫(x→ - μ→)(x→ - μ→)^Tp(x→)dx→.

参照

線形代数メモ

j3259の日記：機械学習/パターン識別 2 0

機械学習/パターン識別 2 More ログイン

スラド