パターン認識特論・課題2(2007/09/25分)

パターン認識特論, 授業科目, www.kameda-lab.org 2007/09/25

期限・提出方法


課題内容

SVMの構築実験と評価実験、および考察を以下の要領で行うこと。
特に、下記【1】〜【5】の中で下線部に対応する記述は必ず用意すること。

【1】準備:データセットの作成

2次元のデータ空間を考え、2つのクラスT(True)、F(False)を考える。
クラスTはX,Yそれぞれ正規分布(平均3.0, 分散1.0)に従うものとする。
クラスFはX,Yそれぞれ正規分布(平均0.0, 分散1.0)に従うものとする。
訓練用集合(A)はT、Fそれぞれについて3つ用意する。
テスト用集合(B)もT、Fそれぞれについて3つ用意する。
いずれも各要素については乱数で確率密度変数を用意し、上記分布に従うようにする。

集合名 正規分布 要素数
SetA-True/10 平均(3.0, 3.0), 分散(1.0, 1.0)10
SetA-False/10 平均(0.0, 0.0), 分散(1.0, 1.0)10
SetA-True/100 平均(3.0, 3.0), 分散(1.0, 1.0)100
SetA-False/100 平均(0.0, 0.0), 分散(1.0, 1.0)100
SetA-True/1000 平均(3.0, 3.0), 分散(1.0, 1.0)1000
SetA-False/1000平均(0.0, 0.0), 分散(1.0, 1.0)1000

集合名 正規分布 要素数
SetB-True/10 平均(3.0, 3.0), 分散(1.0, 1.0)10
SetB-False/10 平均(0.0, 0.0), 分散(1.0, 1.0)10
SetB-True/100 平均(3.0, 3.0), 分散(1.0, 1.0)100
SetB-False/100 平均(0.0, 0.0), 分散(1.0, 1.0)100
SetB-True/1000 平均(3.0, 3.0), 分散(1.0, 1.0)1000
SetB-False/1000平均(0.0, 0.0), 分散(1.0, 1.0)1000

ただし上記12集合について、同じ座標の要素が含まれてないように注意を払うこと。
なお、この12集合は各提出者ごとに独自のものを用い、各集合のX,Y要素の平均と分散を示すこと

参考:要素数10,100,1000個の場合の集合構成例


【2】SVMの導入

線形・非線形・ソフトマージンの機能を備えたSVMのプログラムを用意せよ。
自分でプログラムを書く必要はなく、一般に頒布されているライブラリを用いてよい。
ただし、ライブラリについて、下記の情報を明記すること

なお、上記の12集合を入力できるようなライブラリを選択すること。 どのライブラリを用いるかの決定や、利用法に関する習熟については学生間で相談してよい。

【3】SVMの構築

まず、訓練用集合SetAの3組(10要素用、100要素用、1000要素用)を用いて、48種類のSVM識別器(後述)を構成し、訓練用集合に対する識別結果を示せ。
識別結果は、48種類の識別器それぞれについて、True-Positive, True-Negative, False-Positive, False-Negativeの4つの要素数とも示すこと。

ここで、True / False は訓練用集合の各要素に付けられた教師信号を意味する。
また、Positive / Negative は識別器が付ける(=言い張る)認識結果を意味する。
例えば、各集合の要素数100の場合は、下記のようになる。

False True 小計
Negative False-Negative True-Negative FN + TN = N = 不定(期待値としては100)
Positive False-Positive True-Positive FP + TP = P = 不定(期待値としては100)
小計 FN + FP = F = 100TN + TP = T = 100 200

用意するSVM識別器(48種類)


【4】SVMによる識別

過程【3】で構築した48種類のSVMについて、それぞれ、テスト用の同要素数集合を用いて識別結果を示せ。
識別結果は、48種類の識別器それぞれについて、True-Positive, True-Negative, False-Positive, False-Negativeの4つの要素数とも示すこと。

※一般に、訓練用集合の識別結果に比べて、テスト用集合の識別結果は悪化するのが普通であるが、実際にそうなっているか?


【5】SVMによる識別

上記【3】【4】の96通りの実験結果から、注目に値する部分・傾向を2つ以上選んで、考察をせよ
説明に必要であれば、グラフ等を導入してよい。

kameda[at]iit.tsukuba.ac.jp