パターン認識特論(PRML) report2 (2011/10/18)

PRML, www.kameda-lab.org 2011/11/17c

提出方法・期限


課題2

2011/11/08の授業で若干の解説を行う予定です。

[2-1] SVMソフトウェア

本課題では、SVMのプログラムを自身で書く必要はなく、 市販やフリーのライブラリやソフトウェアを用いてよい。

以下の項目について記述すること。


[2-2-1] データ(Standard)確認

以下の"Standard"な2クラス(A/B)のデータについてSVMを構成し認識能力を検証する。
各要素は2次元の属性を有する。

standard set Training: Set-A/Set-B, for #10, #100, and #1000.
Test: Set-A/Set-B, for #10, #100, and #1000 respectively.
Data in CSV format

#10, #100, #1000について、学習データ・テストデータを2次元上にプロットしたグラフを示せ。 (グラフは合計6つ)


[2-2-2] SVMの構成

などをすべて考慮した上で、テストデータ(#10, #100, #1000)のそれぞれについて 最高の認識率を得られるような 認識器のカーネル形、そのカーネルパラメータ、ソフトマージン値を示せ。 正規化、分割交差確認を行った場合はその手順とパラメータも併せて示せ。 (しらみつぶしに行う場合は複数の要因を変えて30種類以上は行うこと)

また、そのとき誤認識されたテストデータについて、グラフにプロットせよ。 (グラフは合計6つ、ただし認識率が100%の場合は不要) (グラフは[2-2-1]と同じ大きさで出すこと)


[2-2-3] 考察

テストデータによる認識率はそれぞれ100%に到達できたか? 到達できたとしたらそれはなぜか。 到達できてないとすればそれはなぜか。 どちらにせよ考察(理由)を示せ。


[2-3-1] データ(Secret)確認

以下の"Secret"な2クラス(A/B)のデータについてSVMを構成し認識能力を検証する。
各要素は2次元の属性を有する。

secret set Training: Set-A/Set-B, for #10, #100, and #1000.
Test: Set-A/Set-B, for #10, #100, and #1000 respectively.
Data in CSV format

#10, #100, #1000について、学習データ・テストデータを2次元上にプロットしたグラフを示せ。 (グラフは合計6つ、ただし認識率が100%の場合は不要)


[2-3-2] SVMの構成

などをすべて考慮した上で、テストデータ(#10, #100, #1000)のそれぞれについて 最高の認識率を得られるような 認識器のカーネル形、そのカーネルパラメータ、ソフトマージン値を示せ。 正規化、分割交差確認を行った場合はその手順とパラメータも併せて示せ。 (しらみつぶしに行う場合は複数の要因を変えて30種類以上は行うこと)

また、そのとき誤認識されたテストデータについて、グラフにプロットせよ。 (グラフは合計6つ、ただし認識率が100%の場合は不要) (グラフは[2-3-1]と同じ大きさで出すこと)


[2-3-3] 考察

テストデータによる認識率はそれぞれ100%に到達できたか? 到達できたとしたらそれはなぜか。 到達できてないとすればそれはなぜか。 どちらにせよ考察(理由)を示せ。

secretについてはtraining/testとも一定のデータ分布関数に従っている。 その隠されたデータ分布関数を予想せよ。
また、この実験を通じてSVMの認識能力の上限や限界について考察せよ。


kameda[at]iit.tsukuba.ac.jp