PRML report2 (2009/09/29)

PRML, www.kameda-lab.org 2009/10/11

提出方法・期限

Deadline: 2009/10/20, 18:00 by e-mail
- (To): kameda[at]iit.tsukuba.ac.jp
- (Subject): PRML report2
- (Format): PDF

課題2A

以下のデータについてＳＶＭを構成し認識能力を検証せよ。

Dataset

standard set Training: Set-A/Set-B, for #10, #100, and #1000.
Test: Set-A/Set-B, for #10, #100, and #1000 respectively.

Data in CSV format

[2A-1] SVM

線形・非線形（非線形については複数種のカーネルを用意すること）、マージンのありなしの組み合わせについて、それぞれＳＶＭを構成すること。ＳＶＭのプログラムを自身で書く必要はなく、市販やフリーのライブラリやソフトウェアを用いてよい。

以下の項目について記述すること

ライブラリないしソフトウェアの入手先 (URLなど)
当該ライブラリ・ソフトウェアの作者および知的所有権保有者
利用法に関する簡単な説明

[2A-2] SVM学習

以下に挙げる４８種類のＳＶＭを構成し、認識結果を示せ。
認識結果は True-Positive, True-Negative, False-Positive, False-Negative の形で示すこと。

True / False : 学習データ・テストデータにつけられた教師信号
Positive / Negative : ＳＶＭによる認識結果

例えば正負各１００サンプルの場合、以下のようになる。

False True Sum
Negative False-Negative True-Negative FN + TN = N = ? (100ではないかもしれない)
Positive False-Positive True-Positive FP + TP = P = ? (100ではないかもしれない)
Total FN + FP = F = 100 TN + TP = T = 100 200

【考察】
テストデータによる認識率はそれぞれ１００％に到達できたか？到達できたとしたらそれはなぜか。到達できてないとすればそれはなぜか。どちらにせよ理由を示せ。

SVM (４８種類)

線形・ソフトマージンなし（３種）
1. #10
2. #100
3. #1000
線形・ソフトマージンあり、マージンの大きさは５段階用意 (5 x 3 = 15 種)
1. #10
2. #100
3. #1000
非線形・ソフトマージン無、カーネル２種類でカーネルのパラメータは５段階 (2 x 5 x 3 = 30 種)
- カーネル１ (多項式) : パラメーラは５段階用意すること
- カーネル２ (ガウシアン) : パラメーラは５段階用意すること
  1. #10
  2. #100
  3. #1000
非線形・ソフトマージン有（一般的に用いられる形式）の結果を上記同様に示してもよい。ただし調整可能なパラメータが多いので適宜選択すること。

[2A-3] SVM 認識試験

2A-2で得た４８種類のSVMについて、それぞれ認識能力を確認するためテストデータセットで認識試験を行うこと。
認識結果は True-Positive, True-Negative, False-Positive, False-Negative の形で示すこと。

【考察】
テストデータによる結果は学習データでの認識結果より悪くなることが多いと言われるが、実験結果で実際にどうなったか報告せよ。また、その結果について、理由を考察せよ。

課題 2B

以下のデータセットについて、ＳＶＭを構成し認識結果を示せ。

Dataset

challange set 教師データセット: Set-A/Set-B, for #10, #100, and #1000.
試験データセット: Set-A/Set-B, for #10, #100, and #1000.

Data in CSV format (10/10までリンクが間違ってました)

[2B-1] SVM学習

認識率を最大化するように最適なＳＶＭを構成せよ(線形非線形の選択やソフトマージンの利用の有無も含む)。この課題では、最適なＳＶＭ１つを構成するだけでよいが、その構成法が妥当だと信じる理由を示すこと。

構成したＳＶＭを用いて、学習データの認識結果を示せ。認識結果は#10,#100,#1000のそれぞれについて True-Positive, True-Negative, False-Positive, False-Negative の表の形で示すこと。

[2B-2] SVM 認識試験

2B-1で構成したＳＶＭの認識能力をテストデータで確認せよ。認識結果は#10,#100,#1000のそれぞれについて True-Positive, True-Negative, False-Positive, False-Negative の表の形で示すこと。

【考察】データ分布の背後に隠されたデータ分布を推測し、その分布が従う関数を予想せよ。
この実験を通じてＳＶＭの認識能力の上限や限界について考察せよ。

kameda[at]iit.tsukuba.ac.jp

	False	True	Sum
Negative	False-Negative	True-Negative	FN + TN = N = ? (100ではないかもしれない)
Positive	False-Positive	True-Positive	FP + TP = P = ? (100ではないかもしれない)
Total	FN + FP = F = 100	TN + TP = T = 100	200