December 23rd, 2011

leto

Prior probabilities

Прогнал скрипт еще раз с другими prior probabilities. Раньше я как-то не обращал внимания на эту опцию, а в Статистике по умолчанию стоит "Proportional to group sizes". В R, в функции lda() из пакета MASS, которой я пользовался, по умолчанию prior probabilities тоже берутся пропорциональными размерам групп. Попробовал теперь взять равные для всех групп. Объединенная таблица под катом.

Collapse )

Отсортировано по возрастанию Wilks lambda, т.е. убыванию качества дискриминации. Красным выделена модель, которая была отобрана раньше, при работе над статьей. Видно, что она, на самом деле, не лучшая. Но я теперь уже не уверен, не считали ли мы % ошибок классификации в объединении всех групп, что должно было дать сильно заниженный результат по сравнению со средним % в группах, т.к. в одной группе было очень мало экземпляров (всего 15).

Вроде получается, что с равными prior probabilities результат лучше. В общем, это кажется логичным: сравнительные размеры выборок - это ведь случайное обстоятельство. Значит, хорошо бы исключить его влияние на результат...

Еще можно заметить, что первые 8 лучших (по Wilks lambda) наборов переменных - одни и те же в обоих вариантах анализа, а дальше начинается разнобой (всего наборов было 6188; отбиралось 10 лучших по Wilks lambda, 10 лучших по miscl. % training и 10 лучших по miscl. % holdout - отсюда пропуски в таблице). И четко видны самые ценные переменные: Dmax, D1.4 и TaIII.