четверг, 8 декабря 2011 г.

Психологические тесты на обобщения

В психологии давно присутствуют тесты на обобщения. В которых дается некоторое число примеров, а испытуемый должен сделать «правильное» обобщение. Правильное — так, как задумывал автор. Но обобщения могут быть разными, откуда возникают различные казусы. Но в общем случае оно тестирует именно эту способность — четкому и эффективному обобщению.

К таким тестам относятся многие категории. Это классификация (найти лишнее, разбить на 2 группы), поиск закономерности (продолжите ряд 1,2,4,9,…), подведение двух понятий под общую категорию (объедините одним общим понятием дождь-снег-град) и др..

Попробуем рассмотреть данное явление в контексте распознавания, обучения и понятий ML: что же именно проверяют данные тесты, почему они могут не работать и как их можно оценивать и улучшать?

Предмет тестирования

Рассмотрим тест Амтхауэра. Есть 5 понятий, найти лишнее:

  1. занавес
  2. щит
  3. невод
  4. фильтр
  5. стена

В представлении автора теста данные понятия расположены приблизительно так:

Предполагается, что испытуемый должен найти такое обобщение, которое бы работало эффективно. То есть, не какое-нибудь обобщение вообще, а такое, которое в жизненной ситуации пригодилось больше всего. А если оно находится первым, и считается лучшим, то это и есть оптимальный вариант.

На рисунке показано 4 прямых, являющихся простыми функциями обобщения. Понятно, что таких функций множество, и среди них также можно выделить множество функций, которые производят классификацию таким образом, что одно понятие из пяти предложенных образует отдельную группу.

Какое же решение более оптимальное?

С точки зрения ML наиболее приемлемым решением будет являться прямая 3. Это легко определяется математически: должно быть значительное расстояние от прямой до точек, которые она разделяет. Например среднее квадратичное величин, обратных расстоянию от точек до прямой. Или минимальное расстояние до любой из точек. Тут могут быть варианты решения. Но главная особенность в том, что расстояние должно быть по возможности больше. Чтобы в последующем функция имела большие шансы на выживание. То есть, когда появятся новые примеры, чтобы они удовлетворяли проведенной классификации и функцию не пришлось бы менять.

Таким образом, данный тест проверяет прежде всего нашу способность проводить эффективную классификацию. То есть, быстро и качественно разделять понятия по классам. При этом находить не какую-нибудь классификацию, а наиболее приемлемую.

Насколько это относится к интеллекту это уже другой вопрос. В одних случаях классификация может быть не одна, а несколько, в других нужно постоянно менять обобщающую функцию при появлении новых примеров (быстро обучаться), … То есть, явно, что это одно из основных свойств интеллекта (способность делать эффективные обобщения), но вряд ли одного этого свойства достаточно для всего.

Область применения

Почему такой тест может сработать неадекватно?

Первый случай — когда ответ совсем не очевиден. Например для таких понятий:

 

Да, для них можно найти какую-то обобщающую функцию, но вряд ли она будет эффективна или полезна.

Следующий случай неадекватности теста — разность понятий у автора и испытуемого. Если точки находятся в разных местах, но при этом испытуемый эффективно делает обобщения, то ответы могут быть разными. При чем разность понятий определяется многими факторами — и разность языков (одно и то же слово в разных языках может иметь существенную разницу в понятии, которое оно определяет), и разность понимания окружающей действительности (разность набора понятий в силу субъективности), и разность в решаемых задачах и подходах.

Ещё один случай: не факт, что сам автор теста придумал эффективное обобщение. Возможно имеется более хорошо работающее решение. Или сравнимое по работоспособности, но не попадающее в ответ.

Оценка и улучшение теста

Один вариант теста может быть лучше другого. И если выяснить, по каким критериям можно сравнивать, то можно подобрать более подходящие тесты.

Например чтобы уйти от культурного окружения нужно брать такие понятия, которые достаточно хорошо переводимы 1 к 1, и при этом не теряются другие свойства теста. Тогда такой тест можно проводить на разных языках.

Чтобы тест работал для большинства людей нужно использовать общеизвестные понятия, а не специализированные, или те, которые «очевидноизвестные» и «сдестваузнаваемые» автором. При этом общеизвестные понятия не должны плыть — иметь разный смысл для разных людей.

Для того, чтобы тест был более адекватен, нужно такое разделение, при котором расстояние между классами больше (чтобы можно было более точно провести классификацию). Но при этом не слишком много. Потому что решений много, но при этом не нужно, чтобы испытуемый имел меньше шансов для проведения классификации по прямой 4 (см. первый рисунок), так как она дает правильный ответ, но при этом менее оптимальна.