Умные тесты – адаптивные или динамические?

Чем адаптивные тесты отличаются от динамических тестов и какие из них можно назвать «умными тестами»?

После недавнего выступления на конференции, где я рассказывал о беспомощной «цифре» на примере современных психологических тестов, пришло много различных отзывов и вопросов.

И несколько раз был задан вопрос про «адаптивные тесты» — ведь они известны достаточно давно, что в них особого?

К сожалению, то, что я называю адаптивным тестом (а в последнее время – динамическим тестом) и то, что общепринято считается адаптивным тестом, это принципиально разные типы «адаптивности».

Классический вариант адаптивности:

В зависимости от получаемого ответа меняется уровень сложности.

Есть и более продвинутые варианты, но с тем же принципом: предыдущий ответ определяет следующий.

На этой схеме адаптивность используется для построения траектории обучения: или пропустить тему, явно понимаемую пользователем, или искать в ней слабые зоны понимания, или вернуться к предыдущей теме и убедиться, что она полностью понята.

Если для проверки знаний такие адаптивные тесты работают эффективно — отлично. Но наши задачи тестирования совершенно другие, как и наше понимание адаптивных тестов для решения этих задач.

В нашем случае полноценно адаптивный тест учитывает ВСЕ данные ранее ответы пользователя и тем самым формирует дальнейший сценарий теста.

В основе полноценного адаптивного (динамического) теста является «глубокий подход» в обработке и интерпретации данных, когда оценивается не сумма ответов на однотипные вопросы (как правило малоценных самих по себе и используемых для подсчета баллов по какой-либо категории), а каждый ответ на каждый вопрос. А совокупность ответов на несколько взаимосвязанных вопросов может представлять отдельный замеряемый параметр.

В процессе тестирования значения параметров могут меняться: какие-то накапливают или теряют свой вес, какие-то остаются неизменными.

Обработка теста происходит в режиме реального времени

В процессе тестирования анализируются значения («коэффициенты») всех параметров. И в зависимости от конкретной задачи теста, происходит динамическое формирования сценария теста.

Например, так:

Задача теста на этом примере — «углубиться» в значимые темы, коэффициент которых набрал единицу и выше. Одновременно проверяется множество коэффициентов.

На рисунке выше приведен пример линейного решения для 8 параметров теста. Однако, даже у самого простого из наших тестов используется около ста параметров, но меньшее количество веток, поэтому динамический алгоритм, формирующий сценарий теста, значительное сложнее.

На первой ступени теста ряд вопросов будет одинаковым для всех пользователей:

Начало тестирования, определяются значения стартовых параметров

Но дальше схема будет выглядеть уже так:

Условная схема распределения линейного уровня теста

Какие же вопросы будут появляться и в какой последовательности — определяет алгоритм на основе измеряемых параметров (см. первый рисунок «Глубокая обработка тестов»).

Итоговая карта прохождения теста будет условно такая:

Условный пример прохождения теста (на рисунке отображено менее 1% реальной карты теста)

Так как кроме динамического сценария в тестах используется еще система А/Б-тестирования, то алгоритм формирования сценария выглядит еще немножко сложнее: дополнительно определяется, какие именно вопросы из одной «ветки» показывать пользователю:

Для каждого параметра («ветки») существует несколько вариантов вопроса.

Алгоритмом А/Б-тестирования определяется, какой именно вопрос стоит использовать для данного конкретного случая. В настоящее время мы используем алгоритм, оценивающий качество вопроса на основе 3 факторов:

Алгоритм АБ тестирования вопросов на основе трех основных факторов и ряд уточняющих (поправочных) коэффициентов

Мы несколько раз меняли данный алгоритм, формулу распределения веса и формулу выдачи вопросов, чтобы найти оптимальный баланс. Впрочем, это несложно, если иметь достаточную выборку пользователей.

Масштаб выборки: сплит-система эффективна от 500 тысяч пользователей и выше

Примерно аналогичным образом выглядит система А/Б-тестирования, которая подбирает и оценивает оптимальные варианты сценариев теста, а не сами вопросы. Мы использовали два варианта работы:

  • Первый вариант. Когда главной является система А/Б-тестирования сценариев теста. Эта программа меняет формулу запуска сценарных веток в зависимости от значения параметра (коэффициента). И уже внутри нее происходит самостоятельная работа А/Б-тестирования «веток»: разных вопросов для одного и того же параметра.
  • Второй вариант. Это единый алгоритм, который одновременно управляет тестированием формулы запуска сценарных веток и тестированием самих «веток» (вопросов внутри одного параметра).

Возможно, второй вариант эффективнее, но для его тонкой отстройки требуются десятки миллионов прохождений теста.

Чуть более сложно организовано А/Б-тестирование интерпретационной части теста. Но это уже выходит за рамки описания отличий обычного «адаптационного» теста от динамического теста, разрабатываемого нами.

В качестве резюмирующей части повторим, что для проверки уровня знаний или построения линейной траектории обучения, обычные адаптивные тесты вполне уместны. Но для многопараметрической диагностической системы, где используется глубокий анализ данных, динамическая система построения сценария теста работает совершенно иначе: во внимание принимается значение каждого ответа пользователя и значения комбинаций этих ответов.

Примечание.

Общее описание «умного тестирования» есть на этой странице.