Применение тестов способностей. Как сформировать эффективную систему тестирования

Понимание того, как устроены тесты когнитивных способностей, дает HR множество подсказок для грамотного решения задачи отбора и найма подходящих специалистов. Однако для того, чтобы сформировать действительно удобную и эффективную систему тестирования, необходимо более тщательно изучить особенности применения этих инструментов оценки.

Внимание: правильный ответ

В идеальной ситуации у HR, которые приступают к построению системы тестирования, есть корпоративная модель компетенций и описание рабочих задач, которые сотрудник должен выполнять в рамках той или иной должности. Отталкиваясь от этих задач и сформулированных компетенций, можно распознать критически важные способности, которые лежат в основе компетенций и необходимы для эффективной работы. Затем для отбора кандидатов нужно подобрать наиболее подходящие тесты, учитывая необходимый уровень сложности инструментов и их содержательной валидности.

Это корректный подход к применению тестов, именно такая последовательность шагов необходима. Но выявление обязательных этапов построения системы еще не проясняет суть задачи, которую должен решить HR. Каждый шаг требует не только подробных разъяснений, но и описания возможных препятствий и сложностей.

Что оценить? Чем оценить?

Первый непростой момент связан с тем, что именно необходимо измерить в рамках отбора и какие инструменты лучше всего помогут это сделать. Возникает вопрос: что находится в фокусе оценки? Это по-настоящему критичные параметры или все те, которые каким-либо образом способствуют эффективности? По мнению экспертов, прежде всего необходимо оценить именно критически важные параметры. «Самое работающее определение таких параметров – негативное: если этих качеств у кандидата не будет или если они не развиты, то результаты в работе будут очень низкими», – говорит Максим Пескин, менеджер по разработке новых продуктов SHL Россия.

Как известно, искать идеальных кандидатов с помощью тестов не имеет смысла. Любой тест за счет своей однородности, когда все задания опираются и раскрывают один и тот же конструкт, работает только как фильтр. С его помощью можно увидеть, насколько участник близок заданным ожиданиям. Но откуда берутся эти ожидания, на чем они основаны? Источник всегда один: требования к рабочим результатам, описание «адекватно выполненной работы». То, что выше названо критически важными параметрами, по существу должно отражать те качества человека, которые достаточны для эффективного выполнения работы. Другими словами, важно, чтобы кандидат был в состоянии справиться с задачами, которые перед ним стоят, и оценивать нужно именно те характеристики, без которых это было бы невозможно.

Концептуальное соответствие

Важно обратить внимание и на содержательную валидность теста, то есть на его концептуальную, смысловую близость рабочему процессу. «При формировании системы тестирования важно думать не столько про тип данных, с которым тест предлагает поработать участнику, сколько про сами рабочие задачи. Причем, опять же, не на уровне того, отображает ли тест эти задачи напрямую, а в рамках идеи о том, что тест должен концептуально, то есть на уровне логических шагов решения задачи, соответствовать рабочей деятельности», – обращает внимание Максим Пескин.

Таким образом, тест будет содержательно валидным в том случае, если он:

в целом близок к рабочим задачам (даже если, на первый взгляд, предлагает участнику поработать с непривычными данными),
концептуально соответствует рабочим задачам (при этом задания теста совершенно не обязаны повторять эти задачи),
учитывает именно процесс решения этих рабочих задач, то есть задания отражают необходимую последовательность логических шагов (а не содержание или конечные цели рабочей деятельности),
содержит задания такой сложности, что для их решения требуются усилия, аналогичные тем, которые нужны для эффективного выполнения работы на целевой должности.

Унификация или разнообразие?

Еще одна трудность заключается в том, насколько разнообразной и, как следствие, внутренне сложной должна быть система тестирования. Что важнее – унифицировать процесс и получить простой в использовании инструмент или предпочесть широкий диапазон тестов, каждый из которых идеально соответствует конкретной рабочей должности? Как будут отличаться тесты способностей для разных уровней должности? Насколько глубоко нужно учитывать рабочие задачи при выборе из нескольких конструктно близких инструментов? «Первостепенное значение имеет не то, как тест выглядит: дизайн заданий и даже операциональный конструкт теста важны в третью очередь. Важно помнить, что именно инструмент призван оценить и насколько это близко тому, что необходимо HR в рамках отбора», – объясняет Максим Пескин.

Кастомизация инструментов тестирования под каждую должность и под конкретную задачу – это попытка слишком точно отобразить рабочую реальность. В результате вместо простого, управляемого и масштабируемого инструмента создается своего рода симуляция некоторой части рабочей деятельности, что может привести к снижению прогностической силы инструмента. «Задачи меняются, поэтому, помимо прочего, нужна и универсальность», – уточняет Максим Пескин.

Вместе с тем, оптимальных решений в этом вопросе явно больше одного. Выбрать другую крайность и создать универсальный тест способности «на все случаи жизни» также не будет однозначно верным решением. Важно помнить, что у хорошего теста должен быть один четко определенный конструкт. При этом, с одной стороны, «невнятность» конструкта (его расплывчатость) не позволяет использовать тест, ведь в этом случае невозможно однозначно сказать, что именно измеряется. С другой стороны, излишне узкий, слишком жестко заданный конструкт может не подойти под все рабочие задачи.

По мнению Максима Пескина, хороший баланс создается где-то между этими крайностями, и для каждой отдельно взятой ситуации может быть найдено свое специфическое решение. Пытаясь выбрать «наименьшее из зол» при поиске оптимально подходящего теста, важно помнить про цель его применения. «Выбор инструмента не может быть первичен относительно цели его использования, и это то соображение, которое постоянно нужно держать в голове», – обращает внимание Максим.

Просто или сложно?

Другой регулярно возникающий вопрос касается уровня сложности теста. Какая ошибка влечет меньше рисков – предложение слишком простого или чересчур сложного инструмента? Результаты слишком простого теста покажут, что подавляющее большинство людей справились почти со всеми заданиями, что делает практически невозможной дифференциацию участников. Если же тест слишком сложный, то может возникнуть еще более опасная ситуация, когда количество правильных ответов у участников, которые просто угадывали их, будет таким же (или даже более высоким!), чем у респондентов, которые старались честно решать задания. «Нужен такой уровень сложности, когда, условно говоря, график с результатами позволяет увидеть один пик, связанный с честным решением, и другой (весьма далекий) – с угадыванием ответов», – объясняет Максим Пескин. Иными словами, оптимальный уровень сложности теста – такой, при котором участнику будет выгоднее честно решать задания, чем угадывать правильные ответы.

В конечном счете проблему слишком сложного теста нельзя решить «на ходу»: единственное решение – заменить инструмент на другой. Для сравнения, слишком простой тест оставляет несколько большее пространство для модификаций, в том числе без замены инструмента: можно «усложнить» тест, не создавая для участников явных стимулов к изменению тактики заполнения. «В целом нельзя сказать, что слишком простой тест лучше сложного. Просто в одном случае необходимые изменения будут тривиальнее и удобнее для организатора», – уточняет Максим Пескин.

Стоит оговориться, что современные методологии тестирования, входящие в семейство Item Response Theory (IRT), помогают рассматривать сложность теста уже не как условно-обобщенную характеристику, а как конкретные показатели отдельных заданий. С одной стороны, это позволяет учитывать сложность (и ряд других параметров заданий) при расчете результатов тестирования: принимать во внимание не только правильные, но и неправильные ответы, а также то, на какие именно задания были даны верные ответы, а на какие – нет. С другой стороны, применение IRT не устраняет более широкую проблему, когда слишком простые задания все еще не позволяют дифференцировать участников, а слишком сложные становятся стимулом не просто решать задания, а применять какие-либо другие тактики прохождения теста.

Оценка несколькими тестами

Построение системы тестирования требует снова и снова находить оптимальное соотношение преимуществ и рисков, на каждом этапе выбирая «наименьшее из зол». Яркий пример – расчет итоговой оценки при применении несколько тестов. В этой ситуации организатору необходимо, по сути, сделать выбор из двух вариантов организации процесса тестирования. Можно склониться или к жесткой воронке отсева, когда участнику нужно успешно пройти каждый следующий тест, или же подсчитывать результаты после прохождения участником отбора всех необходимых тестов. Возникает вопрос, что должно влиять на выбор подхода, и эксперты сходятся во мнении, что абсолютно правильных ответов на этот вопрос не существует.

Прежде всего, на принятие решения о процессе тестирования не должна влиять валидность инструментов: если результаты прохождения тестов связаны с реальностью и позволяют сделать точный прогноз, то такие инструменты можно использовать в любом формате.

Подтолкнуть к выбору варианта жесткой воронки могут внешние требования к жесткости отбора: например, огромное количество кандидатов и необходимость сократить их поток, пусть даже механически. Жесткая воронка будет более выгодным решением и в тех случаях, когда ошибочный найм несет для организации высокие риски и/или затраты.

Уровень неопределенности будущего – также важный критерий в этом вопросе. Строго говоря, жесткая воронка отбора предполагает, что работодателю точно известно, какие способности и на каком уровне будут востребованы. Если же в рабочей деятельности возможны самые неожиданные повороты и вызовы, и акцент делается на то, чтобы человек был в состоянии справиться с любым возможным сценарием будущего, то это может стать причиной для выбора подхода «сумма баллов по всем инструментам оценки», без жесткого отсева на отдельных этапах.

Наконец, если смотреть на процесс тестирования через призму важности оцениваемых способностей, то, безусловно, некоторые параметры будут критически важными, а другие – лишь достаточно полезными (или даже просто желательными). «Ключевые параметры стоит оценивать в более жесткой логике, а те, которые дополнительно способствуют эффективности, можно измерять и через «общую сумму», – говорит Максим Пескин.

Цель оправдывает

Поскольку HR приходится делать выбор в пользу той или иной модели тестирования, определенных рисков и ошибок избежать невозможно. Едва ли можно ответить на вопрос о том, что будет лучше: создать систему, которая будет максимально точно находить идеальных кандидатов (и вынужденно отказывать огромному количеству неплохих специалистов), или отобрать как можно больше в целом подходящих участников, помня о том, что большое количество кандидатов (а, может быть, даже сотрудников) придется отсеять на следующих этапах. «Необходимо найти баланс, поэтому в первую очередь важно определить цель оценки: что мы хотим сделать? Кого и на какие роли мы ищем?», – обращает внимание Максим Пескин.

Тем не менее, понимания первичности целей тестирования еще недостаточно для того, чтобы на 100% защитить HR от распространенных логических и концептуальных просчетов. Какие еще существенные ошибки могут встречаться при применении тестов и проектировании систем тестирования?

Односторонняя оценка. Важно помнить, что тест оценивает только одну способность и является достаточным инструментом для прогнозирования успеха только в рамках отсева кандидатов (то есть показывает, кто из участников, вероятно, не справится с рабочими задачами). Для того чтобы принять окончательное решение в пользу кандидата, важно учитывать множество факторов, не ограничиваясь тестированием интеллектуальных способностей.
Схожие конструкты. В случае сомнений относительно полученных результатов не стоит давать кандидатам похожие тесты для перепроверки. У повторного тестирования человека инструментами со схожим конструктом может быть только один эффект: участник привыкает к заданиям, что снижает точность результата – а значит, и достоверность прогноза эффективности кандидата в рабочей деятельности.
Необоснованно сложная система тестирования (излишнее разнообразие используемых тестов). Если в рамках определенной должности возрастает объем, масштаб деятельности, а также уровень ответственности, это еще не говорит о необходимости оценивать способность на ином уровне. Для принятия решения о выборе других инструментов оценки (то есть об усложнении системы тестирования) необходимо глубоко изучить реальные рабочие процессы и разобраться, что на самом деле происходит (и что изменилось) в рамках той или иной позиции.
«Оверфиттинг». Должны ли успешные сотрудники проходить тест идеально? На самом деле, это совсем не обязательно. Люди достигают успеха разными способами, и интеллектуальные способности – не единственная характеристика, которая этому способствует. Таким образом, ситуация, когда действующие сотрудники, проходя тест, получают разные результаты (в том числе низкие), является абсолютно допустимой и нормальной. И наоборот: если сотрудники получают наивысшие оценки, это вполне может означать, что только они и смогут справиться с заданиями инструмента наилучшим образом: тест оценивает те умения, навыки и опыт, которые сегодня есть только у этих участников – и которых по определению не может быть у внешних кандидатов.

В чем фокус?

Итак, что же необходимо для построения эффективной системы тестирования? Прежде всего, хорошим подспорьем будет поиск ответов на вопросы:

Что и зачем мы оцениваем?
Как и чем мы это оцениваем?

Формируя систему тестирования, стоит помнить о том, что в основе всех тестов лежит конструкт –внутренняя четко определенная идея, отражающая критически важную способность, которую инструмент призван оценить. Вопрос «Зачем?» помогает проверить связь оцениваемой способности и успеха, убедиться, что необходимые параметры можно измерить тестами – и увидеть, для каких целей такие инструменты, напротив, не подойдут.

Задаваясь вопросом «Чем и как оценивать?», стоит сфокусировать внимание на том, каким образом и за счет чего работает тест. Важно не столько отобразить в тесте рабочие задачи, их содержание и значение, сколько выйти на уровень процесса решения (то есть логических операций). При этом задания должны не только предполагать определенную последовательность шагов, но и обеспечивать концептуальное соответствие главной цели: оценивать эффективность человека в рабочей деятельности. «Возвращаясь к классическим определениям тестов из учебников: нам нужна выборка поведения, на основании которой мы сможем судить о степени выраженности способности. Эта выборка, безусловно, создается специальным образом», – уточняет Максим Пескин.

При создании системы тестирования важно помнить о поиске баланса, стараться уравновесить преимущества и риски этого процесса. «Звучит парадоксально, но, если тесты станут слишком похожими на реальную рабочую жизнь, на основе таких заданий мы сможем прогнозировать только что-то частное и локальное», – объясняет Максим Пескин. Можно стандартизировать систему, сделав ее легкой в использовании, но тогда она может стать слишком жесткой или недостаточно глубокой. Или, напротив, если двигаться в сторону большей гибкости и настраиваемости тестов, то в этом случае побочным эффектом будет не только сложность применения инструментов оценки, но и риск снижения точности прогнозов. Стремясь к равновесию сильных сторон и ограничений системы, необходимо постоянно держать в голове первичность цели и смысла оценки.

Запись вебинара об особенностях работы и создании тестов способностей >>

Статья об особенностях устройства тестов способностей >>