5.1. УРОВНИ ИЗМЕРЕНИЙ И ШКАЛЫ ВВОДНАЯ ЧАСТЬ
Процесс перевода первичных (сырых) результатов испытуемых, выполнивших какие-либо оценочные средства, в производные показатели называется шкалированием. Основная цель такого перевода состоит в расширении возможностей интерпретации результатов испытуемых благодаря различным форматам представления данных и повышению их сопоставимости. Например, переход от сырых баллов испытуемых, полученных ими при прохождении первичной аккредитации, в проценты позволяет сравнить результаты с пороговым баллом, также представленным в виде процента. В случае, когда результат испытуемого превышает пороговый балл, делается вывод об успешном прохождении аккредитационных экзаменов, означающий, что специалист готов к выполнению профессиональных задач и, скорее всего, будет успешно справляться со своими трудовыми функциями.
В научной литературе по педагогическим измерениям приняты две трактовки процесса шкалирования, отличающиеся полнотой составляющих процедур [Крокер Л., Алгина Дж., 2010; Методические рекомендации по разработке оценочных средств для аккредитации специалистов здравоохранения (выпуск 5, 2018)]. Главные причины, связанные с существованием двух трактовок, носят в основном исторический характер и связаны с эволюцией представлений о качестве результатов образования, с постепенным смещением приоритетов на творческие аспекты подготовки обучающихся и интенсивным развитием практики оценивания профессиональной готовности специалистов в различных сферах.
Окончательные акценты в подходах к трактовке шкалирования расставило появление компетентностного подхода в конце 1980-х годов, заострившего внимание на прагматическом понимании качества результатов обучения и повлекшего за собой неизбежные изменения в оценочных средствах и методах их создания. Подобные изменения привели к тому, что проблема выбора шкалы и ее построения сместилась на этап первоначального замысла измерителя, нацеленный на определение числа и вида переменных, модели измерителя и числа стадий измерения.
Таким образом, примерно с момента массового появления тестов в образовании в 1950-е годы до 1980-х годов под шкалированием понималось лишь преобразование сырых баллов в производные показатели, включающее вычисление последних и их размещение на заранее подготовленной шкале. К концу 1980-х годов было введено расширенное представление о шкалировании, где все этапы разработки и применения оценочного средства рассматривались как действия по построению шкалы, являющейся целью измерений.
Если трактовать шкалирование в узком смысле и связывать процедуру шкалирования только с переходом от сырых к производным показателям, то можно считать, что оно не способствует росту надежности результатов измерения. Встречающиеся в отдельных публикациях неверные трактовки связывают шкалирование с повышением точности оценок испытуемых, хотя само по себе преобразование сырых баллов, как правило, не меняет ни уровня измерений, ни их точности. В тех случаях, когда используется современная теория тестов IRT, а именно однопараметрическая модель Г. Раша, можно повысить уровень измерений путем перевода сырых баллов из порядковой шкалы в интервальную или хотя бы в квазиинтервальную шкалу.
При построении шкалы по тесту возникают определенные проблемы, связанные с ее неустойчивостью, которая наблюдается в тех случаях, когда измеритель используется со значительными временными интервалами либо выполняется испытуемыми различных возрастных групп. Правда, устойчивость шкалы можно повысить с помощью некоторых дополнительных шагов. В качестве таких шагов при конструировании шкалы для оценивания результатов обучения Торндайк предложил следующие (Челышкова М.Б., 2002):