Синоним надежности в психометрических исследованиях

Если вы изучали психологию или другие родственные профессии, концепция надежности наверняка вам знакома. Но… Из чего именно он состоит? Надежность в психометрии — это качество или свойство измерительных инструментов. (например, тесты), что позволяет проверить точность, согласованность и стабильность результатов измерений.

В этой статье мы расскажем, из чего состоит это свойство, приведем несколько примеров для пояснения. концепцию, и мы объясняем различные способы расчета коэффициента надежности в психометрии.

  • Статья по теме: «Психометрия: что это такое и за что отвечает?«

Что такое надежность в психометрии?

Надежность — это понятие, охватываемое психометрикой, дисциплиной, отвечающей за измерение психологических переменных человека с помощью различных техник, методов и инструментов. Таким образом, надежность в психометрии, должна быть избыточность, состоит из психометрического свойства, которое подразумевает отсутствие погрешностей измерения определенного инструмента (например, тест).

Он также известен как степень согласованности и стабильности оценок, полученных в разных измерениях с помощью одного и того же инструмента или теста.

Другой синоним надежности в психометрии — «точность».. Таким образом, мы говорим, что тест надежен, если он точен, не содержит ошибок, а его измерения стабильны и последовательны на протяжении повторных измерений.

Помимо надежности в психологии, в каких областях появляется и используется это понятие? В разных областях, таких как социальные исследования и образование.

Примеры

Чтобы лучше проиллюстрировать, из чего состоит эта психометрическая концепция, рассмотрим следующий пример: мы используем термометр для измерения дневной температуры в классе. Мы проводим измерения в десять часов утра каждого дня в течение недели.

Мы будем говорить, что термометр надежен (у него высокая надежность), если, измеряя более или менее одинаковую температуру каждый день, термометр указывает на это (то есть измерения близки друг к другу, нет больших скачков или больших различия).

Вместо, если измерения полностью отличаются друг от друга (температура примерно одинакова каждый день), это будет означать, что указанный прибор не обладает хорошей надежностью (поскольку его измерения нестабильны или непротиворечивы во времени).

Другой пример для понимания концепции надежности в психометрии: представим, что мы ежедневно в течение нескольких дней взвешиваем корзину с тремя яблоками и записываем результаты. Если эти результаты сильно различаются по результатам последовательных измерений (то есть, когда мы их повторяем), это будет указывать на то, что что надежность шкалы плохая, поскольку измерения будут непоследовательными и нестабильными (антагонисты надежности).

Таким образом, надежный инструмент — это тот, который показывает последовательные и стабильные результаты в повторяющихся процессах измерения определенной переменной.

Вариативность мер

Как мы узнаем, надежен ли инструмент? Например, исходя из вариативности ваших измерений. То есть, если оценки, которые мы получаем (многократно измеряя одно и то же) с помощью указанного прибора, сильно различаются между да, мы будем считать, что его значения неточны, и, следовательно, инструмент не имеет хорошей надежности (это не надежный).

Экстраполируя это на психологические тесты и ответы испытуемого на один из них, мы видим, как тот факт, что он неоднократно отвечал на один и тот же тест в одних и тех же условиях, предоставит нам показатель надежности теста, основанный на вариативности оценок.

  • Вам может быть интересно: «Виды психологических тестов: их функции и характеристики«

Расчет: коэффициент надежности

Как рассчитать надежность в психометрии? Из коэффициента надежности, который можно рассчитать двумя разными способами: из процедур, включающих два приложения или только одно. Мы увидим различные способы его вычисления в этих двух больших блоках:

1. Два приложения

В первой группе мы находим различные способы (или процедуры), которые позволяют рассчитать коэффициент надежности из двух приложений теста. Давайте узнаем их, а также их недостатки:

1.1. Параллельные или эквивалентные формы

С помощью этого метода мы получаем меру надежности, в данном случае также называемую «эквивалентностью». Метод состоит из одновременного применения двух тестов: X (исходный тест) и X ‘(эквивалентный тест, который мы создали). Недостатков этой процедуры в основном два: утомляемость испытуемого и построение двух тестов.

1.2. Тест-ретест

Второй метод в рамках процедур расчета коэффициента надежности для двух приложений — это тест-ретест, который позволяет нам получить стабильность теста. Он в основном состоит из применить X-тест, подождать некоторое время и повторно применить тот же X-тест к тому же образцу.

Недостатками этой процедуры являются: изучение того, что исследуемый субъект мог усвоить за этот промежуток времени, эволюция человека, которая может изменить результаты, и т. Д.

1.3. Тест-ретест с альтернативными формами

Наконец, еще один способ рассчитать надежность в психометрии — начать с повторного тестирования с альтернативными формами. Это комбинация двух предыдущих процедур.Поэтому, хотя его можно использовать в определенных случаях, в нем накапливаются недостатки обоих.

Процедура состоит из проведения X-теста, прохождения определенного периода времени и проведения X-теста (то есть эквивалентного теста, созданного из оригинала, X).

2. Одно приложение

С другой стороны, процедуры расчета надежности в психометрии (коэффициента надежности) из При однократном применении тестового или измерительного прибора они делятся на две подгруппы: две половины и ковариация между Предметы. Давайте посмотрим на это более подробно, чтобы лучше понять:

2.1. Две половины

В таком случае, тест просто разделен на два. В этом разделе мы находим три типа процедур (способов разделения теста):

  • Параллельные формы: применяется формула Спирмена-Брауна.
  • Эквивалентные формы: применяется формула Рулона или Гуттмана-Фланагана.
  • Врожденные формы: Применяется формула Раджу.

2.2. Ковариация между предметами

Ковариация между предметами включает в себя анализ взаимосвязи между всеми тестовыми заданиями. В нем мы также находим три метода или формулы, типичные для психометрии:

Коэффициент альфа Кроанбаха: его значение колеблется от 0 до 1. Кудер-Ричардсон (KR20): применяется, когда элементы являются дихотомическими (то есть, когда они принимают только два значения). Гуттман.

3. Другие методы

Помимо процедур, которые включают одно или два применения теста для расчета коэффициента надежности, Мы нашли другие методы, такие как: межэкспертная надежность (которая измеряет согласованность теста), метод Хойта, и т.п.

Библиографические ссылки:

  • Каплан, Р.М., & Саккуццо, Д.П. (2010). Психологическое тестирование: принципы, применение и проблемы. (8-е издание). Белмонт, Калифорния: Уодсворт, Cengage Learning.
  • Мартинес, М.А., Эрнандес, М.Дж. и Эрнандес, М.В. (2014). Психометрия. Мадрид: Альянс.
  • Мартинес Ариас, Р. (2006). Психометрия. Мадрид: Анайя.
  • Моралес Вальехо, Педро (2007). Статистика применима к общественным наукам. Надежность тестов и весов. Мадрид: Папский университет Комильяс. п. 8.
  • Прието, Херардо; Дельгадо, Ана Р. (2010). Надежность и достоверность. Роли психолога (Испания: Генеральный совет официальных ассоциаций психологов) 31 (1): 67-74.
  1. Психометрические критерии научности психодиагностических методик: валидность, надежность, дискриминативность, репрезентативность.

Психодиагностическая
методика

(лат. diagnostikos
– способность распознавать) – это
конкретный способ распознавания и
измерения индивидуально-психологических
особенностей человека.

Психометрия
– это отрасль психодиагностики, связанная
с теорией и практикой измерений в
психологии. Психометрия выступает как
одна из методологических дисциплин,
обосновывающая требования, предъявляемые
к измерительным психодиагностическим
методам, процедурам их разработки и
применения статистического анализа,
адаптации методик к новым условиям и
интерпретации тестовых данных. Тесты10
невозможны как научный инструмент без
психометрического обоснования.

Чтобы
с помощью психодиагностической методики
можно было получить достоверную
информацию, она должна отвечать
психометрическим требованиям. В
психометрии выделяют следующие критерии
научности психодиагностических методик.

Валидность11
(англ. valid
– действительный, пригодный) – комплексная
характеристика методики, включающая в
себя:

  1. данные
    о степени согласованности результатов
    теста с другими сведениями об исследуемой
    личности, полученными из различных
    источников – критериями валидизации
    (критериальная валидность);

  2. суждение
    об обоснованности прогноза развития
    исследуемого качества (прогностическая
    валидность как составная часть
    критериальной и инкрементная как вид
    прогностической);

  3. способность
    теста дифференцировать испытуемых по
    изучаемому признаку (диагностическая
    валидность как составная часть
    критериальной);

  4. информацию
    о контингенте испытуемых (возраст, пол,
    образование, профессия и т.д.), для
    которых методика валидна и конкретные
    условия использования теста (требования
    стандартизации, а также валидность по
    возрастной дифференциации);

  5. отражение
    в содержании теста существенных
    признаков измеряемого феномена
    (содержательная валидность);

  6. адекватное
    отношение испытуемых к методике,
    мотивационный потенциал теста (очевидная
    валидность);

  7. статистическая
    связь результатов методики с изучаемыми
    психологическими конструктами
    (конструктная валидность);

  8. степень
    однородности и самостоятельности
    (внутренняя согласованность12)
    заданий и субтестов (конструктная
    валидность).

Надежность13
– характеристика методики, отражающая
точность измерения и устойчивость
результатов к действию посторонних
случайных факторов.

Ни
одна методика не является идеальной с
точки зрения надежности. Существует
несколько процедур установления
надежности, в зависимости от которых
выделяют надежность параллельных форм,
ретестовую надежность и надежность
частей теста.

Показатели
надежности обратно пропорциональны
ошибкам измерения. Ошибки измерения
появляются при действии посторонних
факторов на изучаемое явления. Это могут
быть характеристики самого испытуемого,
условия проведения, поведение
экспериментатора, а также ряд других
факторов, которые сложно учесть. Поэтому
важнейшим средством повышения надежности
методики является стандартизация
процедуры исследования.

Стандартизация
– 1) регламентация (требование единообразия)
процедуры проведения методики для того,
чтобы уменьшить влияние посторонних
факторов и таким образом повысить
надежность; стандартизируются: инструкция,
бланки обследования, способы регистрации
результатов, условия проведения,
обстановка и условия работы испытуемого,
временные ограничения, способы и
особенности контакта с испытуемым,
порядок предъявления элементов методики,
характеристика контингента испытуемых
и т.д.;

2)
регламентация обработки данных путем
преобразования полученных результатов
со статистическими нормами и определение
места испытуемого в выборке (выше
среднего, ниже среднего и т.д.) для того,
чтобы результаты разных испытуемых
могли быть сопоставимы. Во втором
значении под стандартизацией понимается
создание нормативной базы методики с
приближенным к нормальному распределением.

Нормальное
распределение
.
Предполагается, что любое психологическое
явление, которое можно измерить
распределяется в выборке нормально (по
закону Гаусса).
То есть крайние показатели (самые низкие
и самые высокие) показывает незначительное
количество человек, а средние показатели
– показывает большинство. Это легко
понять, рассмотрев IQ
(коэффициент
интеллекта
).
Он равен реальное количество баллов,
набранное испытуемым, разделить на
среднее количество баллов, набранное
испытуемыми того же возраста в пилотажном
исследовании
,
и умножить на 100. Если испытуемый набрал
столько же баллов, сколько и в среднем
люди его возраста, то его IQ=100.
Если он набрал больше баллов, то больше
100 баллов (так как 100 придется умножать
на число больше единицы), а меньше –
меньше 100 баллов (100 умножаем на число
меньше единицы). Соответственно, чем
дальше мы уходим от 100 в обе стороны –
тем меньше человек покажут такие
результаты. Как интеллектуально одаренных
с IQ
от 150, так и умственно отсталых с IQ
до 70 испытуемых во много раз меньше, чем
тех, кто набрал от 110 до 90 баллов.

Пилотажное
исследование

– это исследование, которое проводится
по ходу создания психометрической
методики. При проведении пилотажного
исследования решаются следующие задачи:

  1. Устанавливается
    адекватный набор тестовых задач
    (внутренняя согласованность,
    дискриминативность задач).

  2. Стандаритизируется
    процедура исследования, обработки и
    интерпретации данных.

  3. Проверяется
    валидность и надежность, вычисляются
    их коэффициенты.

Объем
выборки

зависит от целей и задач методики, однако
в большинстве случаев достаточно выборки
50-100 человек (Л.Ф.Бурлачук).

Выборка
– это «часть индивидов, отобранная из
всей совокупности индивидов (генеральной),
объединенных каким-то общим признаком,
интересующим исследователя, с целью
изучения свойств генеральной совокупности».
[Словарь практического психолога] То
есть по результатам исследования выборки
делается вывод о всей генеральной
совокупности. Поэтому выборка должны
обладать теми же свойствами, что и
генеральная совокупность, то есть быть
репрезентативной (представительной).
Кроме того, предполагается, что в
генеральной совокупности распределение
всегда нормальное. Чем больше выборка
(чем ближе ее объем к объему генеральной
совокупности), тем она репрезентативнее.

Пилотажное
исследование предшествует основному,
в котором объем выборки может доходить
до нескольких тысяч испытуемых (тест
Векслера) для создания точной нормативной
статистической базы (стандартизация
во втором значении), учитывающей различные
характеристики испытуемых: возраст,
пол, образование и т.д..

Репрезентативность
– это свойство выборочной совокупности
представлять характеристики генеральной
совокупности.

Любая
выборка должна быть репрезентативной,
то есть распределение показателей
изучаемого свойства должно быть у этой
выборки таким же, как и в генеральной
совокупности. Это означает, что если в
выборке показатель в 20 баллов набрали
30% испытуемых, а в 10 баллов – 10%, то и в
генеральной совокупности 20 баллов
наберут 30%, а 10 баллов –10%. Однако в
реальности репрезентативность всегда
определяется с определенной статистической
погрешностью.

С
течением времени диагностические
методики требуют рестандартизации,
то есть проведение повторного исследования
для создания новой статистической
нормативной базы с новыми средними
показателями. Это обусловлено эффектом
Флинна
,
который заключается в том, что изменение
культурных и в том числе образовательных
условий от поколения к поколению приводит
к тому, что распределение показателей
методики уже не подчиняется закону
нормального распределения (в случае
теста интеллекта Векслера в 70-80-х гг.
стало ненормально много интеллектуально
одаренных).

Психометрические
требования к заданиям методики

Внутренняя
согласованность

– это характеристика методики, которая
указывает на степень однородности
состава заданий с точки зрения измеряемого
качества. Критерий внутренней
согласованности указывает, в какой мере
задания направлены на измерение данного
психологического явления, а также меру
вклада каждого пункта в количественную
оценку (какой-то пункт дает 1 балл, а
какой-то 3). При изучении внутренней
согласованности теста используется
математический метод анализа корреляций14
между общим результатом и отдельными
заданиями. Каждый пункт при этом получает
весовой коэффициент, который и становится
в дальнейшем ключом к методике. Кроме
заданий на внутреннюю согласованность
проверяются и субтесты.

Анализ
внутренней согласованности не только
повышает однородность заданий теста,
но и углубляет наши теоретические
представления о изучаемом явлении
(конструкте) как системе: ее существенных
составляющих и их взаимосвязи между
собой.

Дискриминативность
заданий – это способность отдельных
пунктов теста дифференцировать испытуемых
относительно минимального и максимального
результата. Математически вычисляется
(есть специальная формула!), какие пункты
высоко коррелируют с результатами
теста, а другие – никак. Индекс
дискриминации может принимать значение
от –1 до +1. Допустим, мы измеряем
тревожность. Выясняется, что большинство
самых тревожных испытуемых дали на этот
пункт одинаковый ответ. Значит, данное
задание обладает высоким уровнем
дискриминативности. Или, наоборот, на
другой пункт дали одинаковый ответ
большинство наименее тревожных, он тоже
будет с высоким индексом дискриминации
(стремиться к 1). Если индекс дискриминации
отрицательный, то это означает, что
задача никак не коррелирует с результатами
теста, а значит, непригодна. Если индекс
дискриминации около 0, то необходим
пересмотр формулировки задания.

Чем
отличается внутренняя согласованность
от дискриминативности?

Если
критерий внутренней согласованности
ориентирован на оценку теста в целом,
то индексы дискриминативности вычисляются
для отдельных пунктов. Таким образом,
чем выше дискриминативность каждого
задания и чем меньше они коррелируют
между собой – тем выше внутренняя
согласованность.

Дискриминативность
относится к внутренней согласованности
так же, как стабильность (неизменчивость)
ответов к ретестовой надежности.

Максимальная
валидность теста достигается, когда
тест состоит из пунктов, которые, обладая
значительной корреляцией с результатами
теста (дискриминативностью), минимально
коррелируют между собой (то есть в
каком-то смысле такие задания самостоятельны
(см. выше о валидности пункт 7), не дублируют
друг друга, и тест не перегружен).

Психометрический
парадокс
:
вопросы личностных
опросников
,
имеющие высокий показатель дискриминативности
обладают низкой стабильностью при
проверки ретестовой надежности
(неустойчивыми по отношению к повторяемости
результата) и наоборот: низкая
вариабельность (изменчивость) ответа
часто наблюдается у тех вопросов, которые
обладают низкой дискриминативностью.

М.Новаковская
выдвинула 2 гипотезы, объясняющие
психометрический парадокс.

1)
многозначные вопросы поддаются различному
истолкованию или испытуемому трудно
принять решение об ответе: высокая
дискриминативность и низкая стабильность
ответа;

2)
однозначные вопросы, на которые легко
подобрать ответ: слабая дискриминативность
и незначительная вариабельность.

Трудность
заданий теста

– это характеристика задания, отражающая
статистический уровень ее решаемости
в данной выборки. Если задачу решили
20% выборки – она статистически трудная.
Ее, как правило, поставят в конце теста.
Легкие задачи решают большинство
испытуемых. Они используются в качестве
примеров и идут в начале теста.

Дополнительные
замечания:

В
связи с проблемой очевидной
валидности

(см. вопрос 36) необходимо, чтобы задания
методики соответствовали следующим
требованиям:

1)
избегать туманных, непонятных общих
названий на бланках и опросных листах,
тестовых тетрадях и т.д.;

2)
ввести в инструкцию краткую характеристику
цели исследования (иногда ложную, как
в «Пиктограмме»);

3)
использовать понятные формулировки,
естественные для данных испытуемых,
без специальной терминологии;

4)
использовать естественные задания с
легкой для понимания инструкцией.

Адаптация
методики

комплекс мероприятий, обеспечивающих
адекватность теста в новых условиях
его применения. Адаптация необходима
в связи с культурными особенностями
(не только разных стран, но и людей с
разным уровнем образования, из разных
населенных пунктов и т.д.). Актуальными
являются проблемы адаптации зарубежных
тестов.

Основные
этапы адаптации.

  1. Анализ
    исходных теоретических положений.

  2. Перевод
    теста и инструкций к нему на язык
    пользователя, завершаемой лингвистической
    экспертной оценкой соответствия
    оригиналу.

  3. Проверка
    валидности и надежности теста,
    осуществляемая в соответствии с
    психометрическими требованиями.

  4. Стандартизация
    теста (в значении установления
    статистической нормативной базы) на
    соответствующих выборках.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Репрезентативность тестовых норм
— соответствие граничных точек на РАСПРЕДЕЛЕНИИ ТЕСТОВЫХ БАЛЛОВ, полученных на ВЫБОРКЕ СТАНДАРТИЗАЦИИ, аналогичным граничным точкам, которые могли бы быть получены на популяции проведения — на множестве испытуемых, для которых предназначен ТЕСТ. Обычно при получении кривой НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ делается вывод о том, что ТЕСТОВЫЕ НОРМЫ обладают репрезентативностью. Но нормальность не является необходимым условием репрезентативности. РТН может достигаться и в отсутствие нормального распределения.

Репрезентативность — представленность свойств более широкого множества объектов в свойствах подмножества. В психодиагностике говорят о «РЕПРЕЗЕНТАТИВНОСТИ ТЕСТОВЫХ НОРМ» или о «ТЕМАТИЧЕСКОЙ РЕПРЕЗЕНТАТИВНОСТИ» тестовых заданий по отношению к ОБЛАСТИ ВАЛИДНОСТИ теста.

Тематическая репрезентативность
— мера представленности в наборе ТЕСТОВЫХ ЗАДАНИЙ той предметной области, на которую направлен данный тест, то есть области поведения в случае ПСИХОЛОГИЧЕСКОГО ТЕСТА или области знания в случае ПЕДАГОГИЧЕСКОГО ТЕСТА.

Валидность

Все методы психодиагностики начиная со стандартизованных и заканчивая не стандартизованными направлены на измерение свойств личности и особенности интеллекта. Каждый метод предназначен для измерения какого либо свойства что и опр. содержание этого метода. Сведения о степени в которой тест действительно измеряет то для чего он предназначен входить понятие валидности. (напр. методика Кольца Ландольта предназначена для измерения таких свойств внимания как концентрация и переключаемость. В психологии сущ. определения понятий концентрации внимания и его переключаемости. Считается что выводы сформулированные на основании результатов тестирования с помощью колец Ландольта вполне отражают содержание определений этих свойств внимания. Значит эта методика действительно измеряет то для чего она предназначена т.е. она валидна.

Типы валидности:

1. практическая валидность — характеризует тест не столько со стороны его психологического содержания сколько с точки зрения его ценности в отношении достижения определенной практич цели напр. прогнозирования диагностики.

Выделяют подтипы практич валидности. —

— прогностическая

— совпадающая

Тест с высокой прогностической валидностью позволяет сделать прогноз на сколько успешно испытуемый будет выполнять определенную деятельность в последствии (на перспективу).

Тест с высокой совпадающей валидностью позволяет ответить на вопрос какова вероятность того что индивид Х обладает свойством У в настоящий момент времени.

2. Валидность по объему

отражает степень в какой объем теста выборочно репрезентирует (представляет) тот класс в ситуаций или учебного материала , относительно которого должны быть сделаны выводы.

Валидность по объему показывает в каком объеме , в какой мере психич свойство отражено в методике.

Внимание!

Если вам нужна помощь в написании работы, то рекомендуем обратиться к
профессионалам. Более 70 000 авторов готовы помочь вам прямо сейчас. Бесплатные
корректировки и доработки. Узнайте стоимость своей работы.

3. оценочная валидность

выражает степень корреляции (соответствия) между показателями полученными испытуемыми по данному методу и оценками измерительного свойства со стороны экспертов. напр. при вадидации в проверке теста на валидность тестов оценки умственных способностей школьников в качестве экспертов обычно выступают учителя.

4. Внешняя валидность

Означает что впечатление которое создается у не специалистов при знакомстве со стимульным материалом и сугубо внешней стороной тестирования соотв. заявленному содержанию метода т.е. если это проективный тест …

Эффективная методика может быть создана если она прошла все этапы валидации т.е. когда приняты меры для придания ей как содержательной валидности так и практической.

Надежность

О высокой надежности метода говорят в том случае когда метод точно измеряет то свойство для измерения которого он предназначен. (напр. на свойство внимания он изм внимание).

В кач критериев точности можно отметить следующее:

1) при повторном прим метода к тем же самым испытуемым , в одних и тех же условиях через опр. интервал времени, результаты обоих тестирований существенно не различаются между собой

2) действия случайных посторонних факторов не оказывают существенного влияния на результаты тестирования. В качестве посторонних факторов можно назвать следующее это эмоционально состояние и утомление , если они не входят в круг исследуемых характеристик.

— температура

— освещенность

такие посторонние случ факторы еще называют факторами нестабильности измерительной процедуры.

3) при повторном применении метода к тем же самым испытуемым через опр. интервал времени в измененных условиях результаты обоих тестирований существенно не различаются между собой.

Под измененными имеются в виду след. условия :

Это другой экспериментатор или состояние респондента.

Методы оценки надежности.

1. ретестовый метод — это повторное тестирование выборки испытуемых одни и тем же тестом через опр. интервал времени при одних и тех условиях. Временной интервал за висит от возраста (напр. у маленьких детей изменения могут произойти в теч одного месяца). а так же от событий происх с испытуемым в жизни.

тест ->интервал -> ретест.

За индекс надежности принимается коэффициент корреляции между результатами 2х тестирований. Полученная высокая корреляция может быть результатом тренированности испытуемого на заданиях подобного типа.

Низкая корреляция может быть результатом произошедших изм с испытуемым, а так же может свидетельствовать о ненадежности теста.

2. Надежность взаимозаменяемых формул.

это повторное тестирование в выборке испытуемых параллельной формы теста через минимальный интервал времени при одних и тех же условиях.

тест А -> интервал — >тест А1.

за индекс надежности принимается коэф корреляции между результатами тестирования 2 мя параллельными формами теста.

Высокий коэф корреляции и большой интервал между 2 мя испытаниями свидетельствует о высокой надежности теста.

Возможный обман со стороны испытуемого, его искушенность события происшедшие в интервале между тестированиями, не оказывают особого влияния как при тестовом методе на степень надежности теста.

Если фактор тренировки снижен при тестировании параллельными формами, то эффект переноса принципа заданий часто имеет место.

Эффект переноса сл учитывать при построении параллельных форм или взаимозаменяемых форм.

Требования к построению параллельных форм:

1) параллельные формы должны быть независимо построенными тестами , но отвечать одним и тем же требованиям.

2) должны они содержать одинаковое содержание заданий со сходной степенью трудности.

3) эквивалентность параллельных форм необх проверять ретестовым методом. т.е. сначала мы проводим тест затем проходит время , затем проводим А1 — прох интервал времени и опять проводим А.

3. Метод расщепления

он состоит в том что тест разбивают на 2 сопоставимые части. Респондент выполнят задания этих 2 частей в течении одного сеанса с получением 2х результатов. (напр. тест Равенна содержит 2 части это четные и нечетные.)

За индекс надежности принимается коэф корреляции между результатами тестирования двумя этими частями. Он наз коэф внутренней согласованности теста.

Тест может быть надежен, но не валиден, это означает что он измеряет какое-то свойство очень точно, но какое именно остается под вопросом. В такой ситуации необх более точная валидизация теста как содержательная , так и практическая.

Надежность теста

НАДЕЖНОСТЬ — одно из трех главных психометрических свойств любой измерительной психодиагностической методики (теста). Надежность — это помехоустойчивость теста, независимость его результатов от действия всевозможных случайных факторов. К числу таких факторов следует отнести:

—      разнообразие внешних материальных условий тестирования, меняющихся от одного испытуемого к другому (время суток, освещенность, температура в помещении, наличие посторонних звуков, отвлекающих внимание и т. п.),

—      динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тести рования (время так называемой врабатываемости — выхода на стабильные показатели темпа и точности действий после начала тестирования, скорость утомления и т. п.),

— информационно-социальные обстоятельства
(различная динамика в установлении контакта с психологом или лаборантом, проводящим тестирование;
возможное наличие других людей в помещении;
наличие предыдущего опыта знакомства с данным
тестом; наличие какого-то знания и отношения к тестам вообще и т. п.).

Разнообразие и изменчивость всех этих факторов так велики, что они обусловливают появление у каждого испытуемого непрогнозируемого по размерам и направлению отклонения измеренного тестового балла от истинного тестового балла (который можно было бы в принципе получать в идеальных условиях). Средняя относительная величина этого отклонения определяется как стандартная ошибка измерения ( Se ). Величина ошибки измерения указывает на уровень неточности или ненадежности тестовой шкалы (специально подчеркнем, что в психометрической теории надежность и точность оказываются синонимами).

ОШИБКА ИЗМЕРЕНИЯ ( Se ) и надежность измерения ( R ), согласно общепринятой психометрической теории, связаны следующей формулой:

(1) R -1 — Se 2 / Sx 2 ,

где S — дисперсия тестовых показателей X .

Формула (1) является чисто теоретической, и на ее основе нельзя подсчитать надежность теста, так как величина Se оказывается также неизвестной величиной. Поэтому на практике применяют корреляционные методы- Самый известный из них — метод перетестирования (тест-ретест) или метод измерения РЕТЕСТОВОЙ НАДЕЖНОСТИ. На одной и той же выборке испытуемых (не менее 30 человек, участвующих в пилотажном психометрическом экспериментальном исследовании) проводят первое тестирование X , а затем повторное тестирование Y . Интервал, как правило, — две недели, что гарантирует забывание вопросов теста.

Затем для двух рядов значений X и Y подсчиты-вается, например, линейный коэффициент корреляции (возможный и нередко более корректный вариант — подсчитывать ранговый коэффициент корреляции):

(2) R -* ВД •

где Sx
, S — стандартные отклонения X и Y ,

Cov ( X , Y ) — ковариация двух переменных X и Y .

Что важно для сути теории надежности тестов, так это возможность определить ошибку измерения после того, как подсчитана корреляция тест-ретест по формуле (3), полученной путем простого преобразования формулы (1):

(3) Se = Sx
— Vl — R

Таким образом, если стандартное отклонение в тесте составило 10 очков (среднее отклонение, которое в среднем допускают испытуемые от среднего балла для выборки), а корреляция тест-ретест оказалась равной лишь 0,5, то ошибка измерения оказывается очень большой:

Se = 10* V 1 — 0,5 ~ 7.1.

То есть оказывается, что ошибка измерения перекрывает большую часть разброса тестовых показателей, так как истинный балл по тесту может отклоняться от измеренного балла на целых 7 очков! И

если испытуемый набрал на 6 очков больше, чем средний испытуемый, мы не можем с достаточной уверенностью (статистической достоверностью) говорить о том, что он значимо превзошел среднего испытуемого, так как это отклонение оказывается в пределах стандартной ошибки измерения.

Таким образом, низкая корреляция результатов теста между первым и повторным тестированием говорит о том, что случайные факторы существенно искажают результаты теста. Это значит, что тест не обладает необходимой помехоустойчивостью, и его нельзя использовать как измерительный инструмент.

Показатель надежности R , который принято считать достаточно высоким, равен или превышает 0,95. Хотя в личностных тестах часто пользуются значительно менее надежными тестами с показателями 0,8 — 0,9.

Метод измерения ретестовой надежности пригоден только для психических свойств, стабильных во времени. Надежность тестов на психические состояния и динамичные установки личности нельзя проверить таким образом. В этом случае применяют различные методы расщепления теста на отдельные пункты, освещение которых выходит за пределы настоящего пособия.

Валидность теста

Соответствие теста измеряемому психическому свойству называется ВАЛНДНОСТЫО теста. Это, без преувеличения, важнейшее психометрическое свойство теста. Если высокая надежность теста говорит нам о том, что тест действительно что-то измеряет, то высокая валидность указывает.на то, что тест измеряет именно то, что мы хотим. Конечно, на валидность теста также негативно влияют случай-

ные факторы. Поэтому в психометрике принято следующее основное психометрическое неравенство:

ВАЛИДНОСТЬ < НАДЕЖНОСТЬ,

что означает, что валидность не может превышать надежность теста.

Но в отличие от надежности помимо случайных факторов на валидность теста влияют систематические факторы. Они привносят систематические искажения в результаты. Эти факторы есть другие психические свойства, которые мешают проявиться в результатах теста тому свойству, на которое тест направлен. Например, мы хотим измерять потенциал обучаемости (важнейший компонент общих интеллектуальных способностей человека). Но даем испытуемому тест с жестким ограничением времени исполнения и отсутствием возможности вернуться и исправить допущенную ошибку. Совершенно очевидно, что искомое психическое свойство оказывается смешанным в тесте с ложным психическим свойством — стрессоустойчивостью: испытуемые с высокими показателями стрессоустойчивости будут лучше выполнять тест. В этом проявится эффект систематического искажения.

В современной психометрике разработаны буквально десятки разнообразных теоретических и экспериментальных методов проверки валидности тестов. Основным элементом практически всех этих методов является так называемый критерий. КРИТЕРИЙ ВАЛИДНОСТИ — это независимый от теста, внешний по отношению к тесту источник информации об измеряемом психическом свойстве. Мы не можем судить о валидности теста до тех пор, пока не сравним его результаты с источником истинной (или хотя бы заведомо более валидной) информации об измеряемом свойстве — с критерием.

В научных исследованиях преобладают специальные лабораторные критерии. Например, конструируется компактный тест-опросник на тревожность. А в качестве критерия валидности для него используется специальный трудоемкий объективный лабораторный эксперимент, в котором воспроизводится реальная ситуация тревожности (испытуемым-добровольцам уг рожают за ошибочные действия ударами тока и т. п.).

На практике очень часто в качестве критерия валидности используются прагматические критерии — показатели эффективности той деятельности, ради прогнозирования которой предпринимается тестирование В школе самый типичный критериальный показатель — это успеваемость. Но для социально-психологической адаптации ребенка внешним критериальным показателем может быть уровень популярности в классе.

Очень часто в качестве критерия валидности используется экспертная оценка. Например, мы хотим убедиться, что короткий тест на измерение уровня дисциплинированности валиден. Для этого опрашиваем учителей об уровне дисциплинированности хорошо известных им учеников. И после этого сравниваем (коррелируем) результаты теста и экспертный рейтинг учеников по дисциплинированности.

Остановимся здесь чуть подробнее на этом последнем примере. Здесь мы имеем один из самих простых и популярных методов эмпирического (статистического) измерения валидности. Это метод известных групп. К участию в психометрическом эксперименте по проверке валидности теста приглашаются испытуемые, про которых известно, к какой группе пс критерию они относятся. В случае с тестом дисциплинированности подбираются ученики, заведомо дисциплинированные, по данным экспертной оценки учителей (высокая группа по критерию), и заведомо недисциплинированные (низкая группа по критерию). Ученики со средними показателями по критерию в тестировании не участвуют. После проведения теста мы рассчитываем, например, простейшую четырехклеточную корреляцию между тестом и критерием. Для этого заполняется следующая четырехклеточная таблица:

http://www.mirvolos.com/rmsimages/psdiag/image008.jpg

Элемент а в этой табличке — это число испытуемых, попавших в высокую группу по тесту и по критерию, элемент Ь — число испытуемых, попавших в высокую группу по тесту, но в низкую группу по критерию и т. д.

Очевидно, что при полной валидности теста элементы ft и с таблички должны быть равны нулю. То есть тест не должен давать ошибок — говорить о том, что ученик низкодисциплинированный, когда учителя говорят о том, что ученик высоко дисциплинированный (случай с).

Меру совпадения (корреляции) между крайними группами по тесту и по критерию оценивают с помощью самого простого Фи-коэффициента Гилфорда:

http://www.mirvolos.com/rmsimages/psdiag/image010.jpg

При численности протестированной группы в 30 человек (это минимальная выборка для проверки валидности) статистически значимую связь теста с критерием мы можем констатировать, когда Phi >—0,36. Хотя это, конечно, очень невысокая валидность, но все же тест в этом случае дает значимо лучшие результаты, чем случайное гадание. То есть если в вашем учебном заведении есть конкурс и вы хотите отобрать не только одаренных, но и дисциплинированных учащихся, вы можете использовать тест, валидность которого вы проверили, и она оказалась значимой.

Но-.. Метод известных групп обладает серьезным недостатком. Он не всегда позволяет использовать тест для прогноза. Дело в том, что при формировании известных групп оценивается поведение, которое происходило в прошлом, а мы хотим сделать тест дня прогноза поведения, которое будет происходить в будущем. Многие тесты, используемые в образовательной психодиагностике, обладают указанным недостатком. Они прошли в лучшем случае проверку по методике известных групп и не обладают так называемой ПРОГНОСТИЧЕСКОЙ ВАЛЙДНОСТЬЮ (или по крайней мере эта валидность строго экспериментально не доказана). Конечно, на местном уровне задачу обеспечения прогностической валидности не решить. Это под силу только крупным научно-методическим центрам. Ведь к психометрическому исследованию по проверке прогностической валидности надо привлекать примерно на порядок больше испытуемых — не 30, а минимум 300. Ведь мы просто не знаем, кто из этих 300 попадет в будущем в крайние группы.

Например, мы хотим использовать тест для прогноза готовности школьников к обучению в вузе. Это типичная прогностическая психодиагностическая задача. Кто-то должен взяться за нелегкую многолетнюю программу проверки прогностического потенциала этого теста. Нужно протестировать 300— 500 школьников, а затем подождать, кто из них поступит в вуз и будет успешно там учиться. После двух-трехлетнего интервала можно сформировать критериальные группы и подсчитать корреляцию с прежними тестовыми показателями этих бывших школьников. Только после реализации такой схемы психометрического эксперимента можно утверждать, что тест прошел проверку на прогностическую валидность. Без этого мы исходим просто из доверия к научной интуиции разработчика теста и не имеем независимых доказательств того, что тест можно использовать для прогноза.

Различение обычной дешевой схемы валидизации теста (по известным группам) и дорогой прогностической схемы валидизации теста — важнейший элемент психодиагностической грамотности не только для психологов, но и для педагогов, как, впрочем, и для любых заказчиков психодиагностической информации.

Когда заказчик твердо знает, каких доказательств эффективности предлагаемого теста можно потребовать от тестолога, он будет надежно застрахован от профанации.

Стандартизация тестов

Что, несомненно, должен знать и уметь делать каждый грамотный пользователь теста — это понимать, что такое тестовые нормы и как ими пользоваться.

Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, который можно диагностически интерпретировать. Его называют в тестологии сырым тестовым баллом. Применение тестовых норм в профессионально организованной психодиагностике основывается на переводе тестовых баллов из сырой шкалы в стандартную. Эта процедура называется стандартизация тестового балла.

Пусть мы провели тест из 20 заданий и испытуемый дал 12 правильных ответов. Можно ли при этом сказать, что способность у испытуемого выражена лучше или хуже, чем в среднем? Нет. Для такого вывода нужно сравнить балл 12 со средним баллом по представительной выборке испытуемых.

Выборка, на которой определяются статистические тестовые нормы, называется ВЫБОРКОЙ СТАНДАРТИЗАЦИИ. Ее численность, как правило, не меньше 200 человек. Столько должны принять участие в психометрическом эксперименте по определению тестовых норм — в эксперименте по стандартизации теста.

Если после стандартизации теста выясняется, к примеру, что среднее арифметическое по сырой шкале теста равно 14, то оказывается балл 12 — это не лучше, а хуже среднего (хотя испытуемый и справился больше, чем с половиной заданий). Просто в данном случае тест содержит слишком простые задания, несколько отклоняется по этому параметру от оптимальной трудности.

Простейшая ЛИНЕЙНАЯ СТАНДАРТИЗАЦИЯ тестового балла производится по формуле

http://www.mirvolos.com/rmsimages/psdiag/image012.jpg

где Z — стандартный балл на так называемой
стандартной шкале Z (с центром 0 и отклонением 1),
X — сырой балл по тесту, X — средний балл по
выборке стандартизации, S — стандартное отклонение по выборке стандартизации. —

После получения стандартного балла Z можно перевести тестовый балл в любую стандартную тестовую шкалу, принятую в психодиагностике. Например, перевод в шкалу IQ производится по формуле

IQ = Z ..15 + 100.

Напомним, что в шкале IQ центр равен 100, а отклонение равно 15.

Если перевод требуется в так называемую шкалу стенов (от английского standard ten — стандартная десятка), то формула пересчета из шкалы Z выглядит так:

Sten = Z ..2+ 5.5,

так как в шкале стенов центр равен 5.5, а отклонение равно 2.

Обобщенная формула перевода сырого балла в заданную стандартную шкалу имеет вид:

(6) У = Ss • Z + М,

где Y — стандартный балл по произвольной шкале с центром М и отклонением Ss .

Для серьезных профессиональных тестов вместо описйнной здесь простейшей линейной’стандартизации используется более сложная процедура нелинейной нормализации (форсированный переход к нормальному распределению). В результате этой, более точной, процедуры разработчики снабжают пользователей теста так называемой КОНВЕРСИОННОЙ ТАБЛИЦЕЙ для перевода сырых баллов в стандартные баллы по заданной шкале. В ней приводится полный перечень соответствий между интервалами сырой шкалы и интервалами стандартной.

Ниже приведен пример того, как может выглядеть конверсионная таблица для некоторого теста арифметических вычислений из 30 заданий. Простейшая процедура подсчета баллов (за правильный ответ — 1 очко, за ошибку — 0) дает нам сырую шкалу от 0 до 30:

Как пользоваться таблицей? Если испытуемый показал 5 сырых очков (решил только 5 заданий), то ему ставится минимальный стандартный балл 1. Если испытуемый решил 25 заданий, то — балл 9.

После того, как балл по тесту стандартизирован, можно выносить диагностическое заключение. Общее правило здесь таково: если стандартный балл У превышает единицу верхней (или высокой) группы M + Ss , то данному испытуемому приписывается повышенное значение измеренного психического свойства. Например, про ученика говорят, что он является определенно более дисциплинированным, чем средний ученик в российской школе (или московской, или иркутской — в зависимости от того, на какой выборке стандартизации получены нормы). Если же стандартный балл Y ниже границы нижней (низкой) группы MSSj то о данном испытуемом формулируется заключение, соответствующее низкому полюсу измеряемого свойства. Если стандартный тестовый балл Y заключен в пределах центрального интервала ( M — Ss , M + Ss ), то про испытуемого говорят, что у него измеренное свойство выражено в средней степени — как у большинства людей.

На шкале стенов граница верхней группы равна 7.5, а нижней — 3.5, то есть при получении 8 стенов и больше испытуемый зачисляется в верхнюю группу; а при получении 3 стенов и меньше — в нижнюю.

Бели мы имеем дело с биполярным (двухполюсным) психическим свойством, например, гибкость — ригидность, то для высокой группы формулируется заключение как для гибких людей, а для низкой группы — как для ригидных людей. Соответственно средняя группа из центрального интервала признается нейтральной, неполяризованной по данному тестовому параметру.

Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применять тест на широкой популяции, называется РЕПРЕЗЕНТАТИВНОСТЬЮ тестовых норм. . Репрезентативность — третье важнейшее психометрическое свойство теста. Понимание смысла этого требования к тесту помогает правильно учитывать ограничения в сфере применения теста.

Например, если тест проходил стандартизацию на студентах, то перед его применением на школьниках следует вначале произвести РЕСТАНДАРТИЗАЦИю), то есть снова собрать тестовые нормы на представительной выборке, сформированной именно из школьников. В противном случае диагностические выводы будут производиться по неадекватным тестовым нормам и будут неточны и неверны.

Проверка репрезентативности тестовых норм осуществляется с помощью анализа так называемого распределения частот тестовых баллов. Одним из простейших методов является проверка нормальности этого распределения. Более сложный и универсальный подход предполагает сравнение двух распределений, построенных для двух случайных половин выборки стандартизации. Если два этих распределения оказываются практически тождественными, то можно говорить о репрезентативности тестовых норм (более подробно об этом см. уже указанные специализированные издания по психометрике).

Введение понятия репрезентативности позволяет нам дать более строгое определение того, что такое стандартизация теста. О СТАНДАРТИЗАЦИИ ТЕСТА в строгом смысле можно говорить, когда задана полная таблица соответствия сырой шкалы и стандартной шкалы и содержание этой таблицы обосновано статистической структурой распределения тестовых баллов на выборке стандартизации.

Кроме статистических тестовых норм в современных тестах часто используются КРИТЕРИАЛЬНЫЕ НОРМЫ. Они особенно важны для сферы образования. Действительно, что дает нам знание о том, что Петров выполнил тест лучше среднего испытуемого, если средний испытуемый тоже не справился с большинством заданий и мы прогнозируем, что подавляющее большинство испытуемых без специального дополнительного обучения не смогут показать требуемого уровня эффективности в будущей деятельности.

При построении так называемого теста по критерию шкала сырых тестовых баллов калибруется особыми реперными точками, которые соответствуют уровням рассчитанной вероятности достижения какого-то критерия (заданной эффективности деятельности). Например, если оператор АЭС был точен в 45 из 48 процентов заданий, то это может еще и не соответствовать требуемому уровню критериальной надежности оператора (в данном случае надежность — измеряемое свойство), а вот если он был точен в 47 из 48 заданий, то это может считаться достаточным уровнем надежности. Таким образом,

при построении диагностических заключений по критериальным тестам мы интересуемся не степенью отклонения балла от центра шкалы, а достижением или недостижением какого-то критического уровня на шкале

Достоверность теста

Особой разновидностью валидности является ДОСТОВЕРНОСТЬ, которая не всегда выделяется в учебниках по психодиагностике, хотя требует специальных усилий и процедур по обеспечению. Речь идет о сознательных или бессознательных искажениях, которые вносит в тестовые результаты сам испытуемый, руководствуясь в ходе теста особой мотивацией, отличающейся от той, которая присуща ему в реальном поведении. Способность теста защищать информацию от МОТИВАЦИОННЫХ ИСКАЖЕНИЙ и есть достоверность теста. Особенно, остро проблема достоверности стоит в случае тест-опросников, которые допускают больше свободы в выборе испытуемым любого варианта ответа.

Типичный прием обеспечения достоверности — наличие в тест-опросниках ШКАЛ ЛЖИ. Эти шкалы основываются главным образом на феномене СОЦИАЛЬНОЙ ЖЕЛАТЕЛЬНОСТИ — стремлении испытуемых давать в ходе тестирования социально одобряемую информацию. Если испытуемый набрал по шкале лжи балл выше критического, то его протокол объявляется недостоверным и ему предлагается либо выполнить данный тест еще раз более откровенно, либо выполнить другой тест. Многие более специфичные ловушки, направленные на измерение достоверности, часто входят как компонент в структуру конкретного теста, а иногда даже не подлежат разглашению как элемент ноу-хау (инфор мационного изобретения) и профессиональной тайны, разделяемой разработчиками только с лицензированными пользователями методики, подписавшими особое лицензионное соглашение при приобретении теста.

Достоверность тестирования тесно связана со степенью доверительности общения, которую смог психолог установить с данным испытуемым. Здесь полезно различать две диагностические ситуации: консультативную (СИТУАЦИЯ КЛИЕНТА) и аттестационную (СИТУАЦИЯ ЭКСПЕРТИЗЫ). В первом случае испытуемый участвует в тестировании на добровольной основе и сам заинтересован получить рекомендации по результатам тестирования (как, например, в профориентационной консультации). Во втором случае тестирование проводится по инициативе педагога или администрации, психолога, родителей, т. е. других лиц, и эти другие больше заинтересованы в результатах, чем сам испытуемый.

Понятно, что в аттестационной ситуации вопрос о достоверности особенно актуален. И опросники, не снабженные шкалами лжи, использовать в таких ситуациях бесполезно. Наоборот, в ситуации клиента могут быть использованы такие методики, на которые испытуемый заведомо будет отвечать некорректно в ситуации экспертизы.

Вопросы достоверности и стандартизации тесно связаны между собой. Очень часто даже объективные тесты достижений, если они проходили стандартизацию на добровольцах (в ситуации консультации), должны быть рестандартизированы для того, чтобы их использовали в аттестационной ситуации.

В заключение данной главы подчеркнем, что измерение психометрических характеристик теста, конечно, является прежде всего обязанностью разра ботчиков тестов. Но квалифицированный школьный психолог-методист с полным курсом университетского образования должен по своей подготовке уметь самостоятельно провести простейший психометрический эксперимент и пересчитать тестовые нормы, а также психометрические индексы надежности и валиднос-ти теста на своей собственной выборке (в своем регионе, обладающем определенной национально-культурной и социальной спецификой). Без этой проверки никто не может гарантировать, что тест действительно работает в данных условиях.

На сегодня подобная психометрическая работа с тестами облегчается, так как от массы рутинных вычислений специалиста освобождает компьютер. Научная фирма Гуманитарные технологии (МГУ) распространяет с 1993 года специализированный пакет программ ТЕСТАН (разработчик — А. Г. Шмелев) для психометрического АНализа ТЕСТов. Задача пользователя такой программы — не тратить время на вычисления, а только содержательно разбираться в том, что означает тот или иной коэффициент.

Получить выполненную работу или консультацию специалиста по вашему
учебному проекту

Узнать стоимость

Надежность — одно из трех главных психометрических свойств любой измерительной психодиагностической методики (теста). Надежность — это помехоустойчивость теста, независимость его результатов от действия всевозможных случайных факторов. К числу таких факторов следует отнести:

разнообразие внешних материальных условий тестирования, меняющихся от одного испытуемого к другому (время суток, освещенность, температура в помещении, наличие посторонних звуков, отвлекающих внимание и т.п.);

динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тестирования (время так называемой “вырабатываемости” — выхода на стабильные показатели темпа и точности действий после начала тестирования, скорость утомления и т.п.);

информационно-социальные обстоятельства (различная динамика в установлении контакта с психологом или лаборантом, проводящим тестирование; возможное наличие других людей в помещении; наличие предыдущего опыта знакомства с данным тестом; наличие какого-то знания и отношения к тестам и т.п.).

Разнообразие и изменчивость всех этих факторов так велики, что они обусловливают появление у каждого испытуемого непрогнозируемого по размерам и направлению отклонения — измеренного тестового балла от истинного тестового балла (который можно было бы в принципе получать в идеальных условиях). Средняя относительная величина этого отклонения определяется как “стандартная ошибка измерения” (Se). Величина ошибки измерения указывает на уровень неточности или ненадежности тестовой шкалы (специально подчеркнем, что в психометрической теории надежность и точность оказываются синонимами).

Ошибка измерения (Se) и надежность измерения (R), согласно общепринятой психометрической теории, связаны следующей формулой:

R= 1 — S e2/ S x2, (1)

где Sх — дисперсия тестовых показателей Х.

Формула (1) является чисто теоретической, и на ее основе нельзя определить степень надежности теста, так как величина Se оказывается также неизвестной величиной. Поэтому на практике применяют корреляционные методы. Самый известный из них — метод перетестирования (тест-ретест), или метод измерения ретестовой надежности. На одной и той же выборке испытуемых (не менее 30 человек, участвующих в пилотажном психометрическом экспериментальном исследовании) проводят первое тестирование Х, а затем повторное тестирование Y. Интервал, как правило, — две недели, что гарантирует забывание вопросов теста.

где SX, SY — стандартные отклонения Х и Y;

Cov (х, y) — ковариация двух переменных Х и Y.

В этой книге мы не ставим целью научить студентов-педагогов корреляционным методам и пытаемся изложить лишь принципиальную суть дела. Интересующиеся найдут все необходимые формулы и вычислительные примеры в любом учебнике по статистике, а также в специализированных изданиях по психодиагностике и психометрике (“Общая психодиагностика”, 1987; Клайн, 1994).

Что важно для сути теории надежности тестов, так это возможность определить ошибку измерения после того, как подсчитана корреляция “тест-ретест” по формуле (3), полученной путем простого преобразования формулы (1):

Se = Sх Ч V1 — R. (3)

Таким образом, если стандартное отклонение в тесте составило 10 очков (среднее отклонение, которое в среднем допускают испытуемые от среднего балла для выборки), а корреляция “тест-ретест” оказалась равной лишь 1,5, то ошибка измерения оказывается очень большой:

Se=10ЧV1-0,5»7,1. (4)

То есть оказывается, что ошибка измерения перекрывает большую часть разброса тестовых показателей, так как истинный балл по тесту может отклоняться от измеренного балла на целых 7 очков! И если испытуемый набрал на 6 очков больше, чем “средний” испытуемый, мы не можем с достаточной уверенностью (статистической достоверностью) говорить о том, что он значимо превзошел среднего испытуемого, так как это отклонение оказывается в пределах стандартной ошибки измерения.

Таким образом, низкая корреляция результатов теста между первым и повторным тестированием говорит о том, что случайные факторы существенно искажают результаты теста. Это значит, что тест не обладает необходимой помехоустойчивостью и его нельзя использовать как измерительный инструмент.

Показатель надежности R, который принято считать достаточно высоким, равен или превышает 0,95. Хотя в личностных тестах часто пользуются значительно менее надежными тестами с показателями 0,8-0,9.

Метод измерения “ретестовой надежности” пригоден только для психических свойств, стабильных во времени. Надежность тестов на психические состояния и динамичные установки личности нельзя проверить таким образом. В этом случае применяют различные методы “расщепления” теста на отдельные пункты, освещение которых выходит за пределы настоящего пособия

Понравилась статья? Поделить с друзьями:
  • Синоним надежды 8 букв
  • Синоним надежда на будущее
  • Синоним набычиться
  • Синоним набрать силу
  • Синоним набрать высоту