Меню

Показатели качества психологических измерений



Показатели качества психологических измерений

Тема 5. Психологическое измерение

5.1. Элементы теории психологического измерения

Измерение может быть самостоятельным исследовательским методом, но может выступать и как компонент целостной процедуры эксперимента. Как самостоятельный метод измерение служит для выявления индивидуальных различий в поведении субъектов и отражения ими окружающего мира, а также для исследования адекватности отражения и структуры индивидуального опыта.

Измерение в процедуре эксперимента рассматривается как метод регистрации состояния объекта исследования и соответственно изменения этого состояния в ответ на экспериментальное воздействие.

На основе теории измерения строятся психологические тесты.

В психологии различают три основные процедуры психологического измерения. В основе различения лежит объект измерения.

1. Измерение особенностей поведения людей, определение различий между людьми с точки зрения выраженности тех или иных свойств, наличия того или иного психического состояния или для отнесения к определенному типу. Психологическое измерение заключается в измерении испытуемых.

2. Измерение как задача испытуемого, в ходе выполнения которой последний измеряет (классифицирует, ранжирует, оценивает и т. п.) внешние объекты: других людей, стимулы или предметы внешнего мира, собственные состояния. Психологическое измерение в этом случае является измерением стимулов. Под стимулом понимается любой шкалируемый объект.

3. Совместное измерение стимулов и испытуемых. При этом предполагается, что «стимулы» и «испытуемые» могут быть расположены на одной оси. Поведение испытуемого рассматривается как проявление взаимодействия личности и ситуации.

Внешне процедура психологического измерения испытуемых ничем не отличается от процедуры психологического эксперимента. Однако при проведении психологического эксперимента исследователя интересуют причинные связи между переменными, а результатом психологического измерения является лишь отнесение испытуемого либо оцениваемого им объекта к тому или иному классу, точке шкалы или пространству признаков.

Психологическое измерение стимулов является задачей, которую испытуемый решает в ходе психологического эксперимента. В этом случае измерение используется только как методический прием наряду с другими методами психологического исследования; испытуемый же «играет роль» измерительного прибора.

По сути психологическое измерение испытуемых и психологическое измерение стимулов являются качественно различными процедурами, но в психологии принято употреблять понятие «психологическое измерение» применительно к обоим этим случаям. Процедура психологического измерения состоит из ряда этапов, аналогичных этапам экспериментального исследования. Основой психологических измерений является математическая теория измерений – раздел математической психологии.

С математической точки зрения измерением называется операция установления взаимно однозначного соответствия множества объектов и символов (как частный случай – чисел). Правила, на основании которых числа приписываются объектам, определяют шкалу измерения. Шкала (от лат. scala – лестница) в буквальном значении есть измерительный инструмент.

Понятие измерительной шкалы введено в психологию американским ученым С. Стивенсом.[70] Его трактовка шкалы и сегодня используется в научной литературе.

Операции, способы измерения объектов задают тип шкалы. Различают несколько типов шкал (см. 5.2). Шкала, в свою очередь, характеризуется видом преобразований, которые могут быть применены к результатам измерения. Если не соблюдать это правило, то структура шкалы нарушится, а данные измерения нельзя будет осмысленно интерпретировать. Тип шкалы однозначно определяет совокупность статистических методов, которые могут быть применены для обработки данных измерения.

5.2. Измерительные шкалы

Рассмотрим подробнее особенности различных измерительных шкал. С. Стивенсом[71] предложена классификация из четырех типов шкал измерения:

1) номинативная (номинальная, шкала наименований);

2) порядковая (ординальная);

3) интервальная (шкала равных интервалов);

4) шкала равных отношений.

Номинативная (от лат. nomen – имя, название) шкала – это шкала, классифицирующая по названию. Название не измеряется количественно, а лишь позволяет отличить один объект от другого или один субъект от другого. Номинативная шкала – это способ классификации объектов или субъектов, распределения их по ячейкам классификации.

Простейший случай номинативной шкалы – дихотомическая шкала, состоящая из двух наименований. Признак, который измеряется по дихотомической шкале наименований, называется альтернативным. Он может принимать всего два значения (например, леворукий – праворукий). Более сложный вариант номинативной шкалы – классификация из трех и более наименований (например, холерик, сангвиник, флегматик, меланхолик).

Распределив все объекты, реакции или всех испытуемых по классам, можно перейти от наименований к числам, подсчитав количество наблюдений в каждом классе.

Таким образом, номинативная шкала позволяет подсчитывать частоты встречаемости разных наименований или значений признака, а затем работать с этими частотами с помощью математических методов.

Порядковая шкала – это шкала, классифицирующая по принципу «больше – меньше». Если в шкале наименований безразлично, в каком порядке расположены классы, то в порядковой шкале они образуют последовательность от самого малого значения к самому большому (или наоборот).

В порядковой шкале должно быть не менее трех классов (например, положительный ответ – нейтральный ответ – отрицательный ответ). В порядковой шкале неизвестно истинное расстояние между классами, но известно, что они образуют последовательность.

От классов легко перейти к числам, если считать, что низший класс получает ранг 1, средний класс – ранг 2, а высший класс – ранг 3, или наоборот. Чем больше классов в шкале, тем больше возможностей для математической обработки полученных данных и проверки статистических гипотез.

Все психологические методы, использующие ранжирование, построены на применении порядковой шкалы. Если испытуемому предлагается, например, упорядочить 15 потребностей по степени их значимости или проранжировать список личностных качеств учителя, то во всех этих случаях он совершает так называемое принудительное ранжирование, при котором количество рангов соответствует количеству ранжируемых субъектов или объектов (потребностей, качеств и т. п.).

Читайте также:  Как измерили возраст земли

Независимо от того, приписывается ли каждому качеству или испытуемому один из трех-четырех рангов или же совершается процедура принудительного ранжирования, в результате получаются ряды значений, измеренные по порядковой шкале. Однако данные, полученные в разных группах, могут оказаться несопоставимыми, так как группы могут изначально различаться по уровню развития исследуемого качества и испытуемый, получивший в одной группе высший ранг, в другой получил бы лишь средний, и т. п.

Единица измерения в шкале порядка – расстояние в 1 ранг, при этом расстояние между классами и рангами может быть разным.

Интервальная шкала – это шкала, классифицирующая по принципу «больше на определенное количество единиц – меньше на определенное количество единиц». Каждое из возможных значений признака отстоит от другого на равном расстоянии.

Построение интервальной шкалы для измерения психических явлений – дело очень сложное. Даже при получении данных в физических единицах (секундах, сантиметрах и т. п.) результаты психологического измерения не являются измеренными по интервальной шкале. Аналогично значения, полученные испытуемыми в баллах по любой нестандартизованной методике, оказываются измеренными лишь по шкале порядка. На самом деле равноинтервальными можно считать только шкалы в единицах стандартного отклонения и процентильные шкалы – и то лишь при условии, что распределение значений в стандартизующей выборке было нормальным.[72]

Принцип построения большинства интервальных шкал основан на правиле «трех сигм»: примерно 97,7—97,8 % всех значений признака при нормальном его распределении укладываются в диапазон М ± 36. Можно построить шкалу в единицах долей стандартного отклонения, которая будет охватывать весь возможный диапазон изменений признака, если крайний слева и крайний справа интервалы оставить открытыми.

Американский психолог Р. Кеттелл предложил шкалу стенов – «стандартных десяток». Построение такой шкалы начинается с определения среднего арифметического значения в «сырых» баллах, которое принимается за точку отсчета. Вправо и влево отмеряются интервалы, равные 1/2 стандартного отклонения. Справа от среднего значения будут располагаться интервалы, равные 6, 7, 8, 9 и 10 стенам, слева – интервалы, равные 5, 4, 3, 2 и 1 стенам. На оси «сырых» баллов размечаются границы интервалов в единицах «сырых» баллов. Иногда в шкале стенов за разное количество «сырых» баллов будет начисляться одинаковое количество стенов. Шкалу стенов можно построить по любым данным, измеренным по крайней мере в порядковой шкале, при объеме выборки n > 200 и нормальном распределении признака.

Другой способ построения равноинтервальной шкалы – группировка интервалов по принципу равенства накопленных частот (процентильная шкала). При нормальном распределении признака в окрестности среднего значения группируется большая часть всех наблюдений, поэтому в этой области среднего значения интервалы оказываются меньше, уже, а по мере удаления от центра распределения они увеличиваются. Следовательно, такая процентильная шкала является равноинтервальной только относительно накопленной частоты.[73]

Многие исследователи не проверяют степень совпадения полученного ими эмпирического распределения с нормальным распределением и тем более не переводят получаемые значения в единицы долей стандартного отклонения, или процентили, предпочитая пользоваться «сырыми» данными. «Сырые» же данные часто дают скошенное, срезанное по краям или двухвершинное распределение. С такими распределениями приходится встречаться очень часто, и дело здесь не в какой-то ошибке, а в специфике психологических признаков.

Шкала равных отношений – это шкала, классифицирующая объекты или субъекты пропорционально степени выраженности измеряемого свойства. В шкалах отношений классы обозначаются числами, которые пропорциональны друг другу: 2 так относится к 4, как 4 к 8. Это предполагает наличие абсолютной нулевой точки отсчета. Однако возможности человеческой психики столь велики, что трудно представить себе абсолютный нуль в какой-либо измеряемой психологической переменной.

Абсолютный нуль может иметь место при подсчете количества объектов или субъектов. По отношению к показателям частот возможно применять все арифметические операции: сложение, вычитание, деление и умножение. Единица измерения в этой шкале отношений – одно наблюдение, один выбор, одна реакция и т. п.

Таким образом, универсальной шкалой измерения в частотах встречаемости того или иного значения признака и единицей измерения, которая представляет собой одно наблюдение, является номинативная шкала. Расклассифицировав испытуемых по признакам номинативной шкалы, можно применить потом высшую шкалу измерения – шкалу отношений между частотами.

5.3. Тестирование и теория измерений

Разновидностью процедуры измерения свойств объекта является психологическое тестирование (подробно о нем см. тему 6).

С теоретической точки зрения тестирование состоит из двух основных компонентов: собственно тестирования – взаимодействия испытуемого с тестом и интерпретации – взаимодействия данных (индикаторов) испытуемого с совокупностью данных.

В зависимости от того, с какими свойствами и индикаторами имеет дело исследователь на множестве испытуемых (определяется природой свойства) или индикаторов (определяется описанием поведения и заданий), получаются разные модели теста. Если свойство не определено, то рассматривается отношение различия на множестве людей. Это отношение порождает новый класс объектов. Такой тест выявляет меру сходства каждого человека с «человеком-эталоном».

Читайте также:  Пределы измерения сопротивления изоляции

Если свойство определено качественно, то оно рассматривается как точечное, что позволяет ограничить класс объектов – выделить людей, обладающих этим свойством, и людей, не обладающих им. В этом случае тест позволяет произвести дихотомическую классификацию.

Если свойство линейное или многомерное, то можно выявить величину свойства, характеризующую каждого человека. Тест позволяет измерить свойство количественно.

Кумулятивно-аддитивная модель теста предложена немецким психологом К. Левиным, который понимал поведение как функцию личности и ситуации. В тесте решается задача восстановить свойство личности по поведению в ситуации. Ситуацией является пункт теста, а поведением – ответ испытуемого. Таким образом, каждый индикатор свойства есть соединение поведения и ситуации. Тем самым личность является производным от совокупности индикаторов. Процедура обнаружения свойств, к которой сводится тестовое измерение, завершается выводом суммарного балла. «Сырой» балл считается оценкой, характеризующей испытуемого.

Кумулятивную гипотезу проверяют путем корреляции результатов применения различных методик. При наличии высокого положительного коэффициента линейной корреляции результатов кумулятивно-аддитивная модель принимается для обработки данных личного опросника.

Вероятностная модель теста. Критическую оценку применения кумулятивно-аддитивной модели дал швейцарский психолог Р. Мейли. Он полагал, что тесты измеряют только вероятность наличия у испытуемого того или иного психологического свойства, а не его интенсивность.[74] По мнению В.Н. Дружинина, критика, с которой выступает Р. Мейли, носит только качественный характер и не имеет математического или эмпирического обоснования.[75] С позиции обобщенной модели основное требование к тесту заключается в том, чтобы процедуры измерения и интерпретации были тождественны.

Источник

Валидность. Показатели качества психологического измерения

Стандартизация

Надежность

Показатели качества психологического измерения.

Психометрические требования к построению методик:

1) Стандартизация — это единообразие процедуры проведения и оценки выполнения теста

2) Валидность- Тест называется валидным,если он измеряет то, для измерения чего предназначен.

3) Надежность — относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых (не зависит от внешних и внутренних факторов)

Факторы, влияющие на снижение надежности: — нестабильность самого диагностируемого свойства, несовершенство диагностирующей методики (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания по предъявлению методики испытуемым и т.д.);, изменение ситуации обследования, различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т.д.);колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом — утомление и т.д.); элементы субъективности в способах оценки и интерпретации результатов (когда
ведется протоколирование ответов испытуемых, оцениваются ответы по степени
полноты, оригинальности и т.п.).

Критерии надежности – надежность самой методики (метод корреляции, метод расщепления), стабильность изучаемого признака, константность результатов в независимости от личности экспериментатора.

Стандартизация процедуры эксперимента подразумевает унификацию инструкций, бланков обследования, способов регистрации результатов, условий проведения обследования.

Обычно авторы методики в руководстве приводят точные и подробные указания по процедуре ее проведения. Формулирование таких указаний составляет основную часть стандартизации новой методики, так как только строгое их соблюдение дает

возможность сравнить между собой показатели, полученные разными испытуемыми.

Другим наиболее важным этапом в стандартизации методики является выбор критерия, по которому следует проводить сравнение результатов диагностических испытании, поскольку диагностические методики не имеют заранее определенных стандартов успешности или неудачи в их выполнении. В традиционном тестировании такая точка добывается статистическим путем — это так называемая статистическая норма

Валидность теоретическая – непротиворечивость внешнему теоретическому обоснованию. Валидность практическая – в случае, если прогноз на основе методики сбывается на 60-80% (прогностическая проверка).

Существует несколько видов валидности,обусловленных особенностями диагностических методик, а также временным статусом внешнего критерия Во многих работах называются чаще всего следующие:

1. Валидность «по содержанию» (логическая валидность).Этот прием используется в основном в тестах достижений. Обычно в тесты достижений включается не весь материал, который прошли учащиеся, а какая-то его небольшая часть (3—4 вопроса). Можно ли быть уверенным в том, что правильные ответы на эти немногие вопросы свидетельствуют об усвоении всего материала. На это и должна ответить проверка валидности по содержанию. Для этого проводится сопоставление успешности по тесту с экспертными оценками учителей (по данному материалу).

2. Валидность «по одновременности»,или текущая валидность, определяется с
помощью внешнего критерия, по которому информация собирается одновременно с экспериментами по проверяемой методике. Другими словами, собираются данные, относящиеся к настоящему времени успеваемость в период испытания, производительность в этот же период и т д. С ним коррелируют результаты успешности по тесту.

3. «Предсказывающая» валидность(другое название — «прогностическая»
валидность). Определяется также по достаточно надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Внешним критерием обычно бывает выраженная в каких-нибудь оценках способность человека к тому виду деятельности, для которой он отбирался по результатам диагностических испытаний.

4. «Ретроспективная» валидность.Она определяется на основе критерия,
отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики. Так, для проверки того, в какой мере хорошие результаты теста способностей соответствуют быстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлые экспертные заключения и т.д. у лиц с высокими и низкими на данный момент диагностическими показателями.

Читайте также:  Ардуино измерение частоты импульсов

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

Источник

Показатели качества психодиагностического исследования

Для того чтобы методика могла считаться достаточно надежным средством исследования и позволяла получать вполне достоверные результаты, которым можно доверять и на основе которых можно делать правильные практические выводы, необходимо, чтобы используемые в нем психодиагностические методы были научно обоснованными.

Объективная оценка психологических методик означает, прежде всего, определение их надежности, валидности, достоверности, репрезентативности, и стандартизации, которые являются показателями качества исследования.

Важнейшими показателями качества психодиагностических методик являются Надёжность и валидность.

Надежность-характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов. Надёжность теста проявляется в согласованности оценок у испытуемых.Соответствие методики этому показателю позволяет говорить о том, что вне зависимости от внешних условий при повторном тестировании тем же самым тестом или его эквивалентной формойиспытуемый будет получать примерно одинаковые результаты.

К числу случайных факторов можно отнести:качество измерительного инструмента, правильность понимания инструкции испытуемым, поведение экспериментатора, текущее психологическое состояние испытуемого, отношение испытуемого к тексту, характеристики окружающей среды (время суток, освещенность, температура в помещении, наличие посторонних звуков, отвлекающих внимание) и т.п. Изменение любого из этих факторов в ходе психодиагностического обследования обычно ведет к снижению степени надежности измерений.

Валидность.Термин «валидность» — евроязычного происхождения. Он буквально означает: «полноценный», «пригодный»,«соответствующий».Означаетобоснованность и адекватность исследовательских инструментовэкспериментов и измерительных операций. Для оценки способности теста измерять действительный уровень психического свойства или качества используется показательвалидность, который показывает, насколько измерительный инструментсоответствуетизмеряемому свойству, для оценки которого он предназначен. (К, примеру, тест на агрессивность должен измерять именно агрессивность, а ни что иное.).Валидностьможетбыть теоретической и практической (эмпирической), внутренней и внешней.

Валидностъвнутренняя определяет насколько полно тестовые баллы отражают исследуемые психические свойства или умения и знания. Она обозначает соответствие содержащихся в методике заданий, суждений и общей цели и замыслу методики в целом. Методика считается внутренне невалидной или недостаточно внутренне валидной тогда, когда все или часть включенных в нее вопросов, заданий или субтестов измеряют не то, что требуется от данной методики.

Валидностъ внешняя — определяет полезность тестового измерения в качестве предсказателя поведения, насколько тестовые баллы связаны с наиболее важными, ключевыми внешними признаками, относящимися к поведению испытуемого.

Валидностьтеоретическая определяется по соответствию показателей исследуемого свойства (к примеру, агрессивности) полученных с помощью данной методики показателям того же свойства(агрессивности), но полученным с помощью смежных методик (т.е. основанных на одной и той же теории).

Валидностъэмпирическая проверяется по соответствию диагностических показателей реальному поведению, наблюдаемым действиям и реакциям испытуемого. По критерию эмпирической валидности методику проверяют путем сравнения ее показателей с реальным жизненным поведением или результатами практической деятельности людей.Если, например, мы оцениваем черты характера у данного испытуемого, то говорить опрактической или эмпирической валидности можно тогда, когда мы установим, что данный человек ведет себя в жизни именно так, как предсказывает методика, т.е. в соответствии с имеющейся у него чертой характера.

При создании методики сразу оценить ее валидность трудно. Обычно валидность методики проверяется и уточняется в процессе ее достаточно длительного использования, тем более что речь идет о проверке по меньшей мере с четырех описанных выше сторон Поэтому для исследования особенно малоопытному человеку лучше всего использовать уже зарекомендовавшие себя методики.

Характеристика валидности методики включает в себя не только сведения о том, что данная методика на самом деле измеряет, но также информацию об условиях, о сфере ее применения.

Особой разновидностью валидности являетсядостоверность, которая не всегда выделяется в учебниках по психодиагностике, хотя требует специальных усилий и процедур по обеспечению(достоверность – это проверяемость, фактичность полученных данных, не допускающая двусмысленности, гарантирующая возможность получения таких жерезультатов при повторном исследовании). Для повышения достоверности используют введение дополнительных шкал — лжи, построение вопросников из вопросов различной направленности и т.д.

Репрезентативность (величина выборки стандартизации теста) – показатель, отражающий соответствие параметров выборки, на которой разрабатывался инструмент, параметрам генеральной совокупности людей, для которых данный тест будет применяться. Другими словами, если тест разрабатывался для русскоязычных молодых людей, то он должен корректно работать для любого представителя данной категории населения. Показателями репрезентативности являются: размер выборки, на которой рассчитывались нормы (по стандартам минимум 300 человек) и характеристики выборки (возраст, пол и .т.д.). Например нормы для теста в соответствии с характеристиками разбиваются на мужские и женские, а также формируются по возрастным категориям (для каждой возрастной категории свои нормы). Так тест, стандартизированный на студентах, а тем более на специалистах, будет не репрезентативным в отношении учащихся средней школы.

Стандартизация теста подразумевает единообразие процедуры проведения и оценки выполнения тестовых заданий. Для того чтобы показатели, полученные разными людьми, были сравнимы, условия тестирования должны быть одинаковыми для всех.

Источник