Валидность методики, виды валидности. Корреляционный анализ как один из приемов определения надежности и валидности

Для того чтобы психолого-педагогический эксперимент был достаточно надежным средством исследования и позволял по­лучать вполне достоверные результаты, которым можно доверять и на основе которых можно делать правильные практические вы­воды, необходимо, чтобы используемые в нем психодиагности­ческие методы были научно обоснованными. Такими считают ме­тоды, отвечающие следующим требованиям: валидность, надеж­ность, однозначность и точность.

Термин «валидность» буквально означает: «полноценный», «пригодный», «соответст­вующий». Валидность по своей сути - это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность . Проверка валидности методики называется валидизацией.

Есть несколько разновидностей валидности, каждую из ко­торых следует рассматривать и оценивать отдельно, когда стоит вопрос о выяснении валидности психодиагностической методи­ки. Валидность может быть теоретической и практической (эм­пирической), внутренней и внешней.

Валидность теоретическая определяется по соответствию по­казателей исследуемого качества, получаемых с помощью дан­ной методики, показателям, получаемым посредством других методик - таких, с показателями которых должна существовать теоретически обоснованная зависимость. Теоретическую валидность проверяют по корреляциям показателей одного и того же свойства, получаемым при помощи разных методик, опирающих­ся или исходящих из одной и той же теории.

Валидностъ эмпирическая проверяется по соответствию диа­гностических показателей реальному поведению, наблюдаемым действиям и реакциям испытуемого. Если, например, с помощью некоторой методики мы оцениваем черты характера у данного испытуемого, то применяемая методика будет считаться прак­тически или эмпирически валидной тогда, когда мы установим, что данный человек ведет себя в жизни именно так, как предска­зывает методика, т.е. в соответствии с имеющейся у него чертой характера. По критерию эмпирической валидности методику проверя­ют путем сравнения ее показателей с реальным жизненным по­ведением или результатами практической деятельности людей.

Валидностъ внутренняя означает соответствие содержащих­ся в методике заданий, субтестов, суждений и т.п. общей цели и замыслу методики в целом. Она считается внутренне невалидной или недостаточно внутренне валидной тогда, когда все или часть включенных в нее вопросов, заданий или субтестов изме­ряют не то, что требуется от данной методики.

Валидностъ внешняя - это примерно то же самое, что и эм­пирическая валидность, с той лишь разницей, что в данном слу­чае речь идет о связи между показателями методики и наиболее важными, ключевыми внешними признаками, относящимися к поведению испытуемого.


При создании методики сразу оценить ее валидность трудно. Обычно валидность методики проверяется и уточняется в про­цессе ее достаточно длительного использования, тем более что речь идет о проверке по меньшей мере с четырех описанных выше сторон.

Не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл.

Существует четыре типа внешних критериев , используемых для доказательства валидности:

1) критерии исполнения (в их число могут входить такие, как количество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации;

2) субъективные критерии (они включают различные виды ответов, которые
отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды,
предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет);

3) физиологические критерии (они используются при изучении влияния окружающей среды и других ситуационных переменных на организм и психику человека; замеряется частота пульса, давление крови, электросопротивление кожи, симптомы утомления и т.д.);

4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).

Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации.

Существует нескольковидов валидности , обусловленных особенностями диагностических методик, а также временным статусом внешнего критерия:

1) Валидность "по содержанию". Этот прием используется в основном в тестах достижений. Обычно в тесты достижений включается не весь материал, который прошли учащиеся, а какая-то его небольшая часть (3-4 вопроса). Можно ли быть уверенным в том, что правильные ответы на эти немногие вопросы свидетельствуют об усвоении всего материала. На это и должна ответить проверка валидности по содержанию. Для этого проводится сопоставление успешности по тесту с экспертными оценками учителей (по данному материалу). Валидность "по содержанию" также подходит к критериально-ориентированным тестам. Иногда этот прием называют логической валидностью .

2) Валидность "по одновременности", или текущая валидность, определяется с помощью внешнего критерия, по которому информация собирается одновременно с
экспериментами по проверяемой методике. Другими словами, собираются данные, относящиеся к настоящему времени (успеваемость в период испытания, производительность в этот же период и т д.). С ними коррелируют результаты успешности по тесту.

3) "Прогностическая" валидность . Определяется также по достаточно надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Внешним критерием обычно бывает выраженная в каких-нибудь оценках способность человека к тому виду деятельности, для которой он отбирался по результатам диагностических испытаний. Хотя этот прием наиболее соответствует задаче диагностических методик - предсказанию будущей успешности, применять его очень трудно. Точность прогноза находится в обратной зависимости от времени, заданного для такого прогнозирования. Чем больше проходит времени после измерения, тем большее количество факторов требуется учитывать при оценке прогностической значимости методики. Однако учесть все факторы, влияющие на предсказание, практически невозможно.

4) "Ретроспективная" валидность. Она определяется на основе критерия,
отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики. Так, для проверки того, в какой мере хорошие результаты теста способностей соответствуют быстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлые экспертные заключения и т.д. у лиц с высокими и низкими на данный момент диагностическими показателями.

При приведении данных о валидности разработанной методики важно точно указать, какой вид валидности имеется в виду (по содержанию, по одновременности и т.д.). Желательно также сообщать сведения о численности и особенностях индивидов, на которых проводилась валидизация. Такая информация позволяет пользующемуся методикой исследователю решить, насколько валиден этот прием для той группы, к
которой он собирается его применять. Как и в случае с надежностью, необходимо помнить, что в одной выборке методика может обладать высокой валидностью, а в другой - низкой. Поэтому если исследователь планирует использовать методику на выборке испытуемых, существенно отличающейся от той, на которой проводилась проверка валидности, ему необходимо заново провести такую проверку.

Кроме видов валидности, важно знать критерии валидности . Это основные признаки, по которым можно практически судить о том, является или не является данная методика валидной. Та­кими критериями могут стать следующие:

1. Поведенческие показатели - реакции, действия и поступ­ки испытуемого в различных жизненных ситуациях.

2. Достижения испытуемого в различных видах деятельно­сти: учебной, трудовой, творческой и других.

3. Данные, свидетельствующие о выполнении различных конт­рольных проб и заданий.

4. Данные, получаемые при помощи других методик, валидность или связь которых с проверяемой методикой считается до­стоверно установленной.

Прежде чем психодиагностические методики могут быть использованы для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффективность.

К числу основных критериев оценки психодиагностических методик относятся надежность и валидность. Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.). Ими были разработаны как формально-логический, так и математико-статистический аппарат (прежде всего, корреляционный метод и факторный анализ) обоснования степени соответствия методик отмеченным критериям.

Валидность – это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.

Валидность – то, насколько методика измеряет то, что она должна измерять по своему замыслу. Уровень валидности называется коэффициент валидности. На валидность теста влияют систематические факторы. Они привносят искажения в результаты. Эти факторы есть другие психические свойства, которые мешают проявиться в результатах теста тому свойству, на которое тест направлен.

Например, мы хотим измерить «потенциал обученности», но даём испытуемому тест с жёстким ограничением времени исполнения и отсутствием возможности вернуться и исправить допущенную ошибку. В связи с этим искомое психическое свойство оказывается смешанным с другим – «стрессоустойчивостью»: испытуемые с высокими показателями стрессоустойчивости будут лучше выполнять тест. В этом проявится эффект систематического искажения.

По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

Валидность в первом ее понимании имеет отношение к самой методике, т. е. это валидность измерительного инструмента. Такая проверка называется теоретической валидизацией. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.



В современной психометрике разработаны буквально десятки разнообразных теоретических и экспериментальных методов проверки валидности тестов. Основным элементом практически всех этих методов является так называемый «критерий». Критерий валидности – это независимый от теста, внешний по отношению к тесту источник информации об измеряемом психическом свойстве. Мы не можем судить о валидности теста до тех пор, пока не сравним его результаты с источником истинной (или хотя бы заведомо валидной) информации об измеряемом свойстве – с критерием.

На практике очень часто в качестве критерия валидности используются прагматические критерии – это очевидный признак, который испытуемый проявляет независимо от того качества, которое мы исследуем. Например, показатели эффективности той деятельности, ради прогнозирования которой предпринималось тестирование. Или данные о выполнении различных заданий, контрольных проб, а также данные, полученные с помощью других методик, валидность которых является доказанной. Методика имеет столько валидностей, сколько у неё существует критериев.



Теоретическая валидность определяется по соответствиям показателей исследуемых качеств, полученных с помощью созданной методики, показателей, полученных с помощью других методик, или с показателями, для которых уже существуют теоретические обоснования. Проверяется с помощью корреляции одного и того же свойства, измеренного различными методами.

В рамках теоретической валидности выделяют:

- Конвергентную валидность . Наиболее благоприятная ситуация складывается тогда, когда в психологии уже имеется валидная методика, проверяющая изучаемое вами качество. В этом случае высокая корреляция между показателями данных методик говорит о том, что новая методика обладает конвергентной валидностью по отношению к старой.

- Конструктную валидность . Во многих случаях для измерения данного свойства не существует апробированного теста с известной валидностью. В этом случае исследователь формирует ряд гипотез о том, как будет коррелировать новый тест с другими тестами. Эти гипотезы выдвигаются на основе теоретических представлений об измеряемом свойстве. Их подтверждение указывает на валидность выдвигаемого конструкта, т.е. конструктную валидность (или предполагаемую валидность).

Эмпирическая валидность – проверяется по соответствию показателей диагностической методики реальному поведению, наблюдаемым действиям и реакциям испытуемого, т.е. мы смотрим, насколько в реальной жизни клиент ведёт себя соответственно результатам исследования.

Внутренняя валидность – соотношение в методике содержания отдельных заданий, субтестов, суждений общей цели замысла. Методика считается внутренне не валидной тогда, когда не все части методики измеряют то качество, которое требуется согласно цели. Внутренняя валидность – это внутренняя согласованность заданий методики.

Существует и ложная валидность – она фиксирует видимость пригодности методики.

Очевидная валидность – иногда действительно исследует реально существующие факты и закономерности, но соответствует подлинной только в дидактических тестах (например, тесты учебных достижений).

Валидность, исходящая из опыта – основывается на личном чувстве психолога, что данная методика является пригодной для измерения какого-либо качества, т.к. в её основе лежит хорошая теория или она даёт хорошие результаты.

Валидность, основанная на желаниях, – основана на желании видеть свою методику валидной, хорошей, при этом не замечая очевидных, противоречащих этому фактов.

Валидность всех тестовых методик, кроме дидактических, должна измеряться с помощью психометрических методов. Сколько испытуемых должно быть для расчёта валидности? Согласно практике, их не должно быть меньше 50, но лучше всего больше 200. Часто возникает вопрос: какой должна быть величина коэффициента валидности, чтобы она считалась приемлемой? Достаточно того, чтобы коэффициент валидности был статистически значимым. Низким признаётся коэффициент валидности порядка 0,20–0,30, средним – 0,30–0,50 и высоким – свыше 0,60.

21. Определения валидности. Важнейшие составляющие валидности

Валидность (англ. valid – «действительный, пригодный, имеющий силу») – комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним.

В психодиагностике валидность – обязательная и наиболее важная часть сведений о методике, включающая данные о степени согласованности результатов теста с другими сведениями об исследуемой личности, полученными из различных источников (теоретические ожидания, наблюдение, экспертные оценки, результаты других методик, достоверность которых установлена и т. д.), связь изучаемой области поведения или особенности личности с определенными психологическими конструктами.

Важнейшая составляющая валидности – определение области изучаемых свойств – имеет принципиальное теоретическое и практическое значение при выборе методики исследования и интерпретации ее данных.

В большей степени достоверность данных теста определяется набором измеряемых свойств. Различные категории этих сведений и способы их получения образуют типы валидности .

Диагностическая (конкурентная) валидность отражает способность теста дифференцировать испытуемых по изучаемому признаку. Сведения, характеризующие степени обоснованности и статистической надежности развития исследуемой психологической особенности в будущем, составляют прогностическую валидность методики.

Два этих типа валидности нередко объединяют в понятие эмпирической валидности. Здесь подчеркивается общность подхода к их определению, который осуществляется путем статистического коррелирования баллов (оценок) по тесту и показателей по внешнему параметру, избранному в качестве валидизации критерия (см. валидности критериальная). Критерий валидности выступает в качестве меры, показателя исследуемых психологических особенностей.

Подтверждение гипотез свидетельствует о теоретической обоснованности методики, т. е. о степени ее конструктной валидности. Этот тип валидности является наиболее сложным и комплексным.

Валидность содержательная (внутренняя, логическая) – комплекс сведений о репрезентативности заданий теста по отношению к измеряемым свойствам и особенностям.

Наряду с перечисленными основными типами валид-ности (содержательной, критериальной и конструктной) на практике выделяют факторную, перекрестную (конвергентную) и дискриминантную валидности.

Из книги Законы выдающихся людей автора Калугин Роман

5. ВАЖНЕЙШИЕ НАВЫКИ

Из книги Психодиагностика автора Лучинин Алексей Сергеевич

19. Стандартизация процедуры обследования. Взаимосвязь надежности и валидности. Надежность параллельных форм Важнейшим средством повышения надежности психодиагностических методик является стандартизация процедуры обследования. При строгой регламентации процедуры

Из книги Ложь [Три способа выявления. Как читать мысли лжеца. Как обмануть детектор лжи] автора Фрай Олдерт

22. Основные типы валидности. Понятие «комплекса валидности». Обоснование необходимости периодической валидизации психодиагностических методик Классификация типов валидности в достаточной мере условна, так как нередко для различных критериев валидности применяются

Из книги Психология развития [Методы исследования] автора Миллер Скотт

23. Конструктная валидность. Конвергентная и дискриминантная валидности Конструктная валидность – один из основных типов валидности, отражающий степень репрезентации исследуемого психологического конструкта в результатах теста. В качестве конструкта могут выступать

Из книги Эмоциональный интеллект автора Гоулман Дэниел

27. Синтетическая и инкрементная валидности Синтетическая валидность. Более эффективным с точки зрения практической направленности теста (его адекватности как средства диагноза и прогноза реальной деятельности) является соотнесение результатов с критериальными

Из книги Детекция лжи и обмана автора Фрай Олдерт

28. Текущая и эмпирическая валидности Текущая валидность (диагностическая, конкурентная) – характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике. В более узком

Из книги Ты можешь всё! автора Правдина Наталия Борисовна

31. Очевидная, экологическая, иллюзорная (ложная) валидности Очевидная валидность – представление о тесте, сфере его применения, результативности и прогностической ценности, которое возникает у испытуемого или другого лица, не располагающего специальными сведениями о

Из книги Через испытания – к новой жизни. Причины наших заболеваний автора Дальке Рудигер

32. Критерий валидности. Основное психометрическое неравенство. Типы критериев валидности Соответствие теста измеряемому психическому свойству называется валидностью теста. На валидность теста негативно влияют случайные факторы, поэтому в психометрике принято

Из книги Мир на взводе: пружина разжимается автора Лукьянов Федор

33. Математическое выражение критерия валидности (коэффициент Гилфорда). Основные схемы валидизации психодиагностических Меру совпадения (корреляции) между крайними группами по тесту и по критерию оценивают с помощью самого простого Фи-коэффициента Гилфорда: При

Из книги автора

Глава 5. Оценка валидности утверждений Оценка валидности утверждений (иногда обозначаемая аббревиатурой ОВУ) на сегодняшний день является наиболее популярной методикой для оценки правдоподобности утверждений, представленных в устной форме. Эта методика была

Из книги автора

Причины искажения валидности Как мы увидели, конечной целью планирования исследования всегда является достижение валидных выводов об изучаемом феномене. Неудачный исследовательский план ставит валидность под сомнение, не устраняя спорных моментов и ограничивая

Из книги автора

«Важнейшие окна» Из всех видов нам, людям, требуется больше всего времени для полного развития головного мозга. Несмотря на то что в детстве все отделы мозга развиваются с разной скоростью, начало полового созревания знаменует один из наиболее радикальных периодов

Из книги автора

Глава 5. Оценка валидности утверждений Оценка валидности утверждений (иногда обозначаемая аббревиатурой ОВУ) на сегодняшний день является наиболее популярной методикой для оценки правдоподобности утверждений, представ-, ленных в устной форме. Эта методика была

Из книги автора

Из книги автора

4. Год и его важнейшие точки Внимательно рассмотрев год, мы поймем, что он представляет собой круг. В нем есть фиксированные, постоянные точки. Годовой круг разделен на четыре части четырьмя фиксированными точками – двумя точками равноденствия и двумя точками

Ключевым критерием оценки качества методик является валидность. Вопрос о валидности методики решается лишь после того, как установлена достаточная ее надежность, поскольку ненадежная методика не может быть валидной. Но самая надежная методика без знания ее валидности является практически бесполезной. Следует заметить, что вопрос о валидности до последнего времени представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: «Валидность теста - понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает».


Валидность по своей сути - это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность. По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.


Валидность в первом ее понимании имеет отношение к самой методике, т. е. это валидность измерительного инструмента. Такая проверка называется теоретической валидизацией. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация. Обобщая, можно сказать следующее:


При теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация;

При прагматической валидизации суть предмета измерения (психологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что нечто, измеряемое методикой, имеет связь с определенными областями практики.

Определение теоретической валидности

Провести теоретическую валидизацию, в отличие от прагматической, порой оказывается значительно труднее. Не вдаваясь пока в конкретные детали, остановимся в общих чертах на том, как проверяется прагматическая валидность: выбирается какой-нибудь независимый от методики внешний критерий, определяющий успех в той или иной деятельности (учебной, профессиональной и т. п.), и с ним сравниваются результаты диагностической методики. Если связь между ними признается удовлетворительной, то делается вывод о практической значимости, эффективности, действенности диагностической методики.


Для определения теоретической валидности найти какой-либо независимый критерий, лежащий вне методики, гораздо труднее. Поэтому на ранних стадиях развития тестологии, когда концепция валидности только складывалась, бытовало интуитивное представление о том, что тест измеряет:


1) методика называлась валидной, так как то, что она измеряет, просто очевидно;

2) доказательство валидности основывалось на уверенности исследователя в том, что его метод позволяет понять испытуемого;

3) методика рассматривалась как валидная (т. е. принималось утверждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, очень хорошая.


Принятие на веру голословных утверждений о валидности методики не могло продолжаться длительное время. Первые проявления действительно научной критики развенчали такой подход: начались поиски научно обоснованных доказательств. Таким образом, провести теоретическую валидизацию методики - это доказать, что методика измеряет именно то свойство, качество, которое она по замыслу исследователя должна измерять. Так, например, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие детей, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то другие особенности (например, личность, характер и т. п.). Таким образом, для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, посредством которых эти психологические явления пытаются познать. Это показывает, насколько замысел автора и результаты методики совпадают.


Не столь сложно провести теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с доказанной валидностью. Наличие корреляции между новой и аналогичной уже проверенной методикой указывает на то, что разработанная методика измеряет то же психологическое качество, что и эталонная. И если новый метод одновременно оказывается более компактным и экономичным в проведении и обработке результатов, то психодиагносты получают возможность использовать новый инструмент вместо старого. Но теоретическая валидность доказывается не только путем сопоставления с родственными показателями, а также и с теми, где, исходя из гипотезы, значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность) и отсутствие этой связи с методиками, имеющими другое теоретическое основание (дискриминантная валидность).


Гораздо труднее провести теоретическую валидизацию методики тогда, когда такой путь проверки невозможен. Чаще всего именно с такой ситуацией сталкивается исследователь. В таких обстоятельствах только постепенное накопление разнообразной информации о изучаемом свойстве, анализ теоретических предпосылок и экспериментальных данных, значительный опыт работы с методикой позволяет раскрыть ее психологический смысл.


Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами деятельности. Но здесь особенно важно, чтобы методика была тщательно проработана в теоретическом плане, т. е. чтобы имелась прочная, обоснованная научная база. Тогда при сопоставлении методики с взятым из повседневной практики внешним критерием, соответствующим тому, что она измеряет, может быть получена информация, подкрепляющая теоретические представления о ее сущности.


Важно помнить, что если доказана теоретическая валидность, то интерпретация полученных показателей становится более ясной и однозначной, а название методики соответствует сфере ее применения. Что касается прагматической валидизации, то она подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности, поскольку диагностической методикой имеет смысл пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных жизненных ситуациях, в определенных видах деятельности. Ей придают большое значение особенно там где встает вопрос отбора.


Если опять обратиться к истории развития тестологии, то можно выделить такой период (20-30-е гг. XX в.), когда научное содержание тестов и их теоретический багаж интересовали в меньшей степени. Важно было, чтобы тест работал, помогал быстро отбирать наиболее подготовленных людей. Эмпирический критерий оценки тестовых заданий считался единственно верным ориентиром в решении научных и прикладных задач. Использование диагностических методик с чисто эмпирическим обоснованием, без отчетливой теоретической базы нередко приводило к псевдонаучным выводам, к неоправданным практическим рекомендациям. Нельзя было точно назвать те особенности, качества, которые тесты выявляли. По существу они являлись слепыми пробами.


Такой подход к проблеме валидности тестов был характерен вплоть до начала 50-х гг. XX в. не только в США, но и в других странах. Теоретическая слабость эмпирических методов валидизации не могла не вызвать критики со стороны тех ученых, которые в разработке тестов призывали опираться не только на голую эмпирику и практику, но и на теоретическую концепцию. Практика без теории, как известно, слепа, а теория без практики мертва. В настоящее время теоретико-практическая оценка валидности методик воспринимается как наиболее продуктивная.

Определение прагматической валидности

Для проведения прагматической валидизации методики, т. е. для оценки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий - показатель проявления изучаемого свойства в повседневной жизни. Таким критерием может быть и успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), и производственные достижения (для методик профессиональной направленности), и эффективность реальной деятельности - рисование, моделирование и т. д. (для тестов специальных способностей), субъективные оценки (для тестов личности).


Американские исследователи Д. Тиффин и Е. Мак-Кормик, проведя анализ используемых для доказательства валидности внешних критериев, выделяют четыре их типа:


1) критерии исполнения (в их число могут входить такие, как количество выполненной работы, успеваемость, время, затраченное на обучение, темп роста

квалификации и т. п.);

2) субъективные критерии (они включают различные виды ответов, которые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет);

3) физиологические критерии (они используются при изучении влияния окружающей среды и других ситуационных переменных на организм и психику человека; замеряется частота пульса, давление крови, электросопротивление кожи, симптомы утомления И т. д.);

4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).


Внешний критерий должен отвечать трем основным требованиям:


Он должен быть релевантным;

Свободным от помех;

Надежным.


Под релевантностью имеется в виду смысловое соответствие диагностического инструмента независимому жизненно важному критерию. Другими словами, должна быть уверенность в том, что в критерии задействованы именно те особенности индивидуальной психики, которые измеряются и диагностической методикой. Внешний критерий и диагностическая методика должны находиться между собой во внутреннем смысловом соответствии, быть качественно однородными по психологической сущности. Если, например, тест измеряет индивидуальные особенности мышления, умение выполнять логические действия с определенными объектами, понятиями, то и в критерии нужно искать проявление именно этих умений. Это в равной степени относится и к профессиональной деятельности. Она имеет не одну, а несколько целей, задач, каждая из которых специфична и предъявляет свои условия к выполнению. Из этого вытекает существование нескольких критериев выполнения профессиональной деятельности. Поэтому не следует проводить сопоставление успешности по диагностическим методикам с производственной эффективностью в целом. Необходимо найти такой критерий, который по характеру выполняемых операций соотносим с методикой.


Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполезным. Оно не позволяет прийти к каким-либо выводам, которые могли бы дать оценку валидности методики. Требования свободы от помех вызываются тем, что, например, учебная или производственная успешность зависит от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут привнести помехи, «загрязнить» применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях. Можно использовать и другой метод. Он состоит в корректировке влияния помех. Эта корректировка носит обычно статистический характер. Так, например, производительность следует брать не по абсолютным значениям, а в отношении к средней производительности рабочих, работающих в аналогичных условиях.


Когда говорят, что критерий должен иметь статистически достоверную надежность, это означает, что он должен отражать постоянство и устойчивость исследуемой функции. Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации. В западной тестологии много методик дисквалифицировано только потому, что не удалось найти подходящего критерия для их проверки. Например, у большей части анкет данные по их валидности сомнительны, так как трудно найти адекватный внешний критерий, отвечающий тому, что они измеряют.

Оценка валидности методик

Оценка валидности методик может носить количественный и качественный характер. Для вычисления количественного показателя - коэффициента валидности - сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).


Сколько испытуемых необходимо для расчета валидности? Практика показала, что их не должно быть меньше 50, однако лучше всего более 200. Часто возникает вопрос, какой должна быть величина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валидности был статистически значим. Низким признается коэффициент валидности порядка 0,20-0,30, средним - 0,30-0,50 и высоким - свыше 0,60. Но, как подчеркивают А. Анастази, К. М. Гуревич и др., не всегда для вычисления коэффициента валидности правомерно использовать линейную корреляцию.


Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорционален успеху в выполнении диагностической пробы. Позиция зарубежных тестологов, особенно тех, кто занимается профпригодностью и профотбором, чаще всего сводится к безоговорочному признанию того, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в деятельности нужно обладать свойством на уровне 40 % решения теста. Дальнейший успех в тесте уже не имеет никакого значения для профессии. Наглядный пример из монографии К. М. Гуревича: почтальон должен уметь читать, но читает ли он с обычной скоростью или с очень большой скоростью - это уже не имеет профессионального значения. При таком соотношении показателей методики и внешнего критерия наиболее адекватным способом установления валидности может быть критерий различий.


Возможен и другой случай: более высокий уровень свойства, чем это требует профессия, служит помехой профессиональному успеху. Так, еще на заре XX в. американский исследователь Ф. Тейлор нашел, что наиболее развитые работницы производства имеют невысокую производительность труда. То есть высокий уровень их умственного развития мешал им высокопроизводительно трудиться. В этом случае для вычисления коэффициента валидности более подошел бы дисперсионный анализ или вычисление корреляционных отношений.


Как показал опыт работы зарубежных тестологов, ни одна статистическая процедура не в состоянии полностью отразить многообразие индивидуальных оценок. Поэтому часто для доказательства валидности методик используют другую модель - клинические оценки. Это не что иное, как качественное описание сущности изучаемого свойства. В этом случае речь идет об использовании приемов, не опирающихся на статистическую обработку.

Прежде чем психодиагностические методики могут быть использованы для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффективность. К числу основных критериев оценки психодиагностических методик относятся надежность и валидность. Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк, Е. Хаген и др.). Ими были разработаны формально-логический и математико-статистический аппарат (прежде всего корреляционный метод и фактический анализ) обоснования степени соответствия методик отмеченным критериям.

В традиционной тестологии термин «надёжность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых.

Надёжность методики - это критерий, который говорит о точности психологических измерений, то есть позволяет судить о том, насколько внушают доверие полученные результаты.

Это согласованность результатов тестирования испытуемых в разные моменты времени, при первичном и вторичном тестировании и с использованием разных по эквивалентности, по содержанию заданий. Надежность характеризует тесты свойств, но не состояний. Свойства:

    1. Воспроизводимость рез-тов исследования.
    2. Точность измерения.
    3. Устойчивость результатов.

Степень надёжности методик зависит от многих причин. Среди негативных факторов наиболее часто называются следующие:

    1. нестабильность диагностируемого свойства;
    2. несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечётко сформулированы указания по предъявлению методики испытуемым и т.д.);
    3. меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещённость помещения, наличие или отсутствие посторонних шумов и т.д.);
    4. различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т.д.);
    5. колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом - утомление и т.д.);
    6. элементы субъективности в способах оценки и интерпретации результатов (когда ведётся протоколирование ответов испытуемых, оценивают ответы по степени полноты, оригинальности и т.д.).

Одним из важнейших средств повышения надежности методики является единообразие процедуры обследования, его строгая регламентация: одинаковая обстановка, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми и так далее.

На характеристику надёжности методик большое влияние оказывает исследуемая выборка. Она может, как снижать, так и завышать этот показатель, например, надежность, может быть искусственно завышена, если в выборке небольшой разброс результатов, т.е. если результаты по своим значениям близки друг к другу. Поэтому в руководстве обычно делается описание выборки, на котором определялась надёжность методики.

В настоящее время надежность все чаще определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п.

Разновидностей надёжности методик так же много, как и условий, влияющих на результаты диагностических испытаний. Так как все виды надёжности отражают степень согласованности двух независимо полученных рядов показателей, то математико-статистический приём, с помощью которого устанавливается надёжность методики, - это корреляции (по Пирсону или Спирмену). Надёжность тем выше, чем больше полученный коэффициент корреляции приближается к единице, и наоборот.

К.М. Гуревич предложил толковать надёжность как:

    1. надёжность самого измерительного инструмента (коэффициент надежности);
    2. стабильность изучаемого признака (коэффициент стабильности);
    3. константность, т.е. относительную независимость результатов от Личности экспериментатора (коэффициент константности).

Показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надёжности; показатель, характеризующий стабильность измеряемого свойства, - коэффициентом стабильности; а показатель оценки влияния Личности экспериментатора - коэффициентом константности. Именно в таком порядке рекомендуется осуществлять проверку методики: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого при необходимости заняться критерием константности. (Надёжность: ретестовая, параллельных форм, частей тела, по внутренней согласованности, факторно-дисперсионая).

Определение надежности измерительного инструмента. От того как составлена методика, насколько правильно подобраны задания, насколько она однородна зависит точность, объективность измерения.

Для проверки надежности измерительного инструмента, говорящего о его однородности (гомогенности) используют метод расщепления. Задания делят на четные и нечетные (необходимо выполнение всех заданий), а затем результаты коррелируются между собой. Если методика однородна, то большой разницы в успешности по этим половинам не будет, коэффициент будет высоким. Можно сравнивать по частям, но лучше по четным и нечетным, т.к. этот способ не зависит от тренировки, утомления и т.д.

Методика надежна, если коэффициент не ниже 0,75 - 0,85, лучше 0,90 и выше.

Определение стабильности изучаемого признака. Также необходимо установить насколько устойчив, стабилен признак, который исследователь намерен измерять. Признак со временем может меняться, но колебания его не должны иметь непредсказуемый характер.

Для проверки используется прием, который называется тест-ретест. Он заключается в повторном обследовании испытуемых с помощью этой же методики. О стабильности судят по коэффициенту корреляции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или не сохранении каждым испытуемым своего порядкового номера в выборке.

На степень устойчивости влияет разнообразие фактора. Необходимо соблюдать единообразие процедуры обследования.

При определении стабильности признака большое значение имеет промежуток времени между 1 и 2 обследованиями. Чем короче этот промежуток, тем больше шансов, что этот признак сохраняет уровень первого испытания. Целесообразно проводить повторное тестирование через короткий срок после тестирования. Экспериментатор сам устанавливает этот срок, но чаще в психологической литературе указывают на интервал от нескольких месяцев (но не более полугода). Вопрос о стабильности измеряемого свойства решается не всегда единообразно. Решение зависит от сущности диагностируемого признака.

Если измеряемое свойство уже сформировано, то коэффициент должен быть не ниже 0,80.

Определение константности , т.е. относительная независимость результатов от Личности экспериментатора. Так как методика разрабатывается для дальнейшего использования ее другими психодиагностами, необходимо определить в какой мере ее результаты поддаются влиянию личности экспериментатора. Коэффициент константности определяется путем корреляции результатов двух опытов, проводимых на одной и той же выборке, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.

Вопрос о валидности решается после того, как установлена надежность, так как ненадежная методика не может быть валидной.

Валидность теста - понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает (А. Анастази). Валидность по своей сути - это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова её действенность, эффективность, практическая полезность.

По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

Валидность - соответствие конкретного исследования принятым стандартам (безупречному эксперименту).

Валидность в первом ее понимании имеет отношение к самой методике, т.е. это валидность измерительного инструмента. Такая про-верка называется теоретической валидизацией. Валидность во втором ее понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.

При теоретической валидизации исследователя интересует само свойство, измеряемое методикой.

Так как для определения теоретической валидизации тяжело найти какой-нибудь независимый критерий, лежащий вне методики, и поэтому раньше принимались на веру голословные утверждения о валидности этой методики. Так как теоретическая валидизация направлена на доказательство того, что методика измеряет именно свойство, которое она должна измерить. Для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, по средствам которой эти психологические явления пытаются познать. Она показывает, что замысел автора и результаты методики совпадают.

Не столь сложно осуществить теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с известной, доказанной валидностью. Наличие корреляции между новой и аналогичной старой методиками указывает на то, что разработанная методика измеряет то же психологическое качество, что и эталонная.

Для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность), а с другой - отсутствие этой связи с методиками, имеющими другое теоретической основание (дискриминантная валидность).

Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами Деятельности. Важно чтобы методика была проработана в теоретическом плане.

Прагматическая валидизация

Проверяется практическая эффективность, значимость, полезность методики, так как методикой можно пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных видах Деятельности.

Для проверки прагматической валидности используется независимый внешний критерий - показатель проявления изучаемого свойства в повседневной жизни. В качестве такого критерия могут выступать успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), производственные достижения (для методик профессиональной направленности), эффективность реальной Деятельности - рисования, моделирования и так далее (для тестов специальных способностей), субъективные оценки (для тестов Личности).

Американские исследователи Тиффин и Маккормик выделили 4-е типа внешнего критерия:

    1. Критерий исполнения (количество выполняемой работы, успеваемость, время, темп роста квалификации).
    2. Субъективные критерии (включают различные виды ответов, которые отражают отношение человека к чему-либо, его мнения, взгляды).
    3. Физиологический критерий (используется при изучении влияния внешней среды, влияющей на организм и психику).
    4. Критерий случайности (например, когда цель касается проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).

Внешний критерий должен обладать 3 основными требованиями:

    1. Должен быть релевантным, то есть должна быть уверенность, что в критерии задействованы именно те особенности индивидуальной психики, которые измеряет диагностическая методика. Внешний критерий и диагностическая модель должны находиться во внутреннем смысловом соответствии.
    2. Должен быть свободным от помех (контаминации). Следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях.
    3. Должен быть надежен. Постоянство и устойчивость исследуемой функции.

Оценка валидности методики может носить количественный и качественный характер.

Для вычисления количественного показателя (коэффициента валидности) сопоставляются результаты, полученные при применении диагностических методик, с данными тех же лиц, полученные по внешнему критерию. Используются разные виды линейной корреляции (по Спирмену, по Пирсену).

Качественное описание сущности измеряемого свойства. Здесь не используют статистическую обработку.

Существуют несколько видов валидности , обусловленных особенностями диагностической методики, а также временным статусом внешнего критерия:

    1. Валидность «по содержанию» (используется в тестах достижения): 3 - 4 вопроса из большой темы могут показать истинные знания ученика. Для этого результаты диагностики сравнивают с экспертными оценками учителя.
    2. Валидность «по одновременности» или текущая валидность - собираются данные, относящиеся к настоящему времени: успеваемость, производительность и т.п. С ними коррелируют результаты успешности по тесту.
    3. «Предсказывающая» валидность («прогностическая»). Определяется по надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Точность прогноза находится в обратной зависимости от времени, заданного для такого прогнозирования.
    4. «Ретроспективная» валидность. Определяется на основе критерия, отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики.

Последние материалы раздела:

Длины световых волн. Длина волны. Красный цвет – нижняя граница видимого спектра Видимое излучение диапазон длин волн в метрах
Длины световых волн. Длина волны. Красный цвет – нижняя граница видимого спектра Видимое излучение диапазон длин волн в метрах

Соответствует какое-либо монохроматическое излучение . Такие оттенки, как розовый , бежевый или пурпурный образуются только в результате смешения...

Николай Некрасов — Дедушка: Стих
Николай Некрасов — Дедушка: Стих

Николай Алексеевич НекрасовГод написания: 1870Жанр произведения: поэмаГлавные герои: мальчик Саша и его дед-декабрист Очень коротко основную...

Практические и графические работы по черчению б) Простые разрезы
Практические и графические работы по черчению б) Простые разрезы

Рис. 99. Задания к графической работе № 4 3) Есть ли отверстия в детали? Если есть, какую геометрическую форму отверстие имеет? 4) Найдите на...