Автор-разработчик: канд. психол. н., доц. каф. прикладной психологии Е.Л. Луценко
Лекция по психодиагностике №1
Вступление в курс. Предмет и задачи психодиагностики. |
---|
Анастази А., Урбина С. Психологическое тестирование. - СПб.: Питер, 2003.
Бурлачук Л.Ф. Психодиагностика: Учебник для вузов. - СПб.: Питер, 2006.
Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. - СПб.: Питер, 1999.
КлайнП. Справочное руководство по конструированию тестов. – Киев: ПАН Лтд., 1994.
Кулагин Б.В. Основы профессиональной психодиагностики. - Л.: Медицина, 1984.
Общая психодиагностика / Под ред. А.А. Бодалева, В.В. Столина. СПб.: Изд-во «Речь», 2004.
Психологическая диагностика: Учебник для вузов / Под ред. М.К. Акимовой, К.М.Гуревича. – СПб.: Питер, 2008.
к.психол.н. Е.Л. Луценко ©
Лекция по психодиагностике №2 История мировой и отечественной психодиагностики. |
---|
В 20-х годах стало ясно, что большинство созданных тестов интеллекта, являются тестами способности к обучению. Так появилось понятие тестов способностей. Тесты специальных (профессиональных) способностей разрабатывались для использования в профориентации.
Развитие психодиагностики с самого начала теснейшим образом связано с разработкой и совершенствованием математико-статистического аппарата, и, прежде всего, корреляционного и факторного анализа.
Появление факторного анализа обязано разработке комплексных батарей способностей (после 1945).
Совершенствование школьных экзаменов привело к появлению тестов достижений - Е.Л. Торндайк - 1904 С 1923 появились батареи способностей и достижений - первая Стэнфордская батарея способностей SAT (Sholastic Assesment Test- Келли, Рач, Тёрмен) - по ее результатам и сейчас принимают студентов в Принстон, Гарвард, Йель, и батарея достижений ACT , по ней принимают в менее престижные учебные заведения. К 30-м годам в ведущих странах мира было признано, что описательные экзамены по сравнению с тестами не только отнимают больше времени на анализ, но и показывают менее надежные результаты.
В 50-х годах появились первые тесты креативности - тесты для измерения творческих способностей личности. К их разработке побудило открытие несоответствия между успешностью выполнения традиционных тестов интеллекта и творческими способностями. Подходы к измерению способности продуцировать новые идеи, находить нестандартные способы решения проблемных задач были предложены Л.Терстоуном, Дж. Гилфорду (1954) и Е. Торранс (1962). Позже новые тесты креативности были предложены Джонсоном и Ф. Вильямсом (1980). Развитие выявления и измерения креативности постепенно становится одним из основных направлений зарубежной психодиагностики. Его особенности заключаются в том, что креативность включает не только когнитивные, но и личностные характеристики психики человека.
Развитие личностного (не интеллектуальное) тестирование шло следующим путем.
Одним из первых тестов личности был крепелиновський вариант теста свободных ассоциаций, применен им для обследования больных с психическими отклонениями (1892). Стоит упомянуть также разработку Ф. Гальтоном, К. Пирсоном и Дж. Кеттеллом стандартизированных анкет и шкал ранжирования, которые в дальнейшем стали использоваться для создания личностных тестов. Как исходный вариант личностного опросника можно назвать листок личностных данных Р.С. Вудвортса, разработанный им в годы первой мировой войны для выявления лиц, страдающих неврозами и непригодных к военной службе.
Другой подход к измерению личностных характеристик представлен в объективных тестах личности - тестах действия, и их разновидности - ситуационных тестах (конец 20-х - начало 30-х годов ХХ века).
Третий подход в изучении личности представляют проективные методики. Тесты свободных ассоциаций и завершение предложений - одни из самых ранних проективных методик.
В 40-50 г. в мировой психодиагностике сформировались основные диагностические подходы, была в той или иной степени завершена разработка всех наиболее известных тестов (Шкалы измерения интеллекта Векслера, Тест Роршаха, Тематической апперцепции Тест, Опросник «Шестнадцать факторов личности», MMPI). В создаваемых в последующие годы за рубежом тестах нет принципиально новых идей и решений. Период временного «затишья» в психодиагностике прекращается в 60-е гг. с возвращением исследователей к анализу ситуаций, в которых осуществляется поведение (В. Мишель, 1968 и др.).
История ПД в СССР и Украине
В развитии психодиагностики в СССР можно выделить два периода. Первый следует отнести к началу 20-х - середины 30-х гг. Это годы массового применения тестов в народном образовании, профотборе и профориентации. Для тогдашнего уровня развития психодиагностики в СССР характерно широкое заимствование иностранных тестов. Создавались и собственные методики.
В эти годы в области психодиагностики плодотворно работали М.С. Бершнтейн, М.Я. Басов, П.П. Блонский, С. Геллерштейн, Н.Д. Левитов, Г.И. Россолимо, Ф.Е. Рыбаков, А.М. Мандырка , М.Ю. Сыркин, И.П. Шпильрейн, А.М. Шуберт и др.
Книга Григория Ивановича Россолимо «Психологические профили» (издана еще в дореволюционной России в 1908) содержала новаторский для того времени подход, а именно, в ней был предложен тест, состоящий из 11 субтестов для диагностики структуры личности и общих способностей. Была разработана графическая форма отражения результатов. «Профили» получили высокую оценку научной общественности, были переведены на несколько языков.
Не менее выдающийся психиатр и психолог Ф.Е. Рыбаков разработал тест для определения уровня развития пространственного воображения. «Фигуры Рыбакова» стали быстро известны в мире, по их подобию создавались многочисленные тесты, используемые и в настоящее время, например, тест интеллекта Р.Мейли.
На Украине публикуют свои новаторские исследования А.М. Мандырка и М.Ю. Сыркин. Основное внимание в их работах уделяется теоретическим аспектам прикладной статистики в психологическом тестировании (Мандырка , 1931), а также критериям точности тестовых испытаний и сопряженности получаемых данных с социальными факторами (Сыркин, 1929).
Следует отметить вклад Л.С. Выготского, а именно его работу «Диагностика развития и педагогическая клиника трудного детства» (1936) В ней было разработано учение о психологическом диагнозе, его особенностях и этапах.
Постановлением ЦК ВКП (б) в оригинале: «О педологических извращениях в системе наркомпроссов» (1936), был наложен полный запрет на применение бессмысленных (как там отмечалось) тестов. Как пишет по этому поводу Л.Ф.Бурлачук (цитирование, с. 87-88):
«Как видно, один из самых тяжелых упреков в адрес тестов был в том, что с их помощью все большее и большее количество детей относили к умственно отсталых. Как же реально было дело с интеллектуальным развитием подрастающего поколения в то время? В диагностических обследованиях, проведенных в 1920-е годы, были получены данные о существовании национальных и социальных различий в уровне интеллектуального развития детей. Широко известными стали исследования интеллекта детей в Узбекистане. Было выяснено, что уровень интеллекта узбекских детей, по сравнению с русскими и украинскими учениками, значительно ниже. Причины интеллектуального отставания этих детей виделись в тяжелых социально-бытовых условиях, особенностях физиологического развития. Не только среднеазиатские дети, но и дети славянского пролетариата и крестьян оказались имеющими низкий интеллект. Соответствующие обследования конца 1920-х годов показали, что IQ советских учащихся в среднем на 7% ниже, чем американских школьников. При этом IQ детей служащих был более высоким, чем у детей рабочих, а наиболее низкий - у детей крестьян. Социальные различия в интеллекте между детьми рабочих и служащих носили устойчивый характер. Если к этому добавить исследования взрослых, где у выходцев из рабоче-крестьянской среды также отмечался невысокий IQ, и данные о том, что одаренная интеллигенция оказывалась родом из дворянства, духовенства и купечества, тогда несложно вообразить себе идеологическую реакцию класса-победителя на такие исследования ».
«Выступая на I Общесоюзном Педологическом съезде (1927), К.Н. Корнилов говорил: «Позвольте вас спросить, для чего используют тесты? Если все это проводится на Западе, то другое дело все же советская школа, потому что в нашей жизни мы совсем не ценим фактора интеллекта так высоко, как на Западе. Интеллектуально одаренный человек у нас не значит: пригодный к жизни».
«Психологические тесты становятся ненужными, более того, вредными, когда обществом (или от его имени) найдены какие-то отличные от научных критерии, определяющие, например, способность его членов к той или иной деятельности. В качестве таких критериев может выступать принадлежность к определенному классу, партии, личностная преданность лидеру, конфронтация с властью (или ее отсутствие) в прошлом и т.д. »(конец цитирования).
В 30-е годы многие психологи, занимавшиеся психодиагностикой, бесследно исчезли, многие были уничтожены: трагическим примером может служить судьба И.Н. Шпильрейна, расстрелянного в 1937 году. Его исследования были посвящены изучению профессий, научной организации труда, разработке методик отбора для Красной армии. В те времена тесты не иначе как с эпитетом «буржуазные» не назывались. Потребовалось около 40 лет, чтобы психодиагностические исследования были восстановлены в своих правах.
Качественный, клинический, индивидуальный подход к анализу индивидуальных различий людей или обязательно наличие психофизиологических коррелятов для доказательства этих различий, приводили к тому, что психология отрывалась от практики, где в условиях лимита времени, без специальных лабораторных условий, этот сложный анализ был невозможен.
В период, предшествовавший «разрешению на тесты» следует особо отметить вклад Ленинградской психологической школы. Благодаря инициативе лидера ленинградских психологов Ананьева, тесты начинают играть активную роль в психологических исследованиях. Под руководством Ананьева был начат и осуществлен грандиозный проект комплексного изучения человека, который нуждался в привлечении тестов интеллекта, личностных опросников и многих других малоизвестных тогдашним психологам психодиагностических инструментов. Следует отметить также вклад Бехтеревского Ленинградского психоневрологического института, где также были адаптированы известные зарубежные методики и проведены с их помощью серьезные исследования.
В конце 60-х гг. (время хрущевской оттепели) происходит новая «легитимизация» тестов. Начинается второй период развития отечественной психодиагностики, который отмечен бурными дискуссиями о месте ее в системе психологического знания, принципах и методах, об отношении к зарубежному опыту. На этом этапе были изданы отечественные монографии и учебники по психодиагностике: К.М. Гуревич (1969, 1970, 1980), В.М. Блейхер и Л.Ф. Бурлачук (1978), Л.Ф.Бурлачук (1979), А.Т. Соколова (1980), М.М. Кабанов, А.Е. Личко и В.М. Смирнов (1983), Б.В.Кулагин (1984), В.М. Мельников и Л.Т. Ямпольский (1985), А.А. Бодалев и В.В. Столин (1987) и другие.
В 80-90-х годах психодиагностика продолжает развиваться - переводятся первые книги по конструированию тестов (А. Анатази, П. Клайн), появляются новые учебники: А. Г. Шмелев, Л.Ф. Бурлачук, К.М. Гуревич , разрабатываются оригинальные методики: А.Е. Личко, В.М. Мельников, Л.Т. Ямпольский, М.К. Акимова, В.В. Столин, А. Кроник и др. В Санкт-Петербурге открыта организация ИМАТОН, которая занимается профессиональным издательством тестов (вместо кустарного), проведением курсов и конференций по психодиагностике, аналогичные организации открываются в Киеве, Ярославле, Москве и других городах СНГ.
И напоследок.
Справедливости ради стоит отметить, что гонения в адрес психологической диагностики и тестов возникали не только в бывшем СССР (где их поддерживали своей критикой такие известные психологи как К.Н. Корнилов, М. Ярошевский, А.В. Петровский, А.Н. Леонтьев, А.Р. Лурия, Б.М. Теплов, В.Д. Небылицын, В.М. Русалов, Л.С. Выготский, С.Л. Рубинштейн), но и за рубежом.
Однако вместо того, чтобы запретить тесты (как это было сделано в СССР - перефразируя высказывание «классика» - «нет тестов - нет проблемы»), в западной психологии были проанализированы причины критики в адрес психологического тестирования. В частности С. Брим даже провел факторный анализ личностных черт критиков психодиагностического метода! В результате его работы и исследований других ученых были названы несколько источников критики в адрес тестов, которые мы предлагаем для ознакомления.
Первый источникС. Брим видит в личностном портрете критиков, в числе которых чаще других оказываются те, кто не склонен к самопознанию и интроспекции, авторитарный в межличностных отношениях, нетерпеливый к мнению других и выступает против любых социальных изменений. Такие люди, как правило, в США относятся к правым политическим группам, требуют запрета тестов.
Второй источник С. Брим видит в системе социальных ценностей, которая имеет свои корни в отношении к вопросам равенства людей. Если в обществе одобряется принцип открытого равенства его членов, тогда в каждом поколении на передовые позиции должны выдвигаться наиболее талантливые люди. В обществе каждый должен иметь возможность внести свой вклад в соответствии с собственными способностями. Последние должны быть оценены, и поэтому ориентация на этот принцип создает благоприятное отношение к тестам.
Третий источник, по мнению Р. Кеттелла, является следствием эмоционального и сентиментального отношения людей эстетического и нарцисичного типа, поддающихся любым попыткам представить «уникальную, художественную личность» в виде формул и количественных коэффициентов.
Четвертый источник критики является научным, его, кстати, часто совершают сами психологи-психодиагносты, и оно касается тех недостатков тестового метода, которые реально существуют. Их мы уже назвали в начале этой лекции в вопросе «современные проблемы психодиагностики».
История мировой психодиагностики (и украинской, как ее части) продолжается и требует привлечения новых квалифицированных и творческих специалистов, новых идей и инструментов.
Новые психодиагностические методики и исследования публикуются в журналах: «Психологическая диагностика», «Практическая психология и социальная работа», «Psychometrica», «Intelligence», «Journal of Personality Assessment» и т.п.
Рекомендуемая и использованная литература:
Анастази А., Урбина С. Психологическое тестирование. - СПб.: Питер, 2003.
Бурлачук Л.Ф. Психодиагностика: Учебник для вузов. - СПб.: Питер, 2006.
Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. - СПб.: Питер, 1999.
Общая психодиагностика / Под ред. А.А. Бодалева, В.В. Столина. СПб.: Изд-во «Речь», 2004.
к.психол.н. Е.Л. Луценко ©
Лекция по психодиагностике №3 Понятие теста. Шкалирование. Репрезентативность. Этапы создания теста. |
---|
Психологический тест- стандартизированное, часто ограниченное во времени испытание, предназначенное для установления количественных (и качественных) индивидуально-психологических особенностей через вербальные или невербальные образцы ответов или другие виды поведения.
Тест состоит из задач - отдельных пунктов методики, которые предназначены в совокупности для моделирования деятельности, в рамках которой, согласно теоретическим рассуждениям или эмпирическим наблюдением психолога, проявляется та или иная психологическая особенность индивидуума: его черты, темпераментальные свойства, установки, мотивы, социально-психологические качества.
Психологический тест может быть охарактеризован как эффективный, если он отвечает следующим требованиям: построен на шкале интервалов; обоснован конструкта теста; репрезентативности; дискриминативности, надежности, валидности отдельных тестовых заданий и теста в целом; стандартизованости предъявления и обработки результатов; независимости результатов от воздействия экспериментальной ситуации и личности психодиагноста; наличии нормативных данных, а в случае индивидуально-ориентированных тестов - наличия критериев, установленных экспертами; адаптированности тестов.
Данные психометрические требования к тестам или методические принципы психодиагностики является «профессиональным языком» психодиагноста, который нужно знать и понимать безупречно. Рассмотрим их по очереди.
Шкалирование. Виды измерительных шкал
Шкала - форма фиксации совокупности признаков изучаемого объекта с составлением их в определенную числовую систему. Попросту говоря, шкала - это мерка, без которой измерение невозможно.
Например, Цельсий для шкалирования температуры взял две точки отсчета - точку замерзания воды и точку кипения воды. Разделил этот интервал на 100 равных отрезков и, таким образом, ввел температурную шкалу, которой мы пользуемся, говоря, что на улице -5 градусов мороза или 25 градусов тепла. Фаренгейт использовал другие точки отсчета, тем самым создал другую шкалу. Поэтому градус по шкале Фаренгейта не равен градусу по шкале Цельсия.
С. Стивенс предложил классификацию из 4-х типов шкал измерения, иерархически упорядоченных по точности. Тип шкалы, который закладывается в тест, будет определять все последующие процедуры по конструированию и проверки теста, а также обработки и анализу данных, которые будут получены с помощью этого теста. Эти шкалы носят названия: номинативных, порядковых, интервальных и шкал отношений.
1. Номинативные шкалы (шкалы наименований)- классификация, которая устанавливает соответствие признака тому или иному классу. Простейший случай номинативной шкалы - дихотомическая шкала, состоящая всего лишь из двух пунктов: «имеет братьев и сестер - единственный ребенок в семье»; «Иностранец - соотечественник»; «Проголосовал« за »- проголосовал« против »» и т.п. Признак, который измеряется по дихотомической шкале наименований, может принимать всего два значения. Тогда можно говорить о том, что тот или иной признак «выявлен» или "не выявлен». Например «Признак наличия опыта работы выявлен у 8 испытуемых из 20. У 12 исследуемых не оказалось опыта работы».
Сложный вариант номинативной шкалы - классификация из трех и более пунктов: «экстрапунитивные - интрапунитивные - импунитивные реакции»; «Выбор кандидатуры А - кандидатуры Б - кандидатуры В - кандидатуры Г» и т.п. Допустим, что кандидатуру А выбрали 7 испытуемых, кандидатуру Б - 11, кандидатуру В - 28, а кандидатуру Г - всего 1.Тепер можно оперировать этими числами, которые представляют собой частоты встречаемости различных наименований, то есть частоты принятия знаком «выбор» каждого из 4 возможных значений.
Для обработки данных, измеряемых по номинативным шкалам, употребляют методы χ2, углового преобразования Фишера φ *, корреляции качественных признаков - тетрахоричний и полихоричний коэффициенты связи, дисперсионный анализ Фишера.
Порядковые (ранговые, ординальные) шкалы- здесь элементы шкалы упорядочены (ранжированы) по принципу «больше - меньше», но в этой шкале не учитываются расстояния между ними. В шкале наименований не имеет значения, в каком порядке расположены классификационные категории, а в шкале порядков они образуют последовательность от пункта «наименьшее значение» в пункт «наибольшее значение» (или наоборот). В порядковой шкале должно быть не менее трех рангов, например в методике Ч.Осгуда «Семантический дифференциал» 7 рангов: -3, -2, -1, 0, 1, 2, 3 Есть много опросников с вариантами ответов, которые образуют порядковую шкалу, например: «Бывает, что я никак не могу принять какое-то окончательное решение» ... а) Полностью согласен. б) Могу согласиться. в) Не уверен. г) Скорее не согласен. д) Совершенно не согласен.
Для обработки данных, которые измеряются ранговыми шкалами, используется непараметрическая статистика - критерии Манна-Уитни, Уилкоксона, Колмогорова-Смирнова, Крускала-Уоллеса, ранговый корреляционный анализ Спирмена и другие.
Шкалы интервалов (равных интервалов, количественные) .Они классифицируют по принципу «больше на определенное количество единиц - меньше на определенное количество единиц». В них разница между значениями во всех точках данной шкалы равная. Равноинтервальными можно считать лишь шкалы в единицах стандартного отклонения шкалы, и то лишь при условии, что распределение значений в выборке стандартизации было нормальным. Принцип конструирования большинства интервальных шкал использует так называемое правило «трех сигм»: это эмпирическая закономерность, заключающаяся в том, что примерно 97,7-99,7% всех значений признака при нормальном его распределении укладываются в диапазоне М ± 3s, где М - среднее арифметическое, s- среднее квадратическое отклонение. Можно построить шкалу в единицах долей стандартного отклонения (например, интервал может составлять ½ s, как это было сделано Р.Кеттеллом для стандартизации теста «16 личностных факторов»), которая будет охватывать весь возможный диапазон изменений признака, если крайний слева и крайний справа интервалы оставить открытыми. Эквивалентные интервальные шкалы могут быть линейно преобразованы друг в друга, что позволяет приводить результаты тестирования к общим шкалам и таким образом осуществлять сравнение показателей.
Когда показатели измерены по шкале интервалов для их обработки подходят большинство процедур параметрической статистики - коэффициент линейной корреляции Пирсона, t- критерий Стьюдента т.д.. К разряду шкал интервалов относятся шкалы IQ-показателя стандартного, Т-баллов, стенов, стенайнов, пос. шкала, Z-показатели.
Шкала процентилей Р(отдельный вид стандартных тестовых показателей, отражающих сколько процентов выборки стандартизации имели тестовые показатели, которые были ниже баллов данного исследуемого) еще относится к порядковым шкалам и не попадает в равноинтервальние.
Шкалы отношений (равных отношений, пропорциональные).Шкалы отношений кроме всего, чем характеризуются интервальные шкалы, имеют значимую нулевую точку. Т.е. в отличие от интервальной шкалы, где нулевая точка произвольная (условная), в шкале отношений она настоящая, и указывает на полное отсутствие измеряемого свойства. Наличие такого настоящего «нуля» - проблема для большинства психологических переменных. Возможности человеческой психики столь велики, что трудно представить абсолютный ноль в любой психологической переменной (абсолютная глупость или абсолютная честность - понятие скорее жизненной психологии). Хотя существуют методы конструирования тестов, которые позволяют использовать эту возможность. Считается, что примерами шкал равных отношений в психологии является шкалы порогов абсолютной чувствительности анализаторов. К шкалам отношений приближаются тесты, сконструированные также по модели Раша (теории задача-ответ или item-response theory- IRT).
К шкале отношений могут применяться все наиболее точные и мощные статистические методы обработки данных.
В идеале разработчик тестов должен стремиться использовать шкалы отношений. Если это невозможно, желательно строить шкалы интервалов. Однако, как можно видеть, очень много распространенных в СНГ тестов и методик строятся на ранговой шкале.
Кроме понятия шкалы, для корректного осуществления процедуры измерения необходимо ознакомиться еще с некоторыми психометрическими терминами - понятиями истинного показателя и репрезентативности.
Репрезентативность заданий теста.Истинный показатель. Погрешность измерения
Репрезентативность - свойство выборочной совокупности представлять характеристики генеральной совокупности. Генеральная совокупность - это все существующие объекты (ситуации) данного типа. Выборочная совокупность - часть генеральной совокупности, с которой работает исследователь, потому что обычно генеральная совокупность недоступна для изучения и даже не является необходимой в условиях репрезентативности и достаточного количества объектов в выборочной совокупности. Тоесть исследования генеральной совокупности является избыточным и лишним.
С определенной погрешностью (погрешностью измерения) можно считать, что представленное в выборочной совокупности распределение изучаемых признаков психологической переменной соответствует их реальному распределению.
Для любой черты (например, доминанантности, доброжелательности, креативности) индивидуум имеет истинный, настоящий показатель. Его можно было бы вычислить, если бы было возможно предъявить исследуемому все возможные задачи, в которых диагностируется эта черта. Любой тестовый показатель для любого индивидуума в каждом отдельном случае отличается от его истинного показателя на величину случайной погрешности, которая появляется в результате выполнения испытуемым не всех возможных задач, а только выборочных.
Тест будет работать ошибочно, когда выборка его задач не отражает удовлетворительно генеральную совокупность задач (большинство жизненных ситуаций, в которых проявляется измеряемая психологическая черта), потому что тогда погрешность измерения будет чрезмерно большой, такой, которую нельзя игнорировать, ведь она будет серьезно отклонять полученное распределение признака от его реального состояния. В этом заключается важность образования репрезентативной совокупности заданий теста.
Для создания репрезентативных заданий теста делают так называемую спецификацию теста - рассчитывают, сколько задач различных типов необходимо включить в тест.
Погрешность измерения возникает из-за случайных колебания измеряемого психологического качества под влиянием настроения, состояния, обстоятельств. Даже если тот же исследуемый несколько дней подряд будет выполнять тот же тест, его результаты каждый раз будут несколько отличаться. Усреднения этих отклонений позволит вычислить погрешность измерения теста.
Репрезентативность выборки испытуемых
Как и выборка задач, выборка испытуемых должна адекватно отражать генеральную совокупность людей, к которой будет применяться данный тест, то есть на кого его результаты можно будет экстраполировать. Если тест будет применяться для школьников, то в выборке должны быть в соответствующей пропорции представлены школьники частных и государственных школ, школ математического и гуманитарного профилей, сельских и городских школ и т.п.
Соблюдение репрезентативности выборки испытуемых в психодиагностике важно при определении норм теста, формирования выборок критериальных и контрольных групп при конструировании теста по критериально-ключевому принципу, при апробации теста, проверки надежности и валидности теста и других психометрических процедурах.
Этапы создания теста
Для конструирования эффективного теста необходимо выполнить следующие шаги:
1) рассмотреть и установить строгие ограничения на содержание задач в соответствии с теоретической концепцией исследуемого психологического свойства;
2) сформулировать так много различных задач, релевантных этому содержанию, насколько это возможно;
3) испытать эти задачи на такой большой выборке испытуемых, насколько возможно;
4) выполнить анализ заданий теста, отбирая эффективные. (Анализ задач - процедура для оценки эффективности заданий в тесте, она может включать определение корреляции заданий с общим тестовым показателем, проверку сложности / дискриминативности и другие способы.)
5) кросс-валидизировать задачи на новой выборке. Надо проверить, чтобы задача адекватно охватывали соответствующий контекст;
6) вычислить показатели дискриминативности и надежности теста;
7) валидизировать тест;
8) выполнить факторный анализ задач и сравнить его с процедурой анализа и отбора задач;
9) определить нормы для этого теста;
10) если тест оказывается эффективным и полезным, представить результаты в руководстве.
Рекомендуемая и использованная литература:
Анастази А., Урбина С. Психологическое тестирование. - СПб.: Питер, 2003.
Бурлачук Л.Ф. Психодиагностика: Учебник для вузов. - Спб.: Питер, 2006.
Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. - СПб.: Питер, 1999.
Клайн П. Справочное руководство по конструированию тестов. – Киев: ПАН Лтд., 1994.
Общая психодиагностика / Под ред. А.А. Бодалева, В.В. Столина. СПб.: Изд-во «Речь», 2004.
Практикум по общей, экспериментальной и прикладной психологии / В.Д.Балин, В.К. Гайда, В.К. Гербаческий и др. Под общей ред. А.А. Крылова, С.А. Маничева. – СПб.: Питер, 2006.
Психологическая диагностика: Учебник для вузов / Под ред. М.К. Акимовой, К.М.Гуревича. – СПб.: Питер, 2008.
Сидоренко Е.В. Методы математической обработки в психологии. - Спб., 1996.
к.психол.н. Е.Л. Луценко ©
Лекция по психодиагностике №4 Классификация тестов. Конструкт теста. Методы конструирования тестов |
---|
Классификация тестов
Для упорядочения, структурирования и выявления определенных закономерностей среди большого количества разработанных за всю историю психодиагностики тестов исследователи пытаются предложить различные способы классификации тестов.
По процедуре проведения тесты разделяют на индивидуальные и групповые.
По конструкции они разделяются на гомогенные и гетерогенные (многофакторные).
По оборудованию, которое используется для тестирования, их распределяют на бланковые (карандаш - бумага), предметные (карточки, кубики, фигурки), аппаратные (для диагностики внимания, темперамента, психической работоспособности, сенсомоторной координации, психических состояний используют приборы контактной координациометрии, критической частоты слияния световых мельканий, реакции выбора, слежения за движущимся объектом и т.д.), компьютерные.
По степени влияния экспериментатора среди них выделяют очень зависимые от этого влияния - диалогические/клинические методы (наблюдение, беседа, интервью), проективные методики, ситуативные тесты, и слабо зависимые - стандартизированные личностные опросники, тесты интеллекта и способностей, объективные тесты личности, психофизиологические методики.
По психодиагностическим методам все тесты разделяют на: 1) объективные (диагностика осуществляется на основе успешности/результативности и способа/особенностей выполнения деятельности); 2) субъективные (диагностика осуществляется на основе самоописания исследуемым особенностей собственного характера, чувств, реакций, поведения в тех или иных ситуациях) и 3) проективные (диагностика осуществляется на основе взаимодействия исследуемого с внешне нейтральным стимульным материалом, который становится в силу его неопределенности объектом проекции).
По принципу оценки выделяют номотетические, идеографические, критериально-ориентированные психодиагностические методики.
По исследуемым переменным тесты разделяют на две большие группы - интеллекта и личности. В свою очередь, интеллектуальные тесты образуют ветви тестов интеллекта в целом, тесты общих и специальных способностей, тесты креативности и тесты достижений. Личностные тесты тоже образуют подгруппы личностных опросников, проективных тестов, тестов мотивов, интересов, ценностей, шкал установок, психосемантических методик и объективных тестов. Далее определенные подгруппы тоже могут образовывать собственные иерархии, например, объективные тесты личности делятся на объективные тесты действия и ситуативные тесты, а проективные тесты образуют группы структурирования, дополнения, конструирования, интерпретации, катарсиса, изучения экспрессии и продуктов творчества.
Любая классификация является не абсолютной, а условной формой организации информации, потому что всегда есть определенные «смешанные» категории, например, среди психодиагностических методик тесты креативности являются такой смешанной категорией, так как, по сути, относятся и к интеллектуальным и к личностным тестам, так как содержат личностные (рискованность, воображение, любознательность, сложность) и когнитивные факторы (гибкость, оригинальность, разработанность), или определенные медико-психологические пробы, например, метод пиктограмм или завершение предложений, которые напоминают проективные тесты личности, но направлены на диагностику когнитивных нарушений и т.п.
Конструкт теста (концептуальная переменная)- переменная, существование и природа которой вытекает из теорий, научных представлений, а не из прямых наблюдений. Большинство психологических черт и качеств, которые психологи обычно вспоминают, когда описывают психологию человека, недоступны для непосредственного наблюдения, например, интеллект, агрессивность, тревожность или экстраверсия. Мы наблюдаем не интеллект, а то, что один человек учится, решает задачи, находит выход из сложных ситуаций лучше чем другой; мы наблюдаем не агрессивность, а то, что определенный человек оскорбляет, бьет других людей, распространяет сплетни о них и т.п. Тесты измеряют эти концептуальные гипотетические конструкты через задачи, в которых говорится об объективных наблюдаемых признаках поведения. Теоретически предполагается (концептуализируется), что группа коррелирующих признаков поведения, не случайно ведет себя согласованно - должна быть скрытая (латентная) ненаблюдаемая причина, над-переменная, которая объединяет все эти более мелкие признаки, «заставляет» их действовать согласованно.
Разработка любого теста начинается с обоснования теоретического конструкта - психологической переменной, которую нужно изучить. Такое обоснование должно включать разностороннее описание переменной: описание ее предполагаемых взаимосвязей с другими свойствами личности и гипотезу о том, в каких задачах (вербальных или невербальных) эта переменная может проявить себя. В качестве источников для обоснования теоретического конструкта используют литературу по исследуемой проблеме, словари, мнения экспертов. Тщательная идентификация конструкта важна еще и из-за сосуществования в психологической науке различных школ и направлений, в рамках которых по разному трактуются основные движущие силы психики, структура личности и т.д.
Методы конструирования тестов
Первый метод или способ конструирования теста заключается в разработке тестовых заданий в соответствии с выбранной моделью теста на основе сформулированной теоретической гипотезы (теоретического конструкта). То есть это прямой непосредственный способ - он включает обоснование конструкта, разработку заданий, проверку психометрических свойств.
Сначала выбирается форма заданий теста, среди которых:
- Задания с предложенными ответами (закрытые);
- Задания со свободными ответами (открытые).
Задания с предложенными ответами в свою очередь делятся на: задания с альтернативными ответами; задания со множественным выбором; задания с выражением ответа в виде восстановления частей предложений, фигур и т.д.; задания по переструктурированию данных, требующих перегруппировки элементов.
Задания со свободными ответами включают: задания дополнения символа, рисунка, высказывания и т.п.; задания свободного конструирования ответов, которые в свою очередь делятся на задания со слабоструктурированным стимулом (проективные) и задания конструирования по четко заданной схеме.
Далее разрабатывается ряд заданий, который сначала должен быть как минимум в два раза больше, чем нужное количество. Соблюдение определенных правил разработки теста позволит заранее повысить надежность и валидность будущего теста. Эти правила касаются создания легких для понимания заданий (предотвращения вложения более чем одной мысли или ситуации в одно задание, использования простого общепринятого языка, четких, однозначных, лаконичных, оптимальных по длине формулировок), относительно новых по способу решения и содержанию задач (без банальностей, повторений одних и тех же формулировок из широкоизвестных тестов, сформулированных так, чтобы не служить подсказкой к другим заданиям), заданий экономичных с точки зрения выполнения и обработки, допускающих возможность формализации окончательных результатов, четкой стандартизации процедуры и интерпретации, задач адекватных (реальных, современных, не слишком экстравагантных и таких, что ставят исследуемого в неудобное, глупое положение, порождают ощущение бессмысленности всей процедуры тестирования, раздражение).
Отобранные задачи размещаются по степени трудности (тесты интеллекта, способностей, достижений), в случайном порядке (личностные и интеллектуальные тесты) или в определенном, запланированном по замыслу теста порядке. Они также могут объединяться в блоки для измерения определенного фактора (в многофакторных тестах).
Заданиям предшествует название теста, которое должно быть нейтрального характера для того чтобы, с одной стороны не вскрыть истинную валидность теста, а с другой - создать необходимую очевидную валидность. Мы рекомендуем разрабатывать два названия - настоящее, для специалистов, и маскировочное - для испытуемых, оно должно находиться на бланке теста, или сообщаться устно, если тест не бланковый, а предметный. После названия размещается инструкция, объясняющая способ выполнения теста, временные ограничения и примеры решения типовых задач, если это тесты интеллекта, способностей, достижений.
Второй способ конструирования тестов- критериально-ключевой принцип - это когда эмпирически подыскиваются психологические признаки, которые позволяют дифференцировать релевантные критериальные группы (где концентрируются носители измеряемых психологических качеств) от контрольных (состоящих из носителей других признаков или недифференцированны - обычные, нормальные люди) . Классическими примерами методик, созданных по этому принципу, является Миннесотский многоаспектный личностный опросник (MMPI) и "Бланк интересов" Стронга: первый - в клинической психологии, второй - в области профориентации. Так, при разработке MMPI с первоначального банка утверждений в основные клинические шкалы включались только те утверждения, которые хорошо дифференцировали исследуемых с тем или иным клиническим диагнозом от контрольной группы здоровых людей. В качестве критерия, здесь использовался психиатрический диагноз исследуемых, установленный традиционным способом. В шкалу "Бланка интересов" Стронга вошли те утверждения из первоначального набора, которые реально различали лиц, которые были носителями отдельных профессиональных интересов. Кстати задачи разрабатываются и в данном методе, и в обоих следующих, так, как указывалось выше - согласно выбранной формы заданий теста, учитывая правила разработки заданий теста. Далее тест проверяется по всем психометрическими требованиями - дискриминативности, надежности, валидности и стандартизируется.
Третий способ- факторно-аналитический принцип - это конструирование тестов с помощью факторизации большого количества задач, которые предварительно сформулированы как релевантные конструкту или конструктам (этот способ позволяет сразу сконструировать многофакторные тесты или несколько однофакторных тестов). Различают так называемый разведывательный (эксплораторный) факторный анализ, по которому Р. Кеттелл построил тест "Шестнадцать личностных факторов", и проверочный (конфирматорний) факторный анализ, по которому Г. Айзенк построил тест EPI (Интроверсия-нейротизм).
Кроме того факторному анализу могут подвергаться тесты, созданные другими способами, благодаря чему проверяется факторная структура теста - однородность, наличие субшкал, выявляются некачественные задания. Далее тест валидизуеться и стандартизируется.
Существует способ разработки тестов по так называемой модели Раша. Модель Раша (Rasch, 1966) является математически гораздо сложнее, чем классическая модель погрешности измерения, по которой строятся тесты уже оговоренными способами. Для ее вычисления необходима соответствующая компьютерная программа. Считается, что модель Раша является особым случаем модели латентных черт Бирнбаума (Birnbaum, 1968), согласно которой вероятность правильного ответа - это функция от сложности задачи, способности тестируемого и параметра угадывания.
Для шкалирования по Рашу необходимо понимать также так называемую теорию «задача-ответ», по которой считается, что для дихотомических заданий существуют кривые их способности выявить латентную черту личности. Например, задача «а» может быть решена исследуемыми с низкими интеллектуальными способностями с вероятностью 0,015, а задача «в» с большей вероятностью 0,15. Тоже самое задание «а» может быть решено исследуемыми со средними способностями с вероятностью 0,8, а задача «в» с меньшей вероятностью 0,6. И наконец, задача «а» может быть решена исследуемыми с высокими интеллектуальными способностями с вероятностью 0,95, а задача «в» с большей вероятностью 1,00. Если нанести на график эти данные, то кривые задач «а» и «в» будут разными - одна более пологой, другая - более крутой, а в целом они напоминают кривые нормального распределения.
Таким образом, вероятность правильного ответа зависит от сочетания степени выраженности данной черты у исследуемого и способности задания выявить эту черту. То есть существуют задания, которые лучше или хуже проявляют определенную черту, и это их независимая характеристика, которая не так непосредственно связана с процентом людей, которые справились с задачей в нормативной выборке, как это делается для определения трудности заданий в классической модели.
Для создания шкалы Раша сначала задачи апробируются (калиброванные градуируются) на репрезентативной выборке не менее 1000 испытуемых. С ее помощью и с использованием соответствующей компьютерной программы проверяют эти независимые свойства задач по измерению определенной психологической черты, то есть строятся кривые «задача-ответ». Дальнейшее применение программы приводит к тому, что задачи и группы задач имеют точно определенную трудность и дискриминативность, и могут применяться для образования качественных (однородных и дискриминативних) тестов, где они будут расположены по возрастающей трудности, а также будут отличаться друг от друга на строго одинаковую величину психологического признака, тем самым образуя пропорциональную шкалу.
Еще с помощью задач, прошкалированных по Рашу, можно решать проблему создания действительно эквивалентных (параллельных) форм тестов для проверки надежности или повторного тестирования.
Шкалирование по Рашу предоставляет возможность создания коротких, однако надежных тестов, что в традиционной модели достигается за счет увеличения количества задач.
Прошкалированные по Рашу задания эффективно использовать для адаптивного тестирования. Адаптивное тестирование – это компьютерное тестирование с помощью определенного алгоритма, когда, если человек не может справиться с определенной задачей, ему дальше предъявляются не все задачи, в том числе более сложные, а те, которые будут легче. И наоборот, если человек может справиться с определенной задачей, ему предлагаются более сложные задачи пока он сможет их решать. Таким образом, быстро определяется уровень способностей испытуемого, тестирование становится более коротким и менее фрустрирующим для испытуемого.
Предполагалось также, что шкалы Раша будут пригодны для создания кросс-культурных тестов, но эта возможность подвергается критике, по крайней мере для очень «дальних» по типу культуры популяций, например, эскимосов и китайцев.
Рекомендуемая и использованная литература:
Анастази А., Урбина С. Психологическое тестирование. - СПб.: Питер, 2003.
Бурлачук Л.Ф. Психодиагностика: Учебник для вузов. - Спб.: Питер, 2006.
Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. - СПб.: Питер, 1999.
Клайн П. Справочное руководство по конструированию тестов. – Киев: ПАН Лтд., 1994.
Общая психодиагностика / Под ред. А.А. Бодалева, В.В. Столина. СПб.: Изд-во «Речь», 2004.
Практикум по общей, экспериментальной и прикладной психологии / В.Д.Балин, В.К. Гайда, В.К. Гербаческий и др. Под общей ред. А.А. Крылова, С.А. Маничева. – СПб.: Питер, 2006.
Психологическая диагностика: Учебник для вузов / Под ред. М.К. Акимовой, К.М.Гуревича. – СПб.: Питер, 2008.
к.психол.н. Е.Л. Луценко ©
Лекция по психодиагностике №5 Анализ заданий. Дискриминативность теста. Надежность |
---|
Анализ заданий теста (анализ пунктов, отбор и отсев задач)
В вопросе анализа задач фактически отрабатываются главные психометрические процедуры, которые используют к целому тесту (сложность / дискриминативнисть, надежность, валидность), но сначала по отдельным заданиям теста.
В задачах может анализироваться качественная сторона, т.е. их содержание и форма, и количественная, т.е. их статистические свойства. О том, как добиться качественного содержания задач говорилось в лекции №4 в пункте «Методы конструирования тестов». Количественный анализ означает главным образом измерение сложности (дискриминативности) задач, а также процедуру корреляции отдельных пунктов с итоговым показателем теста (по аналогии с анализом надежности и валидности). Эффективность теста, в конечном счете, зависит от свойств задач, и предыдущий их анализ позволяет повысить качество теста в целом. Устраняя, добавляя, заменяя или просматривая отдельные задачи, можно усовершенствовать тест в целом. Анализ задач позволяет сократить тест, повышая в то же время его валидность, надежность и дискриминативнисть.
Сложность (дискриминативнисть) заданий. Сложность заданий определяется процентом испытуемых, которые дали правильный ответ. Он должен быть в пределах 20% -80%.
Большинство стандартизированных тестов способностей предназначены для как можно более точной оценки индивидуального уровня развития способности, и если в таком тесте никто не может справиться с определенной задачей, оно оказывается просто лишним грузом. Тоже можно сказать и о задачах, с которыми справляются все.
Уровень сложности задач зависит от назначения теста, например, для отбора наиболее одаренных людей нужные задачи повышенной сложности, с которыми смогут справиться только 20-10% обычной выборки. Однако в большинстве случаев, максимум информации об индивидуальном уровне выполнения теста обеспечивают задание средней сложности. Тоже самое касается тестов личности. Только в отношении них используют термин «дискриминативность» задач, то есть их разрешающая способность. Она определяется процентом людей, которые предоставили ключевые ответы на вопросы. Здесь тоже должно работать правило интервала 20-80%.
Корреляция показателей отдельных пунктов с общим тестовым показателем.
Корреляцию результатов по отдельным заданиям с общим тестовым результатом используют, исходя из двух теоретических соображений. Во-первых, по аналогии с проверкой надежности по внутренней согласованности - то есть для того, чтобы создать однородный тест. Однородный тест измеряет только одну переменную, поэтому все его задачи должны измерять только эту переменную. Если это не так и они выявляют несколько иное - они в тесте не нужны, потому что вредят точности измерения из-за создания погрешности.
Для такой корреляции используют коэффициент линейной корреляции Пирсона (коэффициент произведения моментов) для задач с рейтинговыми шкалами из 5-ти и более пунктов. Например:
Много людей считают меня любезным и заботливым. |
Совсем не согласен(1) |
Скорее, не согласен (2) |
Немного не согласен (3) |
Немного согласен (4) |
Скорее, согласен (5) |
Полностью согласен (6) |
Для заданий с 3-4 - бальными вариантами ответов можно использовать коэффициент ранговой корреляции Спирмена. Для дихотомических заданий (когда ответ имеет только два значения - да/нет и т.п.) используют точечно-бисериальную корреляцию.
Во-вторых, корреляцию отдельных задач и теста в целом можно рассматривать как проверку валидности по критерию. Хорошая раздельная способность задач будет присутствовать тогда, когда по результатам выполнения заданий люди попадают в различные критериальние группы, т.е. реально различных групп, которые в своей практической деятельности и жизнедеятельности различаются на психически больных и здоровых, просоциальных и асоциальных, успешных и неуспешных в обучении или выполнении определенных профессиональных обязанностей. Из-за того, что получить настоящие критериальные данные не всегда легко, считают, что результат по целому тестом моделирует (аппроксимирует, приближает) критерий. Таким образом, цель такой процедуры корреляции - выяснить соотношение между выполнением задания и контрольным критерием. Должна быть значимая корреляция, но не высокая по значению - достаточно r≥0,2.
Для оценки дискриминативности используют также метод экстремальных (контрастных) групп [9, с. 91].
Есть факторы, которые часто влияют на дискриминативнисть задач - это пол, возраст и социально-экономический статус испытуемых. Может случиться, что в мужской выборке процент решения задач (или ключевых ответов) будет не таким, как в женской. Так же относительно молодой, средней или возрастной группе или группах с высшим/средним образованием. Поэтому надо проверять дискриминативнисть заданий теста в выборках, сформированных по этим универсальными критериями и отсеивать или переформулировать задачи, которые сильно отличаются по эффективности в этих группах. В то же время есть психологические переменные, которые действительно, по своей сути, оказываются отличными в различных возрастных, культурных и половых группах. Тогда, если они после многочисленных переформулирований имеют разную дискриминативность и это не является артефактом теста, надо во время стандартизации разрабатывать различные нормы для женской и мужской выборок и для групп по другим признакам. В частности для тестов интеллекта и способностей принято разрабатывать тесты для относительно узких возрастных групп, так как разница в выполнении тестов интеллекта различными возрастными группами обязательно проявится.
В конце анализа заданий однофакторный тест должен содержать 20-30 эффективных задач. Не рекомендуется создавать тест с меньшим количеством заданий из-за падения надежности теста за исключением случая, когда с помощью факторного анализа конструируется многофакторный тест с коррелирующими факторами (когда определенные задачи входят в нескольких факторов - шкал теста).
Далее профильтрованный через анализ ряд заданий подвергается проверке на дискриминативность, надежность и валидность уже как целостный тест. Коротко рассмотрим эти понятия.
Дискриминативность теста в целом.
Дискриминативность - способность теста дифференцировать обследуемых относительно «максимального» и «минимального» результата теста.
Отсутствует информативность психологического теста, по которому все испытуемые показали одинаковые результаты.
Основной показатель коэффициента дискриминативности δ Фергюсона прост в исчислении. Коэффициент δ Фергюсона - это отношение между показателем дискриминативности, полученным для некоторого теста, и максимальным значением дискриминативности, которую может обеспечить такой тест [15].
Где N - количество испытуемых, n - количество задач,fі - частота встречаемости каждого показателя.
δ = 0, когда все исследуемые получили одинаковые показатели (т.е. когда нет дискриминативности), и равна 1 при равномерном распределении показателей в выборке.
Надежность теста.
Надежность - характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов; согласованность теста внутренняя и через определенное время. В самом широком смысле надежность теста показывает, насколько индивидуальные различия в тестовых результатах является «настоящими», а насколько могут быть приписаны случайным факторам.
Требования к выборке испытуемых для проверки надежности: репрезентативность выборки, объем - не менее 200 человек.
Существует несколько способов исследования надежности методики. Основной статистический метод проверки надежности - корреляционный анализ, выбор метода которого зависит от шкалы измерения, на которой построен тест.
В практике психологической диагностики считается, что тест надежен, если коэффициент надежности rt ≥ 0,6.
Надежность по внутренней согласованности.
В психометрии стремятся разрабатывать тесты в основном внутренне согласованными, по причине того, что если некоторая переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Внутренняя согласованность теста измеряется различными способами. Первый - это по степени выраженности интеркореляцийних связей между задачами теста.
Надежность, которая вычисляется по интеркореляции заданий теста, статистически равна стандартной погрешности средней взаимной корреляции заданий или тестов (формула Дж. Наннэлли, 1978) [15]:
Где σt - стандартная ошибка измерения, σr - стандартное отклонение корреляции задач внутри теста и k - количество заданий в тесте, rt - коэффициент надежности теста. Чем больше заданий в тесте, тем выше его надежность.
Надежность эквивалентных (параллельных форм).
Надежность параллельных форм - это характеристика надежности психодиагностической методики с помощью взаимозаменяемых форм теста. При этом тех же испытуемых в выборке определения надежности обследуют сначала с использованием основного набора заданий, а затем - с применением аналогичных дополнительных наборов.
Основным показателем надежности параллельных форм является коэффициент корреляции между результатами первичного и повторного обследований с помощью первой и второй форм теста.
Надежность частей теста (деление пополам, расщепление) и отдельных задач.
Надежность частей теста - характеристика надежности психодиагностической методики, получаемая путем анализа устойчивости результатов отдельных совокупностей тестовых задач. Наиболее простым и распространенным способом определения надежности частей теста является метод расщепления на парные / нечетные задания (деление пополам). Достаточно одного выполнения теста в одной выборке испытуемых. Затем, во время обработки результатов, подсчитывают не общую сумму баллов по тесту у каждого испытуемого, а отдельные суммы по двум равноценными половинами теста. Коэффициент корреляции между половинами теста покажет надежность теста.
Для расчета надежности при расщеплении теста пополам существует формула Спирмена-Брауна:
где r12 – корреляция между двумя половинами теста.
Наиболее распространенным методом оценки надежности отдельных задач является вычисление по формуле Кьюдера-Ричардсона:
Где, k - количество заданий в тесте, P - доля испытуемых, давших правильные (ключевые) ответы на задания от общего количества исследуемых, Q = 1 - P, σ2y - дисперсия для теста.
, где N1 – количество испытуемых, давших правильные (ключевые) ответы, N - общее количество испытуемых.
Вышеприведенная формула пригодна для случаев, когда задачи оцениваются в дихотомической шкале, т.е. по принципу «выполнено-не выполнено», «да-нет», «правильно-неправильно». Для случаев с более дифференцированной оценкой («да - затрудняюсь - нет», «полностью согласен - согласен - скорее согласен ...» и т.п.) применяется формула коэффициента альфа Кронбаха:
Где k - количество заданий в тесте, ∑σ2i - сумма дисперсий для задач, и σ2y - дисперсия для данного теста.
Ретестовая надежность.
Ретестовая надежность - это характеристика надежности психодиагностической методики, получаемая путем повторного обследования испытуемых с помощью одного и того же теста. Она вычисляется по соответствию результатов первого и второго обследований или по сохранению ранговых мест испытуемых в выборке при ретесте. Коэффициент надежности соответствует коэффициенту корреляции между результатами таких обследований. Рекомендуется интервал между обследованиями от нескольких месяцев до половины года.
Если тест не может дать тот же результат для некоторого исследуемого (при условии, что этот испытуемый не изменился) в различных условиях - значит его надежность неудовлетворительная, или его прогноз очень скоротечный, т.е. измеряемая переменная более относится к состояниям, настроению и т.п. . Низкая ретестовая надежность свойственна проективным методикам потому, что они измеряют очень широкий спектр свойств личности. Одна и та же методика в первый раз может стимулировать проявление мотивации испытуемого, а другой раз - особенности его межличностного взаимодействия. Проективные методики также очень чувствительны к рапорту между экспериментатором и испытуемым.
Коэффициент надежности указывает, насколько она удовлетворительна или нет, но чтобы ее повысить в случае необходимости надо понимать по каким причинам возникают ее нарушения. Кроме главной причины - разницы между характеристиками выборочной и генеральной совокупности, есть еще несколько специфических, которые мы приводим ниже.
Источники неудовлетворительной надежности.
1. Угадование ответов в тестах интеллекта, способностей и достижений.
2. Установки на ответ в личностных тестах - стереотипы ответов на задания теста, ведущие к нарушению валидности: установка на социально одобряемые ответы; установка на согласие; отклонение; установка на крайние ответы; установка на неопределенные или средние ответы.
3. Сознательная фальсификация, как симуляция или ухудшение (аггравация) ответов исследуемыми.
4. Субьективное оценивание экспериментатора в проективных тестах.
5. Невыполнение принципов конструирования эффективного теста: слишком большой тест, при выполнении которого возникает утомление и снижение мотивации испытуемого, непонятные многозначные задачи, непонятная или некорректная инструкция к тесту.
к.психол.н. Е.Л. Луценко ©
Лекция по психодиагностике №6 Валидность теста |
---|
Валидность теста.
Валидность - комплексная характеристика теста, включающая сведения об области исследуемых явлений и репрезентативности используемой в отношении нее диагностической процедуры [Бурлачук-Морозов]. Другими словами, тест называется валидным, если он измеряет то, для измерения чего он предназначен [Клайн]. А. Анастази пишет, что валидность теста это понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает.
В понятие валидности входит большое количество информации о тесте. Различные категории такой информации и способы ее получения образуют типы валидности.
Очевидная (внешняя, лицевая) валидность- сведения о тесте, сфере его применения, результативности и прогностической ценности, возникающие у испытуемого или другого лица, не обладающего специальными знаниями об истинной валидность. Очевидная валидность обычно демонстрируется через название и инструкцию к тесту, и помогает наладить сотрудничество с исследуемыми.
Основными видами настоящей валидности являются: содержательная, конструктная и критериальная валидности.
Содержательная валидность.
Содержательная валидность (внутренняя, логическая) - комплекс сведений о репрезентативности содержания заданий теста относительно измеряемых психологических свойств и особенностей. Наибольшее значение этот вид валидности имеет для тестов достижений (тестов успешности, экзаменационных тестов). Для конструирования заданий теста привлекаются эксперты по исследуемому качеству, литература, словари.
Задача - это выбор поведения, за которым стоит психологическое качество. Важно, чтобы задачи отражали все стороны психологического качества. Поэтому делается так называемая спецификация теста - сколько задач должно быть по каждому составляющему качеству. Таким образом, можно сделать процентный расчет составляющих конструкта, а потом перевести его в количество задач в зависимости от того, сколько задач планируется.
После генерирования необходимого количества задач, они подвергаются экспертной оценке. (Существует два способа экспертной оценки - коллективная и средневзвешенная. Последняя может организовываться через усреднение рейтингов, шкалирований или парных сравнений). Таким образом, содержательная валидность формируется одной из первых видов валидности и проверять ее можно сразу.
Конструктная валидность (идентификация конструкта).
Конструктная валидность (теоретическая) - отражает степень репрезентации исследуемого психологического конструкта в результатах теста; чем больше результаты теста соответствуют теоретической гипотезе о природе измеряемой переменной, тем выше конструктная валидность теста.
При разработке теста формулируется ряд гипотез о том, как будет связан исследуемый тест с другими тестами, измеряющими подобные, противоположно направленные или независимые психологические явления. Эти гипотезы выдвигаются на основании теоретических представлений об измеряемых свойствах, как о психологических конструктах. Подтверждение гипотез свидетельствует о теоретической обоснованности методики, т.е. о степени ее конструктной валидности. Этот тип валидности является наиболее сложным и комплексным.
Когда мы идентифицируем конструкт, мы работаем как химики, которые для того, чтобы исследовать некое неизвестное вещество, помещают его в контакт с известными - кислотой, щелочью и другими. Затем они наблюдают, как оно реагирует с ними и делают вывод, что же это за вещество.
Так же с конструктом теста - его подвергают корреляции с другими уже валидизированными тестами, которые измеряют подобные явления и должны коррелировать с этим новым тестом (конвергентная валидность); его подвергают корреляции с другими уже валидизированными тестами, которые измеряют несвязанные, совсем другие явления и не должны коррелировать с этим новым конструктом (дивергентная валидность). Также выдвигаются и проверяются гипотезы о наличии или отсутствии половых различий в группах мужчин и женщин по данному тесту; выдвигаются и проверяются гипотезы о наличии или отсутствии по этому тесту возрастных различий в группах молодых, средних и старших по возрасту людей; предлагаются способы психофизиологической и экспериментальной проверки валидности теста.
Если конструкт теста в процессе идентификации демонстрирует предполагаемые теорией результаты, он считается валидным. Конструктная валидность имеет особое значение для валидизации тестов личности, но тесты интеллекта и способностей тоже валидизируют по конструкту. Для этого используют методы декомпозиции задачи (варьирования предъявления задач частично и полностью, с различными инструкциями и подсказками), а также анализ протоколов - гласный синхронный перевод того, что человек думает при решении задач.
Критериальная валидность.
Критериальная валидность - комплекс характеристик методики, отражающий соответствие диагноза и прогноза определенному кругу критериев измеряемого явления. Критериальная валидность включает как комплекс связей с текущим состоянием изучаемого явления (текущая исходная валидность), так и вероятность, и обоснованность прогноза о его состоянии у данного человека в будущем (прогностическая исходная валидность). Наибольшее значение этот вид валидности имеет для валидизации тестов профессиональных интересов, мотивов, пограничных нервно-психических расстройств, специфических типов поведения (асоциальных), способностей и т.п..
Проверяется исходная валидность путем статистической корреляции баллов по тесту и показателей по внешнему параметру, выбранному в качестве критерия валидизации.
Валидизация по любому критерию эффективно осуществляется методом контрастных групп (умственно отсталых и с нормальным интеллектом, страдающих и не страдающих психическими заболеваниями, асоциальных-просоциальных и т.п.).
Критерий валидизацииявляется независим от теста показателем, имеет непосредственную ценность для определенных областей практической деятельности. Например, в педагогической психологии - это «успешность», в психологии труда - «производительность», в медицинской психологии - «состояние здоровья» и т.д.
В качестве объективных критериев валидизации часто используют:
- Объективные социально-демографические и биографические данные (стаж, образование, профессия, приемы или увольнение с работы, количество браков и разводов и т.п.);
- Показатели успеваемости, которые зачастую являются критериальной мерой тестов способностей, достижений в отдельных дисциплинах, тестов интеллекта;
- Производственные показатели эффективности выполнения определенных видов профессиональной деятельности, которые имеют наибольшее значение при валидизации методик, используемых в профотборе и профориентации;
- Результаты реальной деятельности (рисование, моделирование, музыка, составление рассказа и т.д.) при испытании тестов общих и специальных способностей, креативности, тестов личности;
- Врачебный диагноз или другие выводы специалиста;
- Контрольные испытания знаний и умений;
- Данные других методик и тестов, валидность которых считается установленной.
Субъективными критериями являются оценки, суждения, выводы об испытуемом, сделанные экспертом - человеком, который знает исследуемого со стороны оцениваемого качества и может предоставить ему адекватную оценку (специалистом, педагогом, руководителем, психологом, соседом, родственником). Объективизация субъективного критерия валидизации достигается увеличением числа экспертов. Кроме этого критерий валидизации должен быть многокомпонентным, например, экспертный опрос плюс биографические данные, плюс результаты тестирования контрастных групп.
Перекрестная валидизация (кросс-валидизация).
Важно, чтобы валидность теста проверялась на выборке испытуемых, отличной от той, с помощью которой осуществлялся анализ и отбор задач. Любой коэффициент валидности, найденный на выборке, которая применялась для отбора задач, окажется завышенным, так как случайные особенности этой выборки будут учитываться как настоящие свойства популяции.
Например, для валидизации теста для отбора будущих студентов медицинского факультета использовалась критериальная валидизация с помощью контрастных групп. С каждого курса отчисляется та часть студентов, которая не может овладеть программой обучения. По логике критериальной валидизации считается, что можно взять контрастные группы лучших и худших студентов (успешность обучения будет критерием) и выявить все качества, которые статистически достоверно различают группы лучших и худших студентов. За те качества, которые характеризуют верхнюю группу присваивать положительные баллы к ключу, за те, которые характеризуют нижнюю - отрицательные. Таким образом, с помощью созданного теста можно будет отбирать способную к успешному обучению молодежь еще на этапе поступления в вуз. Предположим, что в выборке были 100 студентов-медиков и среди них 30 лучших и 30 худших по успешности обучения были сравнены по различным характеристикам. Будут выявлены определенные различия, например, в группе лучших было больше девушек по имени Таня и парней по имени Сергей. А в группе отстающих было больше Марин и Андреев. Мы можем давать за то, что девушку зовут Таня больше баллов, чем если ее зовут Марина. Но если мы возьмем другой курс - скорее всего эта закономерность не подтвердится, или окажется еще какая-то новая. Так же и с психологическими признаками - они могут быть случайным феноменом определенной выборки и надо, чтобы они подтвердились на другой группе, чтобы доказать, что они действительно связаны с критерием.
Чем меньше будут выборки испытуемых при анализе задач, меньшее количество задач оставлено после анализа, а также задачи отбираются чисто эмпирически, без теоретического обоснования, тем больше вероятность того, что они будут иметь после кросс-валидизации неудовлетворительную валидность.
Факторный анализ (факторизация теста)
Факторизация теста является другим способом проанализировать и отобрать эффективные задания теста, а также окончательной проверкой гомогенности теста. Математический алгоритм факторного анализа позволяет выявить, насколько задания теста коррелируют между собой, из чего делается предположение, что они все так себя «ведут» из-за корреляции с гипотетическим фактором, который и является конструктом теста - определенной латентной психологической переменной, о которой можно судить через наблюдаемые признаки поведения человека. Факторный анализ теста покажет, какие задачи не вошли в главный фактор, или вошли в него со слишком низкими корреляциями. Их нужно исключить или переформулировать таким образом, чтобы они больше соответствовали психологической переменной, на диагностику которой направлен тест, а потом повторить процедуру факторизации. В результате будет одновременно проверена и надежность теста по внутренней согласованности, которая еще называется факторно-дисперсионной надежностью. О процедурах факторного анализа и оценке факторно-дисперсионной надежности можно прочитать в специальной литературе [1, 2, 7, 9, 15, 20, 41, 48].
Факторный анализ используется также для выяснения определенных внутренних характеристик самого конструкта теста. Например, с его помощью (а также с помощью кластерного анализа) осуществлялось определение, является ли новый конструкт «перфекционизм», то есть стремление к совершенству в любой деятельности, категориальным или континуальным. Определенные исследователи считают его протяженным, с отрицательными выходами на экстремальных значениях в виде обсессивно-компульсивных расстройств, нарушений пищевого поведения и т.д.. Другие считают, что перфекционизм имеет две различные формы - адаптивную и неадаптивного. Проведение этих математических процедур позволило одной группе исследователей доказать континуальность данной черты [45].
к.психол.н. Е.Л. Луценко ©
Лекция по психодиагностике №7 Стандартизация и адаптация теста |
---|
Стандартизация теста.
Стандартизация теста - унификация, регламентация, приведение к единым нормам процедуры и оценок теста.
В психодиагностике нужно различать две формы стандартизации.
В первом случае под стандартизацией понимается обработка и регламентация процедуры проведения, унификация инструкции, бланков обследования, способов регистрации результатов, условий тестирования, характеристика контингентов испытуемых.
В-вторых - процедура получения показателей по тесту (норм) для репрезентативных групп испытуемых, чем достигается сопоставимость получаемых результатов у разных испытуемых.
Нормы- это группа показателей с четко определенных выборок, а процедуры получения этих показателей составляют процесс стандартизации теста.
Стандартизация теста осуществляется на очень больших группах испытуемых. Для получения норм по тесту для общей популяции, например, детей школьного возраста, необходимо выборка около 10000 испытуемых, где будут представлены школьники государственных и частных школ, общеобразовательных школ, гимназий и лицеев, городских и сельских школ, школ первой, второй и третьей степени, школ из разных регионов страны. Однако выборка с ограниченной популяцией (летчиков-космонавтов или академиков Национальной академии наук), конечно, не должна быть настолько большой. Репрезентативность выборки важнее, чем ее размер. Небольшая, но репрезентативная выборка позволит получить более точные нормы, чем большая, но неравномерно представленная (смещенная).
Благодаря стандартизации мы можем сопоставить результаты отдельного исследуемого с результатами «большинства подобных людей», т.е. релевантной группы (релевантная группа - это группа, которая соответствует данному индивидууму по влиятельным для большинства психологических качеств показателям - возрастом, полом, национальностью, социальному статусу, образованию и т.д.), и проинтерпретировать его результаты в терминах большей или меньшей выраженности у него тех или иных индивидуально-психологических особенностей по сравнению с другими людьми.
Показатели индивидуума сравниваются с показателями релевантной нормативной группы с помощью определенного преобразования, что показывает статус этого индивидуума в данной группе. Сравнение показателя индивидуума и нормативной группы в «сырых» баллах подходит для исследовательских целей, но неудобно в прикладной психологии. Например, в ситуации психологического консультирования, говорить, что клиент имеет показатель 95, а среднее по выборке - 38,6 баллов по данному тесту, или таким же образом обсуждать результаты кандидатов на вакансию при профотборе, достаточно трудоемкая процедура. Преобразование «сырых» баллов в более удобные количественные эквиваленты упрощает их анализ и интерпретацию. К наиболее распространенным стандартным показателям относятся процентили, Z-показатели, Т-баллы, стен, стенайны, s-показатели, стандартные IQ-показатели. Часто используют специальную нормализацию показателей, то есть оставляют в тесте только те задачи, которые образуют нормальное распределение для этой переменной.
Содержание основных видов стандартных баллов изложен ниже.
Процентили. Ранг показателя в процентилях определяется процентным отношением в группе стандартизации (нормативной группе) тех испытуемых, которые получили более низкий показатель. Значение в 20 процентилей (Р20) у исследуемого по определенному тестому означает, что 20% популяции имеют показатели ниже его и 80% - выше. Недостатками процентилей является то, что они являются значениями порядковой шкалы и отражают не настоящее распределение признака, а ранг человека в выборке стандартизации. Тоесть, Р0 не означает, что человек имеет низкий нулевой балл (не решил ни одной задачи или не дал ни одного ключевого ответа), Р50 - что справился с половиной заданий (выбрал половину ключевых ответов), а Р100, не означает, что он полностью справился с тестом (отметил все ключевые ответы).
Z-показатели. Переход к отражению уровня признака в стандартных баллах теста происходит начиная с Z-показателей. Они образуют равноинтервальную шкалу. Стандартизированний Z-показатель - это отклонение каждого необработанного («сырого») показателя от среднеарифметического значения теста в выборке, разделенное на стандартное отклонение распределения:
Где Z - стандартизированный показатель, x - «сырой» показатель, `х - среднее, σ - среднее квадратическое (стандартное) отклонение. Если распределение сырых показателей нормальное, то Z - показатели будут изменяться от -3 до +3. Например, среднее арифметическое в выборке для определенного теста равнялось 50, а стандартное отклонение – 10. Тогда:
«Сырые» показатели |
Вычисление |
Z |
60 |
(60 – 50) / 10 = |
1,0 |
65 |
(65 – 50) / 10 = |
1,5 |
50 |
(50 – 50) / 10 = |
0 |
40 |
(40 – 50) / 10 = |
-1,0 |
54 |
(54 – 50) / 10 = |
0,4 |
Недостатками Z - показателей является то, что их среднее значение = 0, а наивысшее возможное значение = 3; среди них встречаются отрицательные и дробные значения, а также слишком мало целых позиций шкалы. Это привело к тому, что разработчики тестов начали применять дальнейшие преобразования Z -показателей.
Стандартизированный преобразованный Z-показатель - Zt.Стандартизированное преобразование Z-показателей выполняется по формуле: Zt = А+ВZ, где Zt - преобразованный Z-показатель, А - среднее значение преобразованного распределения, В - стандартное отклонение преобразованного распределения и Z - Z-показатель. Таким образом можно задать удобное среднее и длину шкалы. Например, мы хотим, чтобы новое среднее шкалы равнялось 100, а стандартное отклонение осталось 10. Тогда:
«Сырые» показатели |
Вычисление |
Z |
Вычисление |
Zt |
60 |
(60 – 50) / 10 = |
1.0 |
Zt = 100 + 1 *10 = |
110 |
65 |
(65 – 50) / 10 = |
1.5 |
Zt = 100 + 1,5 *10 = |
115 |
50 |
(50 – 50) / 10 = |
0 |
Zt = 100 + 0 *10 = |
100 |
40 |
(40 – 50) / 10 = |
-1.0 |
Zt = 100 - 1*10 = |
90 |
54 |
(54 – 50) / 10 = |
0.4 |
Zt = 100 + 0,4 *10 = |
104 |
При конструировании тестов часто производится преобразование Z - показателей к распределению со средним значением `х = 50 и стандартным отклонением σ = 10. В этом случае если распределение приближается к нормальному, показатели будут изменяться от 80 до 20. Их называют Т-показателями (используются в MMPI и других тестах). Еще одним популярным масштабом шкалы являются: `х = 100, σ = 16 (15) - это шкала IQ-показателя стандартного, используемого в тестах интеллекта.
Следующими преобразованиями, широко применяемыми в прикладной психологии, являются показатели в стенайнах (девятибалльная шкала), стенах (десятибалльная шкала), s- показателях (одинадцатибалльная шкала).
Нормы в любых единицах являются внешней, не обязательной характеристикой теста, однако они предоставляют возможность существенно обогатить интерпретацию полученных результатов, повышают возможности математической обработки данных и очень удобны в практической работе психолога. В частности, по большинству стандартных показателей всегда известны интервалы, показатели из которых являются средними, высокими и низкими. Например, в шкале в Т-баллах средний интервал 50 ± 10 (± 1σ), соответственно выше 60-ти - это высокие показатели, а выше 70-ти (± 2σ) - это очень высокие, клинически значимые показатели. Или в шкале стенов среднее всегда 5,5, а стандартное отклонение - 2,5, соответственно средний нормативный интервал будет равен от трех до семи, выше и ниже него будут высокие и низкие показатели.
Кроме тестов, где интерпретация результатов и конечный вывод делаются на основе норм, существует еще способ оценки на основе определенных критериев, которые заложены в содержание теста, то есть включены в содержание отдельных задач или частей теста. Имеются в виду так называемые критериально-ориентированные тесты. Они чаще всего конструируются для оценки достижений - качества усвоения взрослыми или детьми определенного учебного курса. Эксперты разрабатывают цели, которые должны быть достигнуты с помощью этого учебного курса и затем, на основе этих целей-критериев оценивается - какую часть теста или отдельные задачи исследуемый выполнил правильно. Подобные критерии могут закладываться при конструировании индивидуально-ориентированных тестов, диагностика по которым иначе называется «адаптивным тестированием». В отличие от обычного тестирования, при адаптивном тестировании исследуемому предъявляются не все задания теста, а лишь те (с помощью специального компьютерного алгоритма), которые он предположительно сможет выполнить. В результате время тестирования сокращается и обследуемый человек не чувствует фрустрации из-за попытки решить много слишком сложных для него задач.
Адаптация тестов.
Адаптация теста - комплекс мероприятий, обеспечивающих адекватность теста в новых условиях его применения [9]. В отечественной психодиагностике особую актуальность приобретает адаптация иностранных тестов. Однако, можно адаптировать тесты для другой возрастной группы, для группы с другим уровнем образования, для групп с ограниченными возможностями и т.д..
Выделяют следующие обязательные этапы адаптации теста:
- Анализ исходных теоретических положений автора теста;
- Перевод теста и инструкций к нему на язык (языковой стиль) пользователя, завершающийся экспертной оценкой соответствия оригиналу;
- Анализ задач, проверка валидности, надежности, дискриминативности теста, осуществляемая в соответствии с психометрическими требованиями;
- Стандартизация теста на соответствующих выборках.
Проблемы возникают как в связи с адаптацией различных видов опросников, так и тестов интеллекта. Это связано с языковыми и социокультурными различиями между национальными, социальными или возрастными группами.
Например, для адаптации российскими психологами опросника «Шкала психологического благополучия» перевод методики с английского языка на русский выполнялся психологом, который владеет языком оригинала и профессиональным переводчиком (двумя лицами). При переводе основное внимание уделялось не только максимальному сохранению психологического смысла, но и сохранению грамматической формы каждого утверждения, поэтому, как уже доказано, даже незначительные на первый взгляд изменения в содержании и форме суждений часто значительным образом влияют на характер ответов испытуемых. Далее, с целью проверки адекватности перевода, был выполнен обратный перевод методики с русского языка на английский. Перевод выполнялся переводчиком, который ранее не был знаком с текстом английского оригинала. Для эмпирической проверки эквивалентности конечного русскоязычного варианта две формы (русскоязычная и оригинальная) в разном порядке предоставлялись для выполнения студентам, обучающимся по специальности «Иностранный язык. Практическая психология». Сравнивались средние и стандартные отклонения, полученные в группах студентов по обеим методикам. Они были очень близки по значениям и не имели значимых различий. Также были получены значимые корреляции (р≤0,01) между результатами по обеим вариантам методики в целом и по отдельным шкалам, что доказало их эквивалентность и адекватность перевода. И это касается только второго этапа адаптации. Конечно так же тщательно выполняются и другие этапы адаптации.
Из вышесказанного понятно, что качественная адаптация теста по трудоемкости и материальными затратами часто равна тому, что требуется при создании полностью нового теста.
к.психол.н. Е.Л. Луценко ©
Лекция по психодиагностике №8 Идеографические и номотетические психодиагностические методы |
---|
В психологической науке, как и во многих других, существует проблема взаимоотношения общего и индивидуального. Иначе, этот вопрос формулируется так: что является предметом изучения психологической науки - человек в общих чертах или человек в его особых индивидуальных качествах? Оба эти полюса находятся в сфере компетенции психологической науки.
Изучение продуктов творчества отдельного лица, биографическое интервью, некоторые проективные техники относится к идеографическим методам, поскольку они пытаются раскрыть психологические особенности отдельной личности, конкретной индивидуальности. Такие методы имеют минимум ограничений, привнесенных экспериментатором и строятся на основе особенностей личности изучаемого.
Методы, направленные на изучение «человека вообще» называются номотетическими, поскольку они проводят обобщения специфических особенностей отдельных лиц, определяют среднее арифметическое и затем сравнивают каждую новую личность изучаемого с этим «средним». К ним относятся все стандартизированные тесты, то есть тесты, оснащенные нормами.
Каждый из двух подходов завоевал своих сторонников.
Можно сказать, что это спор между сторонниками объяснения (номотетический, он же статистический подход) и понимания (идеографический, он же идеоморфичний, морфогенетический, клинический подход).
Наука, как номотетическая, так и идеографическая, должна быть в большой степени обоснованной. Предлагаемые идеографические интерпретации должны подвергаться проверке, передаче и иметь высокую прогностическую силу.
Г. Олпорт приводит следующие идеографические методы. (Олпорт Гордон В. Общее и уникальное в психологии / Личность в психологии. - М .: «КСП +», СПб .: «Ювента», 1998 - С. 72-87.)
1 Метод разработаный Болдуином на основе анализа писем одной женщины по имени Дженни (Baldwin, 1942). Предметом изучения была индивидуальная структура её мышления, а именно, комплексы ассоциаций. Эмоциональный тон ее письма, когда она говорит о женщинах, о деньгах, о природе? Если она рассказывает о своем сыне, о чем еще упоминается в этом контексте? С помощью этого метода, названного Болдуином «Анализ структуры личности», можно обнаружить ряд интересных личностными феноменов, и он не требует привлечения каких-либо середнегрупповых показателей.
2 Метод был разработан Шапиро (Shapiro, 1961). На основе пятичасового глубинного разговора психиатра с пациентом конструируется опросник, который в дальнейшем используется для работы с этим и только с этим пациентом. Повторные его заполнения с интервалом в несколько месяцев или лет помогают проследить процесс взаимодействия врача с пациентом, а также моменты улучшения или ухудшения здоровья.
3 Метод для определения сферы интересов личности и их количества. Теоретическая посылка такова, что можно в какой-то степени полно понять жизнь человека, если проследить его основные интересы или мотивы. Например, выдающийся писатель-фантаст Г.Уэллс сам писал, что в его жизни было только две основные темы - мировое правительство и секс. Говорят, что в Л.Толстого после его отлучения от церкви была только одна тема - стремление к простоте жизни. У Уильяма Джеймса по свидетельству его биографа было восемь доминирующих тенденций. Модель метода заключается в том, чтобы выделить априорно в личности список этих доминирующих тенденций (на основе опроса хорошо осведомленных об этом человеке людей) и затем подсчитать, какое количество повседневных действий может быть отнесено к той или иной из этих тенденций. Проблема заключается только в объективности данного экспертного наблюдения.
4 Для изучения индивидуальной системы ценностей можно применить прямые вопросы типа: «Что бы вам хотелось иметь больше всего на свете?», «Какие события вызывают у вас ощущение полноты жизни?», «Какие события вызывают у вас чувство собственной уникальности?»
5 Олпорт утверждает необходимость доверия к испытуемому, когда он рассказывает о принципиальных аспектах своей жизни. Он пишет, что проективные тесты не могут применяться в отрыве от направленных методов, поскольку мы не можем проинтерпретировать полученные с их помощью результаты, если нам неизвестно, согласованы они с представлением о себе или противоречат ему.
6 Метод «Шкала самоопределение» Килпатрика и Кантрила (Kilpatrick, Cantril, 1960). Перед испытуемым кладут бланк, на котором нарисованы лестницы с десятью ступенями. Испытуемому предлагают рассказать, в чем, по его мнению состоит «лучший или идеальный образ жизни». На рисунке этому способу жизни соответствует самая верхняя, десятая ступенька. Затем его просят описать «наихудший образ жизни», как он его себе представляет. Это, говорят ему, нижняя ступенька лестницы. После этого испытуемый должен указать, на какой из ступенек лестницы, по его мнению, находится сейчас он сам. Также нередко задаются вопросы типа: «в каком месте этой лестницы Вы находились два года назад? Как Вы думаете, где Вы окажетесь через пять лет? ».
Олпорт пишет, что такая методика достаточно продуктивна в диагностике и консультировании. Авторы использовали ее также в исследовании, посвященном динамике моральных установок, в частности при сравнительном анализе установок в стабильных странах и тех, которые недавно пережили революцию.
При этом от идеографических методов можно перейти к номотетическому анализу, если обобщить результаты этих методов по многим исследуемым. Обычно происходит и противоположная картина - конкретную личность пытаются вставить в номотетические рамки.
Вышеперечисленные методы являются полностью идеографическими. Ниже мы укажем те методы, которые могут оказаться очень полезными при изучении индивидуальности, хотя по своей природе они близки к количественным методам.
1 Ранжирование по тем параметрам из предложенного списка, которые сам исследуемый или опрашиваемый эксперт, считает характерными для оцениваемого объекта, будь то он сам или другой человек. Такой способ позволяет человеку игнорировать нерелевантные переменные. А этого не хватает практически всем количественным методам.
2 Методика «репертуарных решеток» Келли (1955). Исследуемого просят сказать, что общего между двумя предлагаемыми понятиями и чем они оба отличаются от третьего (например, сравнить членов своей семьи - мать, сестру, жену). Так проявляются личностные конструкты (способы оценки, интерпретации), свойственные только данному исследуемому. Однако, список элементов (значимых других людей) задается экспериментатором и в этом ограничения идеографичности данного метода.
3 Метод Олпорта-Вернона «Изучение ценностей» по теории Шпрангера: в какой степени человек отдает предпочтение теоретическим, экономическим, эстетическим, религиозным, политическим и социальным ценностям. Идеографичность данного метода заключается в его ипсативной, а не нормативной оценке выраженности данных ценностей. Полученный в результате профиль не показывает, больше или меньше по сравнению с группой других людей данный человек предпочитает такие ценности. Его назначение - продемонстрировать соотношение значимости этих ценностей для данной личности: какие для него более значимы, какие менее.
4 Q-сортировка Стефенсона, используется для изучения изменений в Я-концепции. Идеографичность данного метода также заключается в использовании ипсативной оценки. Ограниченность - требования нормального распределения и предложенные для классификации черты личности.
5 Психобиографическое лонгитюдное интервью Ханса Томе. Х.Томе резко отрицательно относится ко всем стандартизированным опросникам и проективным тестам и называет их «выстрелами из засады». По его мнению исследователь и респондент - равноправные партнеры психологического взаимодействия и искусство психолога заключается в том, чтобы в честной беседе вместе с партнером искать причины его психологических проблем или изучать человеческую природу.
Мы рекомендуем применять идеографические методы вместе с номотетическими, чтобы воспользоваться преимуществами обоих подходов, хотя, возможно, научиться работать с идеографическими методами будет несколько сложнее, чем со стандартизированными тестами.
Изменение научных приоритетов, а именно поворот к идеографическим методам, вместе с увеличением внимания к роли ситуации в формировании внутреннего мира и поведения человека - две основные современные тенденции мировой психологической науки.
к.психол.н. Е.Л. Луценко ©
Лекция по психодиагностике №9 Методы формулирования психодиагностического заключения (отчета, диагноза). Этика психодиагностических исследований |
---|
Методы формулировки психодиагностического заключения (отчета, диагноза)
Результатом психодиагностического обследования клиента (или группы) выступает составление психодиагностического отчета (заключения), где говорится о главных аспектах самого процесса обследования и формулируется психологический диагноз.
В работе «Психологический диагноз» О.Ф.Ануфриев формулирует определение психологического диагноза следующим образом: «Психологический диагноз как результат деятельности психолога-практика является (1) отвечающим запросу (2) логическим выводом (3) о состоянии психологических переменных, которые обусловливают определенные параметры деятельности или психическое состояние обследуемого (4) в понятиях современной психологической науки, (5) что позволяет предсказать будущее состояние клиента в определенных условиях и сформулировать рекомендации по предоставлению ему психологической помощи.
Такое определение касается преимущественно индивидуальной работы с исследуемым в ситуации консультирования, обращения за помощью, но в ситуации экспертизы или диагностики для посредника последний аспект диагноза, в котором говорится о рекомендации, не является обязательным. Важнее бывает ответить на вопрос, в каком состоянии был исследуемый при осуществлении определенных поступков (контролируемом или в состоянии аффекта, паники, другом измененном состоянии сознания); или это состояние было вызвано внешними обстоятельствами, которые сложились независимо от желания и поведения испытуемого, или нахождение в подобном состоянии свойственно его психике как перманентная склонность; какие особенности когнитивных и эмоционально-волевых процессов, способностей, мотивов может обнаружить психолог для объяснения определенного поведения или проблем человека. Диагностика может быть направлена не только на индивидуума, но и на группу в целом, например, когда руководителя или педагога интересует психологический микроклимат в группе, структура отношений в коллективе, особенности группового взаимодействия, принятия групповых решений и т.п.. В таком случае можно говорить о социально-психологическом диагнозе.
Американский эксперт по психологическому оцениванию А.Анастази указывает, что не существует единой формы или правила написания выводов по результатам тестирования. Как содержание, так и стиль заключения могут и должны меняться в зависимости от цели изучения случая, ситуации, в которой оно проводится, адресата вывода, теоретических установок и специализации психолога. Особенно важно, чтобы вывод соответствовал потребностям и уровню подготовки тех, кто его получит.
В отчете должна приводиться краткая аннотация содержательного характера (100-150 слов), а вслед за этим даваться более подробное специальное описание конкретных данных: из-за какой проблемы организовано психодиагностическое обследование, какие именно и с какой целью были выбраны и использованы методики. Центральный момент в психодиагностическом отчете - это анализ результатов, выводы, рекомендации (если они предусматриваются ситуацией тестирования); тестовые протоколы и другие данные анамнеза лучше поместить в приложении [1, 48].
Из всех собранных психодиагностом данных он должен отобрать только те, которые касаются ответов на поставленные еще в начале обследования вопросы.
В заключении в первую очередь должны быть отражены отличительные свойства индивида, то есть черты, результаты обследования по которым были или заметно низкими, или заметно высокими, а не те черты, по которым индивид имел показатели, близкие к среднему. Вывод эффективен, если он может быть применен только к данному индивида, а не просто к людям, демографические характеристики которых подобны характеристикам этого обследуемого. На таких универсальных и размытых интерпретациях базируются всевозможные сомнительные виды диагностики - гороскопы, гадания и т.п..
Если результаты тестирования содержат противоречия, обязанность диагностика обратить внимание на их противоречивость и по возможности объяснить ее.
Необходимо указать, основываются суждения об индивиде на критериально-ориентированной или нормативной оценке и если верно последнее, то с какими нормами сопоставляются результаты индивида.
Желательно избегать специальной терминологии, за исключением случаев, когда она облегчает изложение сути дела.
Как и любое экспертное заключение, отчет о результатах психодиагностического обследования должен информировать, разъяснять, то есть делать вклад в решение проблемы исследования, а не озадачивать. Написание такого отчета требует продуманного плана, редактирования, наличия опыта.
В.М. Мельников и Л.Т. Ямпольский [20] указывают, что интерпретация результатов тестирования является описанием психологических механизмов, которые управляют поведением отдельного испытуемого, и поэтому может быть использована для прогноза и коррекции индивидуального поведения. Они напоминают, что работая над интерпретацией, психолог должен учесть, во-первых, не только результаты тестирования, но и все другие сведения об испытуемом, которые ему доступны, и, во-вторых, все психологические знания о факторах личности и способах их взаимодействия во время формирования реального поведения.
Этические аспекты психологической диагностики как методологии и практики постановки психологического диагноза и проведения психологических исследований
В мировой психодиагностике к квалифицированному созданию и использованию тестов относятся очень серьезно. В. Алексеев в предисловии к учебнику А.Анастази и С. Урбиной пишет, что на Западе купить психологический тест сложнее чем пистолет.
В 1966 году в Конгрессе в США шло обсуждение запрета тестов. Проголосовало меншинство, но на основании этого были приняты этические требования и четкие ограничения по использованию тестов. Таковы главные этические принципы психологической диагностики:
- Согласие и осознанность решения исследуемого о прохождении тестирования;
- Информирование исследуемого о возможном использовании результатов тестирования;
- Анонимность групповых обследований и сохранение в тайне результатов индивидуального тестирования *;
* Обязательство хранить профессиональную тайну теряет силу, если положение закона обязывает психолога сообщить о полученной информации;
- Понимание ограниченности норм и возможности экстраполяции данных;
- Ограничение доступа посторонних лиц к тестовым данным;
- Сбор анамнеза. При сообщении результатов тестирования необходимо учитывать особенности того человека, для которого они предназначаются;
- Индивиду не должны сообщаться результаты его обследования без их интерпретации специалистом.
Примеры для обсуждения нарушения этических аспектов психологической диагностики:
- «Могу ли я получить бланки теста Станфорда-Бине? Мой племянник на следующей неделе поступает в школу № ..., и мне хотелось бы немного поднатаскать его, чтобы он мог поступить? ».
- «Чтобы усовершенствовать программу чтения в нашей школе, нам нужен культурно-свободный тест интеллекта, который позволит измерить врожденный потенциал ребенка».
- «Вчера вечером я ответил на вопросы интеллектуального теста, опубликованного в журнале, и получил IQ, равный 80. Я думаю что психологические тесты просто дурные».
- «Моя соседка по комнате изучает психологию. Она дала мне личностный тест, по которому я оказалась невротичной. Я так расстроилась, что даже перестала ходить на занятия ».
- «В прошлом году вы давали нашим служащим с исследовательскими целями новый личностный тест. Нам бы сейчас хотелось иметь их тестовые показатели для картотеки кадров ».
Особое внимание должно уделяться предотвращению дискриминации из-за тестирования определенных социальных групп, среди которых представители национальных меньшинств, инвалиды, малообеспеченные, женщины и т.д.. Например, рассказы или картинки, изображающие типичные для людей среднего класса семейные сцены могут вызвать отчужденность ребенка, живущего в необеспеченной семье. Тоже самое касается половых стереотипов, в частности, преимущественное изображения врачей мужчинами, а медсестер - женщинами и т.п. В американской психодиагностике издатели тестов теперь прилагают специальные усилия, чтобы очистить тесты от оскорбительного для определенных социальных групп содержания.
Соблюдение приведенных правил, причем не только этих, но и других, которые тактичный и ответственный исследователь чувствует интуитивно, в зависимости от той уникальной ситуации, которая возникает при организации каждого отдельного исследования, защищает исследуемых индивидуумов и группы от нанесения морального вреда, а также является залогом положительного имиджа психодиагностики и психологии в обществе.
Рекомендуемая и использованная литература:
Анастази А., Урбина С. Психологическое тестирование. - СПб.: Питер, 2003.
Ануфриев А.Ф. Психологический диагноз. – М.: Ось-89, 2006.
Бурлачук Л.Ф. Психодиагностика: Учебник для вузов. - СПб.: Питер, 2006.
Общая психодиагностика / Под ред. А.А. Бодалева, В.В. Столина. СПб.: Изд-во «Речь», 2004.
к.психол.н. Е.Л. Луценко ©