Самое читаемое
Применение анализа |
Добавил(а) Социология | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
05.09.10 10:56 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
К О Н СУ Л Ь Т А Ц И И Применение анализа соответствий в обработке нечисловой информации
Ю.Н.Клишина (Москва) Статья знакомит в общих чертах с малоизвестным в отечественной практике исследований методом обработки нечисловой информации - анализом соответствий и демонстрирует его применение на конкретном социологическом примере. Ключевые слова: нечисловая информация, метод анализа, анализ соответствий, ценностные ориентации. Для анализа количественных (числовых) данных, заданных шкалой отношений либо интервальной, у социолога 'имеется богатый арсенал статистических методов. Однако часто ему приходится работать с признаками нечисловой природы, измеренными номинальной или порядковой шкалой. К ним нельзя применить многие классические методы математической статистики, что существенно затрудняет исследования.
Между тем, вне рамок классического подход существует апробированный аппарат, предназначенный для анализа подобной информации. В частности, следует указе на так называемый анализ соответствий. Он широко используется за рубежом начиная с 60-х годов, однако в отечественную практику был внедрен сравнительно недавно. ЦЭМИ АН СССР создан пакет прикладных программ «САНИ», который реализует этот метод наряду с другими приемами обработки нечисловой информации[1] . Цель статьи популяризировать идеи, предложенные в [1,2,3,4], опираясь на результаты работы с пакетом «САНИ». Существуют два подхода к анализу соответствий. При первом устанавливается взаимное соответствие града! пары признаков; при втором объекты и категории неколичественных признаков представляются в виде точек на плоскости, что позволяет выделить аномальные наблюдения и возможные группировки, строить гипотезы о взаимосвязях.
Первый подход к анализу соответствий: условный пример [5] Три преподавателя были аттестованы десятью студентами по шкале «хороший», средний», «плохой» (см. табл.1). Табл. 1 обобщает результаты опроса, но не позволяв сделать какой-то объективный вывод относительно деятельности преподавателей, поскольку, во-первых, получение распределение мнений нельзя интерпретировать однозначно во-вторых, процедура оценки носит довольно приблизительный характер: каждый студент имеет свои представления о «хорошем», «среднем» и «плохом» преподавателе, поэтому преподаватели, по сути дела, оцениваются по 10 различным,
Таблица 1 Распределение оценок преподавателей группой студентов
более или менее совпадающим, экземплярам предложенной шкалы. Устранить такие эффекты можно разными способами, например, давая каждому варианту шкалы подробный комментарий. Однако представляется более интересным другой путь: обобщая мнения студентов, получить числовые выражения для этих вариантов, а затем на их основе посчитать средний балл каждого преподавателя. Таким образом можно установить соответствие между градациями первого и второго признака: между порядковыми номерами преподавателей и характеристиками «хороший», «средний», «плохой». Другими словами, значения первого и второго признака можно представить в виде точек на числовой прямой и рассмотреть их взаимное расположение. Предложенный метод позволяет параллельно с основной задачей (подбором каждому преподавателю соответствующей оценки) решать ряд дополнительных, д том числе: получить числовой эталон шкалы оценок Для группы респондентов; определить расстояние между вариантами шкалы, т.е. насколько «хороший» лучше «среднего», а «средний» - «плохого»; на основе вычисленных средних баллов провести сравнение преподавателей, т. е. определить, во сколько раз и на какие величины различаются их рейтинги среди студентов.
Первый подход: математический алгоритм Продемонстрируем его на нашем примере. Припишем метку Х1 - «хорошему», Х2 - «среднему», Х3 - «плохому ». Тогда средние баллы 1-го, 2-го и 3-го преподавателей соответственно можно выразить
Будем искать числовые значения Х1, Х2, Х3 наилучшим образом представляющие взаимосвязь признаков, таким способом, чтобы максимизировать показатель тесноты связи h2 между двумя признаками [б]. Способ нахождения Х1, Х2, Х3 излагается ниже мелким шрифтом. Представим решение в общем виде. Рассмотрим таблицу сопряженности признаков Х и Y, имеющих соответственно n и m градаций,
Обозначим si. - сумму строки i, a s.j - сумму столбца j. Построим по sj. диагональную матрицу
и аналогичную матрицу с элементами si.
Ищем собственные значения матрицы т.е. корни уравнения
Верно следующее: число собственных значений матрицы равно ее рангу; эти значения можно упорядочить по возрастанию (убыванию). Если q=rang А, то для множества решений ^ уравнения (4) получаем l1 > l2> … > ln. В [1] показано, что искомыми метками являются координаты собственного вектора Х(Х1, Х2, Х3) матрицы А, которые находятся из системы линейных уравнений Ах = lх. Однако (4) порождает q собственных значений матрицы А и, следовательно, q различных решений задачи. В качестве основного выбираем собственный вектор l1 = lmax = maxili, i = 1, …, q. Насколько удачно полученное решение устанавливает соответствие между признаками, можно судить по отношению
l1/SpA, (5) где SpA = åli = åаij - след матрицы А. Чем ближе (5) к единице, тем точнее полученное решение. Для нашего примера исходная матрица
а построенные на ее основе матрицы имеют следующий вид
Перемножим их по известной формуле: А = Ft Dn–1FDm –1 Найдем максимальное собственное значение матрицы А — lI. Для этого решим уравнение (4), которое в нашем случае является уравнением третьей степени относительно l..
Его максимальный корень: l1 примерно paвен 0, 368. Для этого значения l1 построим собственный вектор. Решая систему линейных уравнений 0,381 X1 +0,357 X2 + 0,015 X3 = 0,368 X1 0.357 X1 + 0.0496 X2 + 0,024 X3 = 0,368 X2 0,15 X1 + 0.246 X2 + 0,048 X3 = 0,868 X3, Находим: X1 » 1,0761; X2 » 0.092; X3 » 1,4717. Для порядковой шкалы «хороший», «средний», «плохой» получены такие числовые значения: «хороший» приблизительно равен 1,0761; «средний» - 0,092; «плохой» -1,4717. Расстояния между «хорошим» и «средним», «средним» и «плохим» соответственно составляют 0,984 (или 1,0761-0,092) и 1,379 (или 1,4717-0,092) и различаются на 0,395, т.е. предложенная шкала неравномерна. Происходит смещение в сторону положительных оценок. Это требует дополнительного анализа как самой шкалы (возможно, она неполна и нуждается в разукрупнении), так и выборочной совокупности (может быть, опрашиваемые более склонны давать положительные оценки, что искажает объективную картину). Далее вычисляются по (1)-(3) средние баллы преподавателей. Они соответственно равны: -1,2322, 0,1227, 1,2326. Сравнение полученных преподавателями баллов с числовыми значениями шкалы однозначно говорит о том, что, по мнению опрошенных, 1-й преподаватель является «плохим», 2-й - «средним», а 3-й - «хорошим». Можно сделать также вывод, что самый высокий рейтинг у 3-го преподавателя, причем, сравнивая баллы его и 1-го, можно предположить, что эти преподаватели являются антиподами с точки зрения их профессиональных характеристик. Выясним, насколько хорошо представленное соответствие отражает реальную ситуацию. Вычислим отношение (5)
Это означает, что в 78 случаях из 100 верно установленное соответствие между вариантами рассматриваемых признаков. Предложенный способ анализа нечисловой информации позволяет решать ряд социологических задач, связанных с использованием порядковых шкал (например задачи аттестации, из года в год встающие перед социологом, работающим на предприятии), обобщением мнений и др. Второй подход к анализу соответствии: математический алгоритм Он применяется при работе с большим и сложным признаковым пространством, в котором соответствие можно установить только выходя за рамки прямой. Этот подход заключается в представлении градаций обоих признаков в виде точек на плоскости. Таким образом, результат представляется не в виде чисел, которые исследователь сравнивает между собой, а графически. Это существенно облегчает восприятие и анализ материала, выдвижение и проверку гипотез. Как и в предыдущем случае, ищется такое представление признаков, которое наиболее точно отражает их взаимосвязь. Изложим математическую суть метода, сохраняя все введенные выше обозначения. Градации признака Х представляются в одномерном пространстве в виде п точек с координатами
а градации признака Y в виде т точек n-мерного пространства
(Относительные частоты используются для нивелирования различий в маргинальных частотах). Цель построений - графическое представление градаций признаков на одной плоскости. Для этого сначала решается задача отображения на плоскости каждого множества точек. В [7] показано, что точки градаций признаков Х и Y представляются на плоскости с осями, являющимися собственными векторами соответственно матриц Аx = FT Dn–1FDm –1 и Аy = F Dm–1FT Dn –1 Легко показать, что собственные вектора этих матриц ортогональны. В [7] показано, что собственные значения А-у и Ау совпадают. Если иь и Vy собственные вектора матриц А-у и Ау соответственно, отвечающие fe-му собственному значению, то имеют место соотношения
Это дает основание для совмещения представлений точек Х и Y на одной плоскости. Причем поиск координат точки Yi(Yi(u1), Yi(u2)) на плоскости (u1, u2) сводится к решению задачи предыдущего случая. Для отыскания координат Xj(Xj(v1), Xj(v2)на плоскости (v1, v2) решается симметричная задача. Доказывается, что выбранные главные оси наилучшим образом представляют взаимосвязь между исследуемыми признаками. Если описывать алгоритм, используя решение предыдущей задачи, то он становится чрезвычайно наглядным: 1) ищем два наибольших собственных значения l1, l2 матрицы Аx ; 2) вычисляем собственные вектора u1, u2, соответствующие этим значениям; 3) для каждого значения признака Х по найденным собственным векторам определяем два средние балла, которые и есть его координаты на искомой плоскости; 4) координаты значений признака Y находим, повторяя операции 1)-3) для матрицы Аy.
Второй подход: иллюстративный пример Проводилось исследование по выяснению ценностных ориентации студентов в возрасте от 18 до 22 лет. Опрашиваемым предлагалось для рассмотрения 18 жизненных ценностей (см. табл.2).[2] Таблица 2 Жизненные ценности, фигурирующие в опросе
Используя метод парных сравнений, для каждого из опрошенных удалось проранжировать предложенные ценности в порядке убывания важности (1 - наиболее важная, 18 -наименее важная). Общие результаты сведены в табл. 3. Таблица 3 Ранжировка 18 жизненных ценностей респондентами
Число 6, стоящее в первой строке и первом столбце, показывает, что шесть человек из опрошенных пятидесяти четырех считают для себя самым важным активную жизнь. «7» в четвертой строке и шестом столбце означает, что для семерых студентов искусство и красота природы занимают шестое место в ряду предложенных ценностей, и т.д.
Таким образом, получена таблица сопряженности признаков - «жизненная ценность» и «место» — имеющих по 18 градаций. Проанализировать ее и сделать обобщающие выводы весьма затруднительно. Однако анализ соответствий позволяет это сделать. Результатом его работы в данном случае является графическое описание таблицы сопряженности, представленное на рисунке. Изучение взаимного расположения точек и крестов дает следующие результаты. 1. На первое место, безусловно, выходит «ценность» ,№ 17 - «удовольствия», а к последнему, восемнадцатому, месту ближе всего находится № 11 - «равенство». Третье место занимает «материально обеспеченная жизнь», а «красота природы и искусство» располагается между третьим и шестым. Перечисление можно продолжать, но читатель легко сможет сделать это самостоятельно. Отметим, что в первой по важности половине оказываются такие ценности, как «удовольствия», «активная жизнь», «жизненная мудрость», «интересная работа», «искусство и красота природы», «любовь», ^материально обеспеченная жизнь», «счастливая семейная жизнь» и «творчество». 2. Когда для какой-то градации признака «ценность» нельзя явно выделить градацию признака «место», следует говорить о том, что мнения о важности данной категории у опрошенных сильно расходятся. Примером может служить .№ 13 («свобода»), которая занимает промежуточную позицию между вторым и семнадцатым местом. 3. В работе [7] показано, что варианты признаков, симметричные относительно оси и находящиеся от нее на достаточно большом расстоянии, можно интерпретировать как противоположные по смыслу. В частности, это относится к №№ 2, 9. Варианты признаков, расположенные рядом (такие как №.№ 3,5,15), можно считать близкими по смыслу.
Рисунок
Графическое описание таблицы сопряженности - табл. 3: • - признак «жизненная ценность», + - «место»; градации первого признака обозначены их порядковыми номерами в табл. 2. Отметим, что анализ соответствий лучше всего использовать для предварительного изучения данных, формирования рабочих гипотез. Особенно удачным может быть его применение при пилотажных исследованиях. В заключение [следует сказать, что данный метод трудно реализуем без средств вычислительной техники, т.к. даже для таблицы
сопряженности размером 2х2 уже требуется большой объем вычислений. Литература 1. Адамов CJO., Енюков И..С. Методы обработки неколичественной информации, реализованные в пакете программ по прикладному статистическому анализу (ППСА) //Программно-алгоритмическое обеспечение анализа данных в медико-биологичееких исследованиях. М., Пущи-но, 1967. 2. Адамов CJO. Предельные свойства некоторых методов обработки нечисловой информации // III школа-семинар «Программно-алгоритмическое обеспечение прикладного статистического анализа». Тез.докл. Цахкадзор: ЦЭМИ АН СССР, 1987. 3. Адамов CJO. Визуализация неколичествеиных данных //Многомерный статистический анализ и вероятностное моделирование реальных процессов. М.: Наука, 1990. 4. Адамов С.Ю. Предельные свойства некоторых методов обработки нечисловой информации //Многомерный статистический анализ и вероятностное моделирование реальных процессов. М.: Наука, 1990. 5. Nishisato 8. Analysis of Categorical Data: Dual Scaling and Its Application. Toronto, 1980. 6. Статистические методы анализа информации в социологических исследованиях. М.: Наука, 1979. 7. Lebart L., Mori.ne.au A., Warwick К. Multivariate Descriptive Statistical Analysis. N.Y., 1984. 8. Гоштаутас А.. Семенов А.А.. Ядов ВА. Адаптированный вариант методики М.Рокича //Саморегуляция и прогнозирование социального поведения личности. Л.: Наука, 1979. [1] См. статью С.Ю.Адамова в настоящем номере журнала. [2] Адаптированная методика Рокича [8]. Исследование проводилось кафедрой физвоспитания МГУ под руководством Б.И.Новикова
|
Новое на сайте
- ИСТОРИЯ КАФЕДРЫ СОЦИОЛОГИИ (ФАКУЛЬТЕТ СОЦИОЛОГИИ) СмолГУ
- тест
- Объявление о наборе
- Егоров А.Г., Грибер Ю.А. Социокультурные особенности цветового проектирования городского пространства
- Фоменков А.И. Курсовой социологический исследовательский проект: учебное пособие для студентов-социологов. 2016.
- Баринов Д.Н. Студенческая мобильность в условиях глобализации (Болонский процесс)
- Образец оформления титульного листа и оглавление курсовоuго СИП (с 2020 г)
- Фоменков А.И. Оформление библиографического аппарата учебной исследовательской работы студента