Социология: методическая помощь студентам и аспирантам

Применение анализа

PDF Печать E-mail
Добавил(а) Социология   
05.09.10 10:56

К О Н СУ Л Ь Т А Ц И И

Применение анализа соответствий в обработке нечисловой информации

Ю.Н.Клишина

(Москва)

Статья знакомит в общих чертах с малоизвестным в отечественной практике исследований методом обработки нечисловой информации - анализом соответствий и демонстрирует его применение на конкретном социологическом примере.

Ключевые слова: нечисловая информация, метод анализа, анализ соответствий, ценностные ориентации.

Для анализа количественных (числовых) данных, за­данных шкалой отношений либо интервальной, у социолога 'имеется богатый арсенал статистических методов. Однако часто ему приходится работать с признаками нечисловой природы, измеренными номинальной или порядковой шкалой. К ним нельзя применить многие классические методы математической статистики, что существенно затрудняет исследования.


Между тем, вне рамок классического подход существует апробированный аппарат, предназначенный для анализа подобной информации. В частности, следует указе на так называемый анализ соответствий. Он широко используется за рубежом начиная с 60-х годов, однако в отечественную практику был внедрен сравнительно недавно. ЦЭМИ АН СССР создан пакет прикладных программ «САНИ», который реализует этот метод наряду с другими приемами обработки нечисловой информации[1] .

Цель статьи популяризировать идеи, предложенные в [1,2,3,4], опираясь на результаты работы с пакетом «САНИ».

Существуют два подхода к анализу соответствий. При первом устанавливается взаимное соответствие града! пары признаков; при втором объекты и категории неколичественных признаков представляются в виде точек на плоскости, что позволяет выделить аномальные наблюдения и возможные группировки, строить гипотезы о взаимосвязях.

Первый подход к анализу соответствий:

условный пример [5]

Три преподавателя были аттестованы десятью студентами по шкале «хороший», средний», «плохой» (см. табл.1).

Табл. 1 обобщает результаты опроса, но не позволяв сделать какой-то объективный вывод относительно деятельности преподавателей, поскольку, во-первых, получение распределение мнений нельзя интерпретировать однозначно во-вторых, процедура оценки носит довольно приблизительный характер: каждый студент имеет свои представления о «хорошем», «среднем» и «плохом» преподавателе, поэтому преподаватели, по сути дела, оцениваются по 10 различным,


Таблица 1

Распределение оценок преподавателей группой студентов

 

Порядковый номер преподавателя

«хороший»

«средний»

«плохой»

Сумма

1

2

3

1

3

6

3

5

3

6

2

0

10

10

9

Сумма

10

11

8

29

 

более или менее совпадающим, экземплярам предложенной шкалы. Устранить такие эффекты можно разными способа­ми, например, давая каждому варианту шкалы подробный комментарий. Однако представляется более интересным дру­гой путь: обобщая мнения студентов, получить числовые вы­ражения для этих вариантов, а затем на их основе посчитать средний балл каждого преподавателя. Таким образом можно установить соответствие между градациями первого и второго признака: между порядковыми номерами преподавателей и характеристиками «хороший», «средний», «плохой». Други­ми словами, значения первого и второго признака можно представить в виде точек на числовой прямой и рассмотреть их взаимное расположение.

Предложенный метод позволяет параллельно с основ­ной задачей (подбором каждому преподавателю соответствую­щей оценки) решать ряд дополнительных, д том числе: полу­чить числовой эталон шкалы оценок Для группы респонден­тов; определить расстояние между вариантами шкалы, т.е. насколько «хороший» лучше «среднего», а «средний» - «пло­хого»; на основе вычисленных средних баллов провести срав­нение преподавателей, т. е. определить, во сколько раз и на какие величины различаются их рейтинги среди студентов.


Первый подход: математический алгоритм

Продемонстрируем его на нашем примере. Припишем метку Х1 - «хорошему», Х2 - «среднему», Х3 - «плохому ». Тогда средние баллы 1-го, 2-го и 3-го преподавателей соответственно можно выразить

Будем искать числовые значения Х1, Х2, Х3 наилучшим образом представляющие взаимосвязь признаков, таким способом, чтобы максимизировать показатель тесноты связи h2 между двумя признаками [б]. Способ нахождения Х1, Х2, Х3 излагается ниже мелким шрифтом. Представим решение в общем виде. Рассмотрим таблицу сопряженности признаков Х и Y, имеющих соответственно n и m гра­даций,

Обозначим si. - сумму строки i, a s.j - сумму столбца j. Построим по sj. диагональную матрицу


и аналогичную матрицу с элементами si.

 

 

Ищем собственные значения матрицы т.е. корни уравнения

Верно следующее: число собственных значений матрицы равно ее рангу; эти значения можно упорядочить по возрастанию (убыванию). Если q=rang А, то для множества решений ^ уравнения (4) получаем

l1 > l2>> ln.

В [1] показано, что искомыми метками являются координаты собст­венного вектора Х(Х1, Х2, Х3) матрицы А, которые находятся из системы линейных уравнений Ах = lх. Однако (4) порождает q соб­ственных значений матрицы А и, следовательно, q различных реше­ний задачи. В качестве основного выбираем собственный вектор

l1 = lmax = maxili, i = 1, …, q.

Насколько удачно полученное решение устанавливает соответ­ствие между признаками, можно судить по отношению


l1/SpA, (5)

где SpA = åli = åаij - след матрицы А.

Чем ближе (5) к единице, тем точнее полученное решение. Для нашего примера исходная матрица

а построенные на ее основе матрицы имеют следующий вид

Перемножим их по известной формуле: А = Ft Dn–1FDm –1

Найдем максимальное собственное значение матрицы А lI. Для этого решим уравнение (4), которое в нашем случае является уравнением третьей степени относительно l..


Его максимальный корень: l1 примерно paвен 0, 368. Для этого значения l1 построим собственный вектор. Решая систему линейных уравнений

0,381 X1 +0,357 X2 + 0,015 X3 = 0,368 X1

0.357 X1 + 0.0496 X2 + 0,024 X3 = 0,368 X2

0,15 X1 + 0.246 X2 + 0,048 X3 = 0,868 X3,

Находим: X1 » 1,0761; X2 » 0.092; X3 » 1,4717.

Для порядковой шкалы «хороший», «средний», «пло­хой» получены такие числовые значения: «хороший» при­близительно равен 1,0761; «средний» - 0,092; «плохой» -1,4717. Расстояния между «хорошим» и «средним», «сред­ним» и «плохим» соответственно составляют 0,984 (или 1,0761-0,092) и 1,379 (или 1,4717-0,092) и различаются на 0,395, т.е. предложенная шкала неравномерна. Происходит смещение в сторону положительных оценок. Это требует до­полнительного анализа как самой шкалы (возможно, она не­полна и нуждается в разукрупнении), так и выборочной совокупности (может быть, опрашиваемые более склонны давать положительные оценки, что искажает объективную картину).

Далее вычисляются по (1)-(3) средние баллы препода­вателей. Они соответственно равны: -1,2322, 0,1227, 1,2326. Сравнение полученных преподавателями баллов с числовыми значениями шкалы однозначно говорит о том, что, по мне­нию опрошенных, 1-й преподаватель является «плохим», 2-й - «средним», а 3-й - «хорошим». Можно сделать также вывод, что самый высокий рейтинг у 3-го преподавателя, причем, сравнивая баллы его и 1-го, можно предположить, что эти преподаватели являются антиподами с точки зрения их профессиональных характеристик.

Выясним, насколько хорошо представленное соответ­ствие отражает реальную ситуацию. Вычислим отношение (5)


Это означает, что в 78 случаях из 100 верно установленное соответствие между вариантами рассматриваемых признаков.

Предложенный способ анализа нечисловой информа­ции позволяет решать ряд социологических задач, связанных с использованием порядковых шкал (например задачи атте­стации, из года в год встающие перед социологом, работаю­щим на предприятии), обобщением мнений и др.

Второй подход к анализу соответствии:

математический алгоритм

Он применяется при работе с большим и сложным признаковым пространством, в котором соответствие можно установить только выходя за рамки прямой. Этот подход за­ключается в представлении градаций обоих признаков в виде точек на плоскости. Таким образом, результат представляет­ся не в виде чисел, которые исследователь сравнивает между собой, а графически. Это существенно облегчает восприятие и анализ материала, выдвижение и проверку гипотез.

Как и в предыдущем случае, ищется такое представ­ление признаков, которое наиболее точно отражает их взаи­мосвязь. Изложим математическую суть метода, сохраняя все введенные выше обозначения.

Градации признака Х представляются в одномерном про­странстве в виде п точек с координатами

а градации признака Y в виде т точек n-мерного пространства


(Относительные частоты используются для нивелирования различий в маргинальных частотах). Цель построений - графическое пред­ставление градаций признаков на одной плоскости. Для этого снача­ла решается задача отображения на плоскости каждого множества точек.

В [7] показано, что точки градаций признаков Х и Y пред­ставляются на плоскости с осями, являющимися собственными век­торами соответственно матриц Аx = FT Dn–1FDm –1 и Аy = F Dm–1FT Dn –1

Легко показать, что собственные вектора этих матриц ортогональ­ны. В [7] показано, что собственные значения А-у и Ау совпадают. Если иь и Vy собственные вектора матриц А-у и Ау соответственно, отвечающие fe-му собственному значению, то имеют место соотноше­ния

Это дает основание для совмещения представлений точек Х и Y на одной плоскости. Причем поиск координат точки Yi(Yi(u1), Yi(u2)) на плоскости (u1, u2) сводится к решению задачи предыдуще­го случая. Для отыскания координат Xj(Xj(v1), Xj(v2)на плоскости (v1, v2) решается симметричная задача. Доказывается, что выбран­ные главные оси наилучшим образом представляют взаимосвязь между исследуемыми признаками.

Если описывать алгоритм, используя решение пред­ыдущей задачи, то он становится чрезвычайно наглядным:

1) ищем два наибольших собственных значения l1, l2 матрицы Аx ;

2) вычисляем собственные вектора u1, u2, соответствую­щие этим значениям;

3) для каждого значения признака Х по найденным соб­ственным векторам определяем два средние балла, ко­торые и есть его координаты на искомой плоскости;

4) координаты значений признака Y находим, повторяя операции 1)-3) для матрицы Аy.


Второй подход: иллюстративный пример

Проводилось исследование по выяснению ценностных ориентации студентов в возрасте от 18 до 22 лет. Опрашивае­мым предлагалось для рассмотрения 18 жизненных ценно­стей (см. табл.2).[2]

Таблица 2

Жизненные ценности, фигурирующие в опросе

 

№ п/п

Название ценности

Пояснения

1

Активная жизнь

2

Жизненная мудрость

зрелость суждений и здравый смысл, до­стигаемый жизненным опытом.

3

Интересная работа

4

Искусство и красота природы

переживание прекрасного в природе и ис­кусстве

5

Любовь

духовная и физическая близость с любимым человеком

6

Материально обеспеченная жизнь .

отсутствие материальных затруднений

7

Дружба

наличие хороших и верных друзей

8

Мир, обстановка в Стране

общая хорошая обстановка в стране, в об­ществе, сохранение мира между народами, как условие благополучия каждого

9

Общественное признание

уважение окружающих, товарищей по работе

10

Познание

 

возможность расширения образования, кру­гозора

11

Равенство

братство, равные возможности для всех

12

Самостоятельность

независимость в суждениях и оценках

13

Свобода

независимость в поступках и действиях

14

Счастливая семейная жизнь

15

творчество

возможность Творческой деятельности

16

Уверенность в Себе

Свобода от внутренних противоречий, сомнений

17

Удовольствия

жизнь, полная удовольствий, развлечений, приятного проведения времени.

18

Здоровье

физическое и психическое здоровье

 


Используя метод парных сравнений, для каждого из опрошенных удалось проранжировать предложенные ценно­сти в порядке убывания важности (1 - наиболее важная, 18 -наименее важная). Общие результаты сведены в табл. 3.

Таблица 3

Ранжировка 18 жизненных ценностей респондентами

 

Порядковый номер ценности

Ранг («место»)

Panr

MeCTO)

1

2

3

4

5

6

7

8

9

10 11

12

13

14

15

16

17

18

å

1

6

4

5

5

3

6

2

4

2

3 2

2

3

3

1

1

2

0

54

2

5

6

6

3

4

3

5

1

2

2 4

0

2

4

2

2

1

2

54

3

2

4

7

2

2

4

3

4

1

4 4

2

4

3

3

2

3

0

54

4

2

5

8

5

3

7

6

3

3

4 3

1

1

1

0

1

1

0

54

5

2

5

2

7

4

3

2

4

2

3 1

4

4

2

3

2

2

1

53

6

3

1

4

4

8

6

6

6

7

2 1

0

1

3

2

0

0

0

54

7

1

0

2

0

5

1

3

3

2

2 3

7

2

5

4

5

1

8

54

8

1

1

2

2

5

1

5

3

7

3 3

1

0

3

3

6

3

5

54

9

0

0

0

4

2

4

3

3

2

3 5

3

2

2

7

2

8

4

54

10

3

2

1

2

5

4

2

1

2

2 2

7

6

6

3

1

3

2

54

11

0

1

1

1

0

1

0

4

3

1 5

5

5

3

2

6

7

9

54

12

0

0

0

3

4

3

1

1

8

4 4

2

4

2

5

6

2

5

54

13

5

10

1

2

0

1

2

3

2

3 2

1

4

2

3

7

3

3

54

14

3

4

1

5

2

4

3

4

2

3 4

3

5

1

5

2

2

1

54

15

3

5

4

3

2

1

4

4

1

3 5

2

3

9

1

2

0

2

54

16

2

1

7

3

3

2

3

4

1

2 1

6

2

2

2

4

4

5

54

17

15

4

0

2

2

3

2

1

5

3 2

4

0

1

0

1

7

2

54

18

1

1

3

1

0

0

2

1

2

7 3

4

6

2

8

4

4

5

54

å

54

54

54

54

54

54

54

54

54

54 54

54

54

54

54

54

54

53

 

Число 6, стоящее в первой строке и первом столбце, показывает, что шесть человек из опрошенных пятидесяти четырех считают для себя самым важным активную жизнь. «7» в четвертой строке и шестом столбце означает, что для семерых студентов искусство и красота природы занимают шестое место в ряду предложенных ценностей, и т.д.


Таким образом, получена таблица сопряженности признаков - «жизненная ценность» и «место» имеющих по 18 градаций. Проанализировать ее и сделать обобщающие выводы весьма затруднительно. Однако анализ соответствий позволяет это сделать. Результатом его работы в данном слу­чае является графическое описание таблицы сопряженности, представленное на рисунке.

Изучение взаимного расположения точек и крестов дает следующие результаты.

1. На первое место, безусловно, выходит «ценность» ,№ 17 - «удовольствия», а к последнему, восемнадцатому, ме­сту ближе всего находится № 11 - «равенство». Третье место занимает «материально обеспеченная жизнь», а «красота природы и искусство» располагается между третьим и шес­тым. Перечисление можно продолжать, но читатель легко сможет сделать это самостоятельно. Отметим, что в первой по важности половине оказываются такие ценности, как «удо­вольствия», «активная жизнь», «жизненная мудрость», «ин­тересная работа», «искусство и красота природы», «любовь», ^материально обеспеченная жизнь», «счастливая семейная жизнь» и «творчество».

2. Когда для какой-то градации признака «ценность» нельзя явно выделить градацию признака «место», следует говорить о том, что мнения о важности данной категории у опрошенных сильно расходятся. Примером может служить .№ 13 («свобода»), которая занимает промежуточную пози­цию между вторым и семнадцатым местом.

3. В работе [7] показано, что варианты признаков, симметричные относительно оси и находящиеся от нее на до­статочно большом расстоянии, можно интерпретировать как противоположные по смыслу. В частности, это относится к №№ 2, 9. Варианты признаков, расположенные рядом (такие как №.№ 3,5,15), можно считать близкими по смыслу.


Рисунок

Графическое описание таблицы сопряженности - табл. 3:

• - признак «жизненная ценность», + - «место»; градации первого признака обозначены их порядковыми номерами в табл. 2.

Отметим, что анализ соответствий лучше всего использовать для предварительного изучения данных, формирования рабочих гипотез. Особенно удачным может быть его применение при пилотажных исследованиях. В заключение [следует сказать, что данный метод трудно реализуем без средств вычислительной техники, т.к. даже для таблицы


сопряженности размером 2х2 уже требуется большой объем вы­числений.

Литература

1. Адамов CJO., Енюков И..С. Методы обработки неколичественной информации, реализованные в пакете программ по прикладному статистическому анализу (ППСА) //Программно-алгоритмическое обеспечение анализа дан­ных в медико-биологичееких исследованиях. М., Пущи-но, 1967.

2. Адамов CJO. Предельные свойства некоторых методов об­работки нечисловой информации // III школа-семинар «Программно-алгоритмическое обеспечение прикладного статистического анализа». Тез.докл. Цахкадзор: ЦЭМИ АН СССР, 1987.

3. Адамов CJO. Визуализация неколичествеиных данных //Многомерный статистический анализ и вероятностное моделирование реальных процессов. М.: Наука, 1990.

4. Адамов С.Ю. Предельные свойства некоторых методов об­работки нечисловой информации //Многомерный стати­стический анализ и вероятностное моделирование реаль­ных процессов. М.: Наука, 1990.

5. Nishisato 8. Analysis of Categorical Data: Dual Scaling and Its Application. Toronto, 1980.

6. Статистические методы анализа информации в социоло­гических исследованиях. М.: Наука, 1979.

7. Lebart L., Mori.ne.au A., Warwick К. Multivariate Descriptive Statistical Analysis. N.Y., 1984.

8. Гоштаутас А.. Семенов А.А.. Ядов ВА. Адаптированный вариант методики М.Рокича //Саморегуляция и прогно­зирование социального поведения личности. Л.: Наука, 1979.



[1] См. статью С.Ю.Адамова в настоящем номере журнала.

[2] Адаптированная методика Рокича [8]. Исследование проводилось кафедрой физвоспитания МГУ под руководством Б.И.Новикова

 

 
Понравился ли Вам сайт
 

Яндекс цитирования

Союз образовательных сайтов
Home Применение анализа