Социология: методическая помощь студентам и аспирантам

Информационное и програмное обеспечение

PDF Печать E-mail
Добавил(а) Социология   
05.09.10 10:57

ИНФОРМАЦИОННОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ

ДИАЛОГОВАЯ СИСТЕМА КЛАССИФИКАЦИИ И АНАЛИЗА ТЕКСТОВ[1]

Е.А.Каневский, Г.И.Саганенко, Л.М.Гайдукова, Е.Н.Клименко

(Москва)

ДИСКАНТ представляет собой систему для класси­фикации и обработки как текстовой, так и другого рода анкетной информации, которая хранится в базе данных системы. Обсуждаются новые особенности системы для анализа открытых вопросов. ДИСКАНТ открывает широкие воз­можности для анализа текстовых данных в социальных науках.

Ключевые слова: системы анализа данных, базы данных, контент-анализ, открытые вопросы, классификация текстов, итеративная классификация, анализ анкетной ин­фор­­мации, статистическая обра­бот­­ка дан­ных, визуализация данных.

Анализом содержания текстов занимаются многие исследователи при изучении влияния средств массовой инфор­мации на общественное мнение, при изучении документов истории и культуры, при изучении полити­ческого, экономи­ческого, юридического и даже экологи­ческого сознания общества. Одной из первых систем автоматизи­рованного анализа текстов является General Inquirer (Гарвард, 1968), основанная на широком исполь­зовании различных словарей [1]. Современная система TACT (Торонто, 1990) позволяет вычислить отношение встречаемости данного слова в окрест­ности выбранной точки (ключевого понятия) к общей встреча­емости этого слова. Наиболее развитой из известных является система TEXTPACK (ZUMA, Center for Survey Research and Methodology, Mannheim), которая также основана на широком использовании словарей [2].

Немного теории

Одним из методов качественно-количественного изучения содержания текстов является контент-анализ (КА). В процессе КА все многообразие текстов по интере­сующей исследователя тематике сводится к набору опреде­ленных элементов, которые затем подвергаются подсчету и анализу. В отличие от лингвистического анализа при КА подсчитывают не лингвистические единицы, а элементы содержания, которые можно определять по-раз­ному, чем и вызвана некоторая субъективность резуль­татов.

Обычно в качестве элемента содержания (единицы анализа) при "машинном" КА используют слово, которому ставят в соответствие определенную категорию. Это удобно, так как слово выделено в тексте пробелами изна­чально. Иногда для обозначения категории используют два-три слова, образующих устойчивое понятие. Однако слово характери­зуется лишь номинативной, назывной функ­цией. Единицей выражения мысли является предло­жение, которое используется в качестве единицы содер­жания при классическом ("ручном") КА. Мы применяем в качестве элемента содержания несколько другую единицу анализа - фразу, которая может состоять как из целого предложения, так и из нескольких слов, и даже из одного слова. Каждая фраза является выражением одного суж­дения, одной мысли. При автоматическом сравнении фразы считаются идентичными друг другу при совпадении двух-трех слов или одного-двух ключевых слов, более точную оценку идентичности фраз может дать исследователь при полу автоматическом анализе [3].

Анализируемые тексты имеют определенную струк­туру и представляют собой множество суждений, формули­ровок по реализации, поименованию некоторой идеи, состояния, явле­ния и т.п. В частности, в социологии такой материал дают суждения экспертов, высказывания по темам интервью, ответы на открытые вопросы и др. В психологии - это формулировки законченных предложений в тестах. В средствах массовой коммуникации - это назва­ния публикаций и передач, их тема­тическая направ­ленность.

Любые попытки применения КА к текстовым массивам неизбежно связаны с проблемой классификации и, следова­тельно, с разработкой классификатора. В боль­шин­стве иссле­дований заранее составляется формали­зованная, полностью закрытая схема классификации еще до начала обработки материалов [4]. В результате этого полу­чается стандартное описание текстовых массивов. При достаточно часто повто­ряющихся исследованиях, напри­мер, в средствах массовой информации, стандартный или, по крайней мере, почти постоянный классификатор даже помогает сравнивать резуль­таты последнего обследования с предыдущими.

При анализе быстро меняющейся ситуации даже опыт­ный исследователь, проводя обследования через 1-2 года, не может заранее, до получения материалов опроса, создать полностью готовый классификатор. Причина ясна: сместилась тематика ответов респондентов, их волнует уже не то, что год или два тому назад. Поэтому на один и тот же вопрос (открытого типа) они отвечают совсем не так, как раньше. В этом случае классификатор должен уточ­няться непосред­ственно в процессе КА, при осмыслении материалов данного опроса. Естественно, что необходимо обеспечить достаточно простой способ коррекции и попол­нения классификатора, а также возможность сравнительно простой переориентировки фраз из одной группы в другую, из одного класса - в другой. Иначе все попытки изменения классификатора не дадут результатов.

Следует отметить, что простейшая структура клас­си­фи­катора обычно напоминает таблицу и содержит категории (группы) и их модальности (типы). При этом каждая категория имеет один и тот же набор модальностей. Более сложный классификатор имеет древовидную струк­туру, состоящую из классов и групп, причем каждый класс может иметь свой набор групп.

Система ДИСКАНТ

Основополагающей для диалоговой системы класси­фи­кации и анализа текстов (ДИСКАНТ) является идея упростить работу с текстовой информацией, используя методы КА текста совместно со словарным анализом. Система является ориги­нальным программным продуктом и не имеет прямых аналогов.

Система ДИСКАНТ предназначена прежде всего для обработки произвольных текстовых ответов на вопро­сы структурированной анкеты в сочетании с "жесткой" (ко­ли­чест­венной) информацией закрытых вопросов. Кроме того, система позволяет обрабатывать неструктури­ро­ванную текс­товую информацию разного рода, а также выполняет неко­торые элементы анализа текста: состав­ление словарей и указателей, подсчет частоты встреча­емости слов, поиск слов в тексте и в словаре и т.п.

В состав системы входит встроенная реляционная база данных (БД), которая обеспечивает хранение цифровой и текстовой информации в формате, близком к формату DBF-файла. Созданы специальные средства для облегчения разработки классификатора фраз и работы с ним. В рамках общего массива информации система позволяет вести обработку целого ряда текстовых подмассивов, соответст­вующих различным темам и требующих автономных процедур классификации и анализа. Результаты можно вывести на экран, распечатать или записать в файл. Полная визуализация результатов облегчает пользование системой.

Основные характеристики версии 5.4

Выбор режимов работы системы осуществляется с помощью оконных меню.

·Окно СТРУКТУРА обеспечивает задание струк­туры БД и ее редактирование. БД может содержать до 300 полей, в каждом из которых целесообразно хранить ответ респондента на один вопрос. Имя поля, соответствующее вопросу анкеты, содержит до 44 символов (как русского, так и латинского алфавита). Имеются поля символьного, целого и смешанного типов (анкеты с открытыми, закры­тыми и полузакрытыми вопросами). Они имеют размер до 234 символов, при необходимости поле автоматически расширяется до 1248 символов. Поля других типов (число­вые, логические, даты и др.) не могут расширяться.

·Окно БАЗА ДАННЫХ обеспечивает возможность заполнения БД путем ручного ввода данных, их просмотра и коррекции по полям и по анкетам. Каждая анкета зано­сится в БД в виде самостоятельной записи, размер которой не превосходит 32 Кбайт. Хотя по своим техническим пара­метрам БД допускает до 2 млн. записей, для последующей словарной обработки необходимо, чтобы произведение коли­чества анкет на количество полей не превышало 40960. Обеспечивается возможность выделения ключевых слов, разбиения текстовых ответов респондента на фразы и отбор некоторых из них для первичной классификации. Преду­смотрена возможность формирования новой БД на основе уже имеющихся.

·Окно СТАНДАРТНЫЙ СЛОВАРЬ обеспечивает возможность создания словарей слов, ключей и фраз по текстам, хранящимся в БД. Размер словаря - до 150 Кбайт, каждый элемент словаря имеет ссылку на номер анкеты и поля. Словари позволяют анализировать частоту встреча­емости отдельных элементов и осуществлять различного вида поиски. В частности, имеется возможность поиска элементов в стандартном словаре или фраз в тексте (по словам из словаря) при задании на поиск всего слова или его начала. Можно осуществить также глобальный поиск, при котором последо­вательно перебираются все слова из словаря и для каждого выводится соответствующий текст из БД.

·Окно КЛАССИФИКАТОР обеспечивает возмож­ность создания классификатора, его просмотра и редак­тирования. Сам классификатор представляет собой древо­видную струк­туру имен классов и групп, он может иметь до 25 классов, по 99 групп каждый. Обеспечена возможность классификации фраз с образованием базовых фраз для после­­дующего анализа. Принадлежность любой фразы к той или иной группе (и классу) может быть изменена в процессе вторичной класси­фикации.

·Окно НОРМАТИВНЫЙ СЛОВАРЬ обеспечивает возможность создания нормативных словарей слов, ключей и фраз из базовых фраз. Каждый элемент такого словаря имеет ссылку на номер соответствующей фразы. Норма­тивные словари используются для КА в процессе иденти­фикации фраз.

·Окно АНАЛИЗ обеспечивает возможность иденти­фи­кации фраз, то есть сравнения всех фраз из выбранного поля с базовыми. Возможен анализ распределения фраз из заданных полей по классам и группам. При наличии управляющей БД обеспечивается анализ по вторичным признакам с выводом результатов в виде двумерных гисто­грамм. Кроме того, предусмотрена возможность анализа распределения количест­ва фраз и сочетаний классов.

·Окно ОБРАБОТКА обеспечивает возможность ста­тис­­тического анализа ответов респондентов на закрытые вопросы анкеты. Вычисляются одномерные, двухмерные, трехмерные и многоальтернативные статистические ана­лизы.

·Окно СЕРВИС обеспечивает возможность импорта данных из текстового файла в БД и обратно (в нескольких форматах). Для уточнения размеров полей при заведении новой БД можно получить распределение по длине текс­товых ответов.

База данных системы

Система имеет гибкую в обращении базу данных (БД), позволяет хранить первичную информацию в удоб­ном и естественном виде, обеспечивая простой доступ к массиву в целом, анкетам, полям (вопросам), их редак­тирование, про­смотр, вывод на печать или в файл. Рассмотрим некоторые особенности БД.

·В обычных случаях работы с БД пользователь, как правило, легко мирится с сокращенными наименованиями полей. Если же в БД занесены анкеты и система в целом должна обеспечить их обработку, то все время возникает необходимость соотносить ответ респондента (содержимое поля БД) с вопросом анкеты (наименованием этого поля). Увеличенный по сравнению с обычным размер наимено­вания поля и возможность использовать в нем как русский так и латинский алфавит обеспечивают достаточно адек­ватные наименования полей.

·Кроме стандартных для БД полей [5], в рассмат­риваемой БД имеются поля целого и смешанного типов. Такой набор типов полей позволяет наиболее адекватно хранить ответы респондентов, учитывая, что в анкетах имеются откры­тые, закрытые и полузакрытые вопросы, причем послед­ние могут быть как одно-, так и много­альтернативные.

В поле типа "Целое" могут размещаться одно или несколько целых чисел, которые соответствуют номерам вариантов ответов, выбранных респондентом. Они разде­ляются друг от друга запятыми.

В поле типа "Смешанное" могут размещаться одно или несколько целых чисел и текстовый ответ респондента. Различаются два подтипа таких полей. В первом случае за числами следует текст, во втором - за текстом следуют числа. В обоих случаях числовая часть специальным зна­ком отделяется от текстовой. Это позволяет произво­дить обработку разных частей такого поля независимо друг от друга и в то же время полностью сохранить структуру анкеты.

·База данных системы обладает еще одной харак­терной особенностью: поля могут иметь переменную длину. Это дает возможность пользователю просмотреть несколь­ко анкет и определить по ним примерную длину полей. Если при вводе ответов респондента они не помещаются в данное поле, то достаточно включить расширение и в распоряжении пользо­вателя оказывается почти весь экран - 1248 символов.

После окончания набора данного ответа респон­дента формируется новое поле с учетом фактической длины ответа, а весь текст размещается в двух местах: начало в заданном пользователем поле, а окончание - в специальном файле рас­ширения, причем в поле об этом делается соответствующая отметка. Если поле имеет расширение, то просмотреть все содержимое такого поля можно только в режиме редакти­рования.

·С помощью встроенных в систему вспомога­тель­ных программ созданная любым образом (путем импорта текс­тового файла или ручным набором текста с помощью системы) база данных легко может быть реорганизована, причем могут быть изменены как размеры полей, так и порядок их расположения.

Если пользователь хочет изменить размеры полей с целью сократить размер БД или обеспечить максимально возможный вывод информации из поля, то он может экспортировать массив анкет в текстовый файл. Затем с помощью вспомогательной программы можно определить максимальные размеры всех полей, а при желании и увидеть распределение длин ответов по каждому полю в отдельности. Эта же программа определяет для каждого поля его оптимальную длину, то есть такую длину, при которой около 75% ответов не требуют расширения. Если задать рекомен­дуемые размеры полей и импортировать текстовый файл в новую БД, то как показывает анализ анкет, полученные при этом размеры файлов БД близки к минимально возможным.

Возможности системы

·После создания структуры БД и ввода информации в систему все исходные тексты разделяются на фразы, каждая из которых сфокусирована на одной теме. Прописными буквами выделяются ключевые слова. Массив анкет в дальнейшем обрабатывается или последовательно анкета за анкетой (продольный разрез), или по одно­именному полю всех анкет (поперечный разрез). Кроме того, путем наложения ряда условий может быть задан подмассив (подмножество) анкет для последующей обра­ботки. С помощью аппарата стандар­тных словарей выпол­няется предварительный анализ выбран­ного подмассива текста, в результате чего наиболее харак­терные и повторяющиеся фразы отбираются для первичной класси­фикации.

·На основе анализа текстового подмассива и преды­дущего опыта исследователь создает первичный вариант классификатора. Он может создаваться для каждого поля в отдельности, а может объединять несколько полей.

·Далее производится классификация ранее отобран­ных фраз, в процессе которой каждой фразе присваивается соответ­ствующие ее смыслу класс и группа. Если это затруд­нительно, то временно можно не задавать группу (и класс) - такой фразе присваивается нулевая группа (и нуле­вой класс). Проделав эту процедуру со всеми файлами отобранных фраз, которые должны быть объединены в данном классификаторе, мы получим массив базовых фраз. В процессе классификации происходит уточнение и допол­нение самого классификатора.

Таким образом, классификация выполняется внутри системы и не требует априорных схем. При этом для осу­ществления более оптимальной классификации исполь­зуется несколько приемов поддержки: стандартные слова­ри, режимы глобального поиска, поиск фраз по словам и пр.

·На основе базовых фраз формируются норма­тивные словари слов, ключевых слов и фраз, после чего по каждому полю отдельно выполняется процедура идентифи­кации текс­та. Она осуществляется путем контент-аналити­ческого срав­нения всех фраз с базовыми в диалоговом режиме. Если для очередной фразы найден аналог, то его идентификатор фиксируется в файле идентификаторов. Если нет, то фраза отправляется в файл дополнительных фраз. После окончания процедуры идентификации (а она может быть прервана в любой момент) такие фразы классифицируются дополни­тельно и пополняют массив базовых фраз, затем идентифи­кация повторяется. Такой итерационный процесс продолжа­ется до полной идентифи­кации всего текстового подмассива.

Сущность предлагаемой методики сводится к тому, что вместо 100-процентной классификации всех фраз проводится классификация только части фраз, а все осталь­ные фразы отождествляются с ними. Это дает двойное преимущество. Во-первых, сокращается объем работы по классификации фраз. Во-вторых, при любом изменении классификатора - а это не исключение, а правило при анализе текстов - достаточно изменить класс и группу у ряда базовых фраз, чтобы автоматически произошли соответствующие изменения и у всех остальных фраз, аналогичных им.

·Наиболее просто анализируется распределение фраз по классификатору. Результаты выводятся в процентах в виде таблицы, гистограммы или круговой диаграммы. Можно сопоставить результаты итоговой классификации для одного и того же классификатора по любым возмож­ным подмассивам.

Для сопоставления текстовых и числовых ответов следует сформировать вторичные признаки в управляющей БД, которая имеет ту же структуру, что и основная БД. Для каждого признака запоминается его имя, номера исполь­зуемых им полей, условия его вычисления и ряд служебных пара­метров. После этого система позволяет анализировать распре­деление фраз по классификатору и вторичным приз­на­кам с представлением результатов в виде таблицы и "двумер­ных" гистограмм. Для таких гистограмм харак­терно неравно­мерное распределение ответов по классам и признакам. Одна из подобных гистограмм, на которой представлено распре­деление 1955 фраз по двум признакам (позитивные и негативные ответы) и 10 классам, изобра­жена на рисунке.

Для заданного набора полей можно получить распреде­ление фраз по их количеству. Это позволяет выяс­нить, какие вопросы больше волнуют респондентов, вызы­вают больше эмоций.

Результаты анализа сочетаний классов в каждой анкете для выбранного набора полей представляются в виде двух многомерных таблиц. В первой из них приво­дится число всех встречающихся сочетаний классов. Все возможные комбина­ции из них приведены во второй таблице. Этот анализ позволяет понять, сочетания каких тем встречаются в ответах чаще всего.

·Таким образом, полный цикл анализа каждого тексто­вого подмассива состоит из пяти этапов: создание массива отобранных фраз, разработка классификатора, классификация отобранных фраз и формирование массива базовых фраз, идентификация оставшихся (не включенных в базовые) фраз с базовыми, получение распределений. Каждая итерация позво­ляет пополнять базовые фразы и классификаторы и соответ­ственно изменяет результаты идентификации и распределения. На любом этапе можно проверить результаты классификации и идентификации и вернуться назад, исправив данные или принятые исследо­вателем решения.

·Анализ числовых данных (жестких признаков) является традиционным для систем обработки анкет. Ста­тис­тическая обработка данных в рассматриваемой системе производится только для полей целого или смешанного типа, соответ­ствующих закрытым или полузакрытым вопросам. Прежде всего необходимо определить макси­мальное количество ран­гов (градаций) для каждого из этих полей и закрыть полузакрытые вопросы. Затем надо ввести нужное количество рангов для каждого из полей, после чего можно приступать к статистическому анализу ответов на одноальтернативные вопросы:

- при одномерном статистическом анализе резуль­таты выводятся в виде таблицы и гистограммы, кроме того, подсчитываются значения средних величин и энтропии;

- при двумерном статистическом анализе результаты выводятся в виде таблицы, подсчитываются значения , сред­них градаций обоих полей, коэффициентов сопряжен­ности и корреляции Пирсона;

- при трехмерном статистическом анализе резуль­таты выводятся в виде многомерной таблицы, в которой для каждого имеющегося набора рангов выводятся коли­чество анкет и их процентное содержание.

При многоальтернативном статистическом анализе результаты выводятся в виде двух многомерных таблиц. В первой из них для заданного набора полей приводится количество всех встречающихся сочетаний рангов. Все возможные комбинации из них представлены во второй таблице.

Некоторые особенности ДИСКАНТ

·Если информация попадает в БД системы путем импорта из текстового файла, то легко обеспечить правиль­ность набора путем предварительной проверки текста на какой-либо системе контроля правописания. Обычные текс­товые редакторы имеют строки длиной до 255 символов, системы контроля правописания работают со строками той же длины: ДиаКор - со строками до 250 символов, Кор­ректор - до 252 символов. Это достаточно хорошо согласу­ется между собой.

Но как быть, если информация вводилась в ДИСКАНТ вручную, и отдельные ответы респондентов превышают 255 символов? Для решения этой проблемы имеется специальный режим экспорта данных с авто­ма­тическим разбиением длинных строк на несколько корот­ких, причем обеспечен последующий импорт такого файла в БД системы после его проверки и коррекции.

·Система позволяет анализировать и отдельные тексты, вообще не имеющие какой-либо структуры. Для анализа такого текста, набранного в одном из текстовых редакторов в формате ASCII, следует создать БД, состоя­щую из одного поля символьного типа и перед импортом файла переформа­тировать исходный текст на максимально возможную длину строки, исключив переносы. При желании разместить в одной записи несколько строк их следует заключить в "абзацные" скобки (знаки "<" и ">").

·Хотя ДИСКАНТ формально и обеспечивает рабо­ту с текстами, набранными латинскими буквами, вся сис­тема настроена на обработку русскоязычных текстов. Для эффективной работы с текстами на других языках требу­ется определенная языковая настройка.

·В заключение отметим, что для работы системы ДИСКАНТ достаточно IBM AT 80286, MS-DOS 5.0 и 0,8 Мб свободного места на жестком диске или дискете.

 



ЛИТЕРАТУРА

1. Coxon A.R.M., Trappes-Lomax H.R.N. INQUIERER III (Edinburg's version). Edinburg Univer., Jan.1977, Rep.92.

2. Text Analysis and Computers//Conference Programme and Abstracts. Mannheim, Germany: ZUMA, Center for Survey and Methodology, 1995.

3. Каневский Е.А., Клименко Е.Н., Гайдукова Л.М. Контент-анализ текстов и проблемы идентификации//Инфор­мационные техно­логии в гуманитарных и общественных науках. СПб:Спб ЭМИ РАН, 1995.

4. Коробейников В.С. Методы качественно-количественного ана­лиза содержания документов//Методы анализа докумен­тов в социологических исследованиях. М.:ИСИ АН СССР, 1985.

5. Гринберг Ф., Гринберг Р. Самоучитель программирования на входном языке СУБД dBASE III/Пер. с англ. М.:Мир, 1989.



[1] Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований. Грант №96-0680216.

 

Последнее обновление 01.12.10 21:40
 
Понравился ли Вам сайт
 

Яндекс цитирования

Союз образовательных сайтов
Home ИНФОРМАЦИОННОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ