Ловушки анализа данных

Главное меню

Самое читаемое

Ловушки анализа данных

Добавил(а) Социология

05.09.10 11:05

Ловушки анализа данных
© П.Н.Дубнер, 2000

Всем известно, что имеется три вида лжи: во-первых, ложь вынужденная, которая извинительна, во-вторых, ложь низкая – ей нет никакого извинения, и в третьих, - статистика (это высказывание приписывается то Марку Твену, то Дизраели).

Собственно, основная ценность статистики заключается в том, что она позволяет делать выводы о свойствах большой группы объектов – популяции, генеральной совокупности – по свойствам относительно малой ее подгруппы. Ясно прежде всего, что это сопряжено с ошибками. Но даже самая возможность говорить о свойствах популяции на основании свойств выборки предъявляет к этой выборке достаточно жесткие требования. Увы, объективная проверка этих требований не всегда (да что там! практически никогда не) выполнима.

Репрезентативность – наиболее фундаментальное, но и труднее всего формализуемое свойство. Согласно словарю "репрезентативность в статистике – соответствие характеристик, полученных в результате выборочного наблюдения, показателям, характеризующим всю генеральную совокупность". К сожалению, приведенное определение нельзя считать полноценным – чтобы сделать его работоспособным, потребуется определить термин "генеральная совокупность", перечислить характеризующие ее "показатели" и дать способы вычисления соответствующих выборочных "характеристик", а, главное, задать способ установления соответствия между характеристиками выборки и показателями генеральной совокупности.

Ситуация достаточно стандартна: применимость всякой теории регламентируется некоторым количеством неверифицируемых предположений о реальности. В этих условиях успех применения теории определяется интуицией, опытом и удачей исследователя.

Принято считать, что идеальная выборка получается при случайном отборе, когда вероятность попасть в выборку одинакова для всех элементов генеральной совокупности. Это, конечно, правильно, но, к сожалению, не всегда возможно и потому часто пытаются добиться совпадения распределений хотя бы некоторых, считаемых ключевыми, характеристик выборки и генеральной совокупности.

Иногда этот подход срабатывает. Но!.. Рассмотрим ситуацию, в которой оказывается врач, исследующий какое-либо редкое заболевание. Он попросту вынужден отбирать пациентов: ведь иначе объем соответствующей части его выборки окажется недостаточным.

Ситуация часто существенно проще в технических областях, где предполагается, что существенные взаимосвязи между разными переменными сохраняются при изменении их маргинальных распределений. Именно это условие, опять не поддающееся верификации, позволяет проводить так называемые активные эксперименты. В социальных и/или экономических приложениях реальность устроена гораздо тоньше, поэтому и вопросы планирования экспериментов в них намного сложнее.

В качестве примера рассмотрю любимое развлечение наших телекомментаторов. Процедура такова: Задается какой-нибудь более или менее разумный вопрос (как правило, сформулированный так, что на него нельзя дать разумный ответ) и телезрителям предлагается звонить по одному из трех телефонных номеров в зависимости от одного из трех предлагаемых ответов. После этого по числу позвонивших делаются выводы о мнении населения. Неудивительно, что у нас результаты опросов имеют совсем слабое отношение к результатам выборов! Ведь статистические свойства электората, дошедшего до избирательных пунктов, почти наверное отличаются от свойств выборки дозвонившихся. Интересно было бы узнать, каковы свойства специалистов, готовящих социологическую информацию для обличенных властью.

Другой пример: статистические свойства популяции тех, кто ищет работу сейчас, сильно отличаются от свойств популяции тех, кто искал работу до печально знаменитого кризиса 17 августа. Не очевидно ли, что закономерности, выведенные на тех выборках, имеют слабое отношение к нынешней реальности?

В некоторых случаях различие выборок удается учесть включением в модель так называемых ковариат. Однако, даже в тех случаях, когда этот подход применим, нет и не может быть уверенности в том, что включены все существенные переменные, все влияющие ковариаты, что их включение не нарушило предположения, на которых базируется применяемый метод.

Кстати о предположениях. Всякая статистическая процедура базируется на некотором количестве предположений о реальности. Например, классические линейные метод, такие, как дисперсионный анализ (analysis of variance, ANOVA), основываются на предположениях о нормальности и независимости наблюдений, составляющих выборку.

Первое из этих требований иногда удается ослабить – за счет преобразования данных или применения более изощренных критериев. Так, известно, что статистики ANOVA не слишком чувствительны к умеренным отклонениям от нормальности. Про критерии, устойчивые к умеренным отклонениям от исходных предположений, при которых они были выведены, говорят, что они робастны (robust). Использование таких критериев, что называется, чревато – практически никто не может побороть искушение забыть о каких бы то ни было требованиях к распределению выборки. А ведь робастность – это лишь одно из свойств статистического метода, а не индульгенция с отпущением всех грехов.

Еще один способ "побороть" неудобное распределение – преобразование данных. Этот подход, однако, также не всегда удовлетворителен, поскольку плохо подобранные преобразования могут привести к плохо интерпретируемым результатам.

Пожалуй, чаще предположения о нормальности распределения выборки встречается лишь предположение о независимости ее элементов; оно требуется практически всем статистическим методам. Соответственно, и нарушается оно чаще (я не проводил соответствующее социологическое исследование!). Наблюдения, тем или иным образом связанные: детали, произведенные на одном станке, учащиеся одной группы, покупатели одного микрорайона – вот примеры источников возможной зависимости. В самом деле, предположим, что вы исследуете взаимосвязь между оценками учеников и одним из трех учебников. Ограничиваясь учениками одного класса, вы почти наверняка вносите смещение в ваши результаты. В самом деле, ведь ученики одного класса обмениваются впечатления об учебниках и о задаваемых им задачах, а этого вполне достаточно, чтобы сделать результаты неточными.

Один из способов борьбы с подобными явлениями – агрегировать наблюдения, например, считать единицей анализа целый класс наблюдений. К сожалению, при этом теряется мощность применяемых критериев, поскольку сильно сокращаются объемы выборок. К счастью, в последнее время разработаны методы, позволяющие работать с подобными иерархическими выборками. К сожалению, новейшие методы мало знакомы исследователям и пока не представлены в основных статистических пакетах.

Методологические трудности

Можно представить себе много способов неверного применения статистических методов и все они встречаются на практике. Я разберу три из них, наиболее частые.

Мощность. Эта тема стала в последнее время очень модной; появилось несколько статистических пакетов, специально посвященных мощности различных критериев (один из них – увы, вовсе не самый удачный! – так и называется Power and Precision, т.е. "Мощность и точность"). Научная общественность пытается внедрить соответствующие идеи в практику, причем (речь здесь идет о США) действует вполне традиционными для советского человека административными методами: воротилы от тамошней науки добились того, что федеральные организации теперь не принимают результаты финансируемых ими исследований, если в них отсутствуют рассуждения о мощности использованных критериев. Результаты, конечно, плачевны – в большой части отчетов о статистических исследованиях к "старым" ошибкам добавлены новые. (Утверждение основано на чтении довольно большого числа отчетов, содержащих описания обработки данных, и на довольно большом числе консультаций по статистическому анализу, данных лично мною.)

На нижеследующем рисунке иллюстрируется концепция мощности при проверке статистической гипотезы. На графике изображены две кривые, соответствующие нулевой и альтернативной гипотезам, причем вертикальная пунктирная линия соответствует нулевой гипотезе, а вертикальная линия справа от нее задает левую границу критической области: если наблюденное (т.е. вычисленное по выборке) значение статистики критерия попадет в нее (т.е. попадет справа от вертикальной сплошной линии), мы отвергаем нулевую гипотезу. Если же наблюденное значение попадает слева от этой линии, мы отвергаем альтернативную гипотезу и не отвергаем нулевую. Вообще-то, принимаем гипотезу (нулевую или альтернативную), но статистики избегают высказываться столь определенно; в данном тексте я не буду столь осторожен. Чаще всего нам бывает нужно проверить, имеются ли различия между двумя ситуациями, причем нулевая гипотеза означает отсутствие различий, а альтернативная – их значимость.

Напомню, что при проверке гипотезы мы можем допустить одну из двух ошибок. Одна из них – ее называют ошибкой 1-го рода – состоит в том, что мы отвергаем нулевую гипотезу в случае, когда она истинна; вероятность допустить такую ошибку традиционно обозначают греческой буквой (и потому ее саму часто называют попросту альфой). На приведенном рисунке этой ошибке соответствует заштрихованная область под левой кривой справа от границы критической области. Мы можем совершить и другую ошибку – так называемую ошибку 2-го рода: мы совершаем ее, если мы принимаем нулевую гипотезу, когда она ложна (или, что то же самое, отвергаем альтернативную гипотезу, когда она верна). Вероятность допустить такую ошибку принято обозначать буквой ; на приведенном рисунке этой ошибке соответствует заштрихованная область под правой кривой слева от границы критической области; соответственно, и ее часто называют просто бетой.

Мощность определяется как вероятность того, что мы не допустим ошибку 2-го рода, т.е. она равна 1-. То же самое по-другому: эта вероятность соответствует способности статистика почувствовать имеющееся различие. То же самое по-другому: мощность измеряет чувствительность используемых статистиком орудий.

Мощность критерия зависит от: объема выборки, "силы" имеющегося различия, вероятности ошибки первого рода и, вообще говоря, вариабельности выборки.

Как правило, мощность увеличивается с ростом объема выборки. Мой любимый пример – сравнение скорости скаковых лошадей: если одна из них значительно превосходит другую, достаточна совсем короткая дистанция; если же скорости практически равны, потребуется адекватно длинная дистанция. Другой стандартный пример – проверка эффективности лекарства от головной боли. Как правило в подобных исследованиях формируют контрольную и экспериментальную группы, в одной из которых пациентам дают плацебо (безвредное вещество, ни на что не влияющее), а пациентам другой – исследуемое лекарство. Если доля пациентов контрольной группы, которым таблетка помогла, совпадает с аналогичной долей в другой группе, то лекарство не эффективно. Ясно, что если объемы групп достаточно малы (скажем, всего исследовано лишь 10 человек), то никакое различие эффективности не окажется слишком большим.

Известно, что практически всегда мощность критерия падает с уменьшением альфы; это хорошо иллюстрирует приведенный пример: если на картинке сдвигать левую границу критической области вправо, то одновременно с уменьшением вероятности ошибки первого рода растет вероятность ошибки второго рода.

Интуитивно понятно также, что с ростом "силы" различия обе вероятности уменьшаются, а с ростом вариабельности увеличиваются. Иногда удается построить формулу, позволяющую по этим четырем величинам вычислять мощность используемого критерия. Иногда удается даже представить взаимозависимость между этими пятью величинами в функциональной форме – так что, скажем, задав требуемую мощность, зафиксировав уровень значимости и вариабельность, мы можем определить требуемый объем выборки.

Если мощность критерия слишком мала, возникает опасность пропустить наличие искомого эффекта, поскольку суждение о наличии различий основывается на проверке их отсутствия.

Но не следует думать, что критерий всегда тем лучше, чем его мощность выше. Скажем, если объемы сравниваемых выборок слишком велики, критерий может "отлавливать" практически любое различие между ними, неважно, насколько важно оно с прикладной точки зрения. Это может оказаться неудобным в ситуациях, где выбор способа действий основывается на статистических выводах. Чуть ниже я еще вернусь к этому.

Множественные сравнения. Вот пример тонкого вопроса, вызывающего неисчислимое количество логических и статистических ошибок. В особенности потому, что множественные сравнения возникают, как правило, в достаточно сложных ситуациях, где и специалисту разобраться нелегко. Вспомним о том, что при каждом отдельном сравнении мы можем допустить ошибку первого рода, причем уровнем значимости задается вероятность того, что мы ее допустим. Пусть, например,=0.05. Тогда вероятность того, что мы не допустим ошибку при отдельной проверке и не отвергнем нулевую гипотезу, когда она верна, не меньше 1-0.05=0.95.

Предположим теперь для определенности, что нас интересуют взаимосвязи между 10 переменными. Мы начинаем с того, что вычисляем 45 всевозможных корреляций и проверяем, какие из них значимы (т.е. значимо отличаются от нуля). Вот тут то и начинается развлекуха: даже если предположить, что все сравнения независимы (в нашем примере это не верно!), вероятность того, что мы не допустим ни одной ошибки равняется произведению вероятностей того, что мы не ошиблись в одиночном сравнении. В нашем случае имеем 0.95⁴⁵, т.е. примерно 0.099. Таким образом, наши шансы не ошибиться ни разу довольно близки к нулю. На нижеследующей картинке показана зависимость вероятности по крайней мере одной ошибки от числа сравнений; одна кривая иллюстрирует случай, когда каждое сравнение производится с уровнем значимости =0.05, другая – случай с уровнем значимости =0.01.

Итак, если мы возьмем 10 совершенно независимых (и некоррелированных) переменных (т.е. возьмем выборку, каждый объект которой характеризуется такими переменными) и вычислим 45 корреляций, в среднем 4 из них покажутся нам значимыми. Обратите внимание: предполагается, что переменные независимы. Если они вдруг окажутся зависимыми, ожидаемое число ошибок еще увеличится.

Итак, после того, как мы вычислили наши корреляции и обнаружили, что, скажем, 13 из них оказались значимыми, у нас начинается веселое время, посвященное выяснению того, какие из переменных действительно связаны, а какие связи ложны.

Для облегчения нашей участи предложены разнообразные способы. Наиболее простой идейно способ состоит в том, чтобы уменьшить значимость каждой отдельной проверки, уменьшим, тем самым, вероятность ошибки составной процедуры. Соответствующее изменение значимостей называют поправкой Бонферрони. К сожалению, простота не всегда благо, поскольку если количество сравнений велико, уровни значимости единичных сравнений становятся слишком близкими к нулю, и, соответственно, мощность критерия также становится практически нулевой; это значит, что практически никогда мы не сумеем отвергнуть альтернативную гипотезу (посмотрите на самую первую картинку и представьте себе, что будет, если сплошную вертикальную линию передвинуть сильно вправо!).

Гораздо лучше, хотя, конечно, и дороже, проведение повторного эксперимента – сбор дополнительной информации. Хотя и этот метод не гарантирует от ошибок (а что гарантирует?), его надежность, несомненно, гораздо выше, чем у наивных подходов. На самом деле, можно даже и не повторять сбор данных, а применить процедуру перепроверки (cross-validation; в русской литературе ее часто называют процедурой скользящего контроля). Идея состоит в том, чтобы изъять из выборки несколько элементов, посчитать и проверить корреляции, причем повторить этот процесс несколько раз. Как правило, подобные процедуры позволяют выделять ложно-значимые результаты.

Ошибки измерения. В большинстве статистических моделей предполагается, что значения независимых переменных измеряются без ошибок. Однако, мы знаем – измерения редко бывают совершенными. Наиболее важными характеристиками измерений являются воспроизводимость и адекватность.

Воспроизводимость означает возможность получать одинаковые результаты при проведении повторных измерений на одном и том же объекте. Эта фраза нуждается в дальнейших уточнениях. Имеется некоторое количество стандартных требований к процедуре измерения. Одним из них является ее независимость от времени; однако, легко придумать ситуации, когда это требование излишне или неадекватно (таково, скажем, измерение роста ребенка в течение первых лет его жизни). Я, пожалуй, специально поговорю о проблеме измерения на другой страничке. Здесь лишь отмечу, что при разговорах об измерениях удобно отделить процедуру (алгоритм) измерения от ее применения; с измерениями также связаны такие понятия, как совокупность подлежащих измерению объектов, шкала результатов, точность, надежность и т.д.

Адекватность (validity) процедуры измерения настолько важна, что я упомяну ее прямо сейчас. Говоря совсем нестрого (а только так и приходится говорить об адекватности), мы называем процедуру измерения адекватной, если она измеряет именно то, что мы собираемся измерять. Как ни странно, ситуация, когда результат измерения никак не связан с измеряемым феноменом, достаточно часта, чтобы не сказать – обычна. Стандартный пример – коэффициент интеллектуальности (IQ), который измеряет все, что угодно, только не интеллектуальность в обыденном смысле этого слова. Исследование и доказательство адекватности процедуры измерения само является достаточно трудной исследовательской задачей. О ней почему-то принято забывать.

Конечно, разработаны методы, позволяющие учитывать в модели наличие ошибок измерений. Таков, например, конфлюэнтный анализ, во всем похожий на регрессионный, но предназначенный для случая, когда независимые переменные сами являются случайными величинами, поскольку, например, измеряются с случайной ошибкой.

Проблемы интерпретации

О значимости рассказывается практически во всех книжках по статистике. Быть может, именно этим вызвана повсеместная путаница между наблюденной значимостью (p-значением) результата и его практической значимостью?

Очень часто, увидев в таблице результатов звездочки там, где располагается p-значение (наблюденная значимость), непрофессионал восклицает: "Ого! Значимость сильно меньше 0.001, значит, эффект велик!"

Даже профессиональные статистики не сразу поняли различие между силой связи и величиной p-значения при проверке гипотезы о независимости. Чего стоят разнообразные меры связи признаков, построенные на значениях F-статистики и статистики ! При этом забывают, что наблюденная значимость – это вероятность, которая вычисляется в предположении, что верна нулевая гипотеза. Поэтому она не поддается разумной интерпретации и, значит, не слишком осмысленна, когда гипотеза оказывается неверной. Тем более, что происходит это на "хвостах" распределений, где большим изменениям статистики (величины эффекта) соответствуют совсем малые изменения p-значений.

Следует помнить, что статистическая значимость зависит от силы связи (чем бы эта сила связи ни являлась на самом деле) в той же степени, в какой она зависит от величины выборки и плана эксперимента, или уклонений от предположений, лежащих в основе используемого критерия. Если, скажем, мощность критерия слишком мала, вы можете пропустить (посчитать не значимой) действительно важную взаимосвязь. С другой стороны, при излишне мощном критерии даже слабые и практически неважные различия окажутся высоко статистически значимыми.

Точность оценок. Представление о качестве оценок часто, особенно у людей, далеких от математики, отождествляются с точностью вычислений. Скажем, очень трогательно бывает услышать требование выдавать с 10-ю десятичными знаками среднее для выборки, элементы которой измерены с двумя знаками. Вместе с тем, остаются не "ангажированными" несмещенность и состоятельность – формальные отражения обыденных требований к оценкам.

Причинность. Причинность – это понятие оказывается одним из главных источников ошибок в прикладной статистике в частности и в исследовательской деятельности вообще. Определение наличия и оценка силы причинных связей часто является основной целью статистического анализа, но многие тонкости ускользают от внимания "потребителей" статистики.

Ключевым условием для самой возможности исследования причинных связей является так называемая управляемость проводимого эксперимента. Говоря совсем нестрого, управляемость означает, что значения предикторов, независимых переменных, выбирает экспериментатор; если такой возможности нет, говорят о пассивном эксперименте. Конечно, конечно, потом появляются разнообразные дополнительные требования типа рандомизированности планов экспериментов, но - лишь потом. Если нет возможности задавать значения предикторов, то самое большее, на что можно рассчитывать, – установить наличие связи. Возможности пассивных экспериментов при исследовании причинности более чем ограниченны. Рассмотрим, например, гипотетическую связь между количеством визитов к врачу и доходом: чем выше доход, тем чаще люди ходят к врачам. Имеется по меньшей мере три возможных объяснения этого факта: во-первых, люди с высоким доходом могут себе позволить больше платить за частные визиты к врачам (зарплата визиты); другое объяснение состоит в том, частое посещение врачей позволяет человеку работать интенсивно, так что он может и зарабатывать больше других (визиты зарплата); наконец, может быть, имеется какая-то неизвестная нам причина, которая независимо действует как на зарплату, так и на посещения врачей (жизнь в больших городах нездорова и потому люди вынуждены посещать врачей чаще, но, с другой стороны, жизнь в больших городах позволяет и зарабатывать больше: визиты X зарплата).

Здесь я хотел бы подчеркнуть, что управляемость эксперимента является решающим условием при исследовании причинности, независимо от используемых статистических методов и методологий. В свое время нам всем вдалбливали, что "корреляция не равнозначна причинности". Увы, иногда отсюда заключают, что корреляция и регрессия не применимы к исследованию причинности, или, еще хуже, что методы планирования экспериментов (и, скажем, ANOVA) необходимы и достаточны для подобных исследований. Ни одно из этих умозаключений не верно! Если вы выбираете значения предикторов (скажем, устанавливая дозы воздействия), корреляционные коэффициенты и регрессионные уравнения вполне применимы для оценки эффективности воздействия (скажем, лекарства). Обратно, если вы оцениваете связь между политическими взглядами респондента и его самооценкой, самые изощренные статистические методы, самая современная программа дисперсионного анализа не позволит вам делать заключения о причинной связи, поскольку политические пристрастия респондентов выбирали не вы.

Обратите внимание: многое из того, что нам нужно исследовать не поддается активному экспериментированию (например, зависимость между состоянием здоровья и факторами риска). Если мы хотим, тем не менее, исследовать причинные зависимости, необходимо действовать исключительно осторожно. Подобные ситуации требуют многоаспектного подхода, включения в план эксперимента переменной время, проведения повторных экспериментов, построения совокупности моделей, в которых одна и та же переменная выступает то в роли независимой, то в роли отклика. Только тщательный логический анализ ситуации может позволить нам придти к сколько-нибудь надежному умозаключению о причинных зависимостях исследуемого явления.

Графическое представление. Имеется множество способов численного представления данных, однако, ни один из них не сравнится с грамотным и тщательно подобранным представлением графическим. Возможность увидеть неоценима при выборе направления анализа имеющихся данных, она облегчает интерпретацию получаемых результатов. Поскольку целью расчетов является понимание, а не числа, посмотрите на данные, прежде чем кидаться анализировать их.

Понравился ли Вам сайт

	Скорее да
	Скорее нет
	Много интересного
	Почти ничего не нашел

Новое на сайте