Социология: методическая помощь студентам и аспирантам

1.1. Преимущества выборочного метода

PDF Печать E-mail
Добавил(а) Социология   
07.09.10 09:18

Глава 1. Введение.

1.1. Преимущества выборочного метода.

Наши знания, суждения и поступки в очень большой мере основаны на выборочных данных. Это утверждение одинаково справедливо как для повседневной жизни, так и для научных исследований. Впечатление об учреждении, в котором ежедневно производятся тысячи различных операций, складывается часто на основании лишь одного или двух посещений этого учреждения за несколько лет. Путе­шественник, проведя десять дней в чужой стране, собирается написать книгу и в ней посоветовать жителям этой страны, как оживить промыш­ленность, преобразовать политическую систему, сбалансировать бюджет и улучшить питание в гостиницах. Это — персонаж анекдотический. Но на самом деле, от ученого-обществоведа, который прожил 20 лет в этой стране, изучая ее, он отличается лишь тем, что основывает свои выводы на гораздо меньшем числе наблюдений, да еще, вероятно, меньше осведомлен о степени своего невежества. И в науке и в житейских делах нам доступен для изучения лишь фрагмент той общей картины, которая должна расширить наши знания.

Тому, как правильно получить выборку и как сделать по ее данным обоснованные выводы, еще лет 30 назад не уделяли внимания. Эти проблемы не играли бы особой роли, если бы материал, из которого мы производим отбор, был однороден, так что любая выборка дала бы приблизительно одинаковые результаты. Заключение о состоянии нашего здоровья делается по нескольким каплям крови, проанализированным в лаборатории. Такой метод основан на предположении, что циркули­рующая кровь всегда хорошо перемешана и каждая ее капля несет одинаковую информацию, — предположении, в правильность которого мы, будучи неспециалистами, свято верим. Однако, когда изучаемый материал далеко не однороден, как это часто и бывает, способ получения выборки приобретает решающее значение, а изучение методов, позволяющих получить достоверные сведения, становится весьма важным.

В этой книге излагаются основы теории, созданной для обоснования методов правильного отбора. На практике, в большинстве случаев, для которых эта теория была разработана, совокупность, о которой мы хотим получить сведения, конечна и имеет четкие границы — жители [[15]] города, станки на заводе, рыбы в озере. Иногда удобнее, казалось бы, получить нужные сведения, произведя сплошное обследование или перепись этой совокупности. Практические работники, привыкшие к сплошным переписям, сначала недоверчиво относились к выборочному методу и пользовались им неохотно. Хотя такого предубеждения более не существует, имеет смысл перечислить основные преимущества выборочного метода по сравнению со сплошной переписью.

Меньше стоимость.

Затраты на получение данных лишь относительно небольшой части всей совокупности меньше, чем при сплошной переписи. Для большой совокупности достаточно точные данные можно получить по выборке, составляющей лишь очень небольшую долю этой совокупности. В США наиболее важные периодические обследования, предпринимаемые правительством, основаны на выборках, охватывающих около 100 000 человек, т. е. обследуется приблизительно один из каждых 1800 жителей страны*. Обследования для сбора сведений, касающихся торговли и рекламной политики при изучении рынка, могут основываться на выборках объемом всего в несколько тысяч единиц.

Короче сроки.

По тем же причинам данные выборочного обследования можно собрать и обобщить быстрее, чем при сплошной переписи. Это особенно важно, когда сведения нужны срочно.

Шире область применения.

При некоторых видах обследований для сбора данных необходимо привлечь высококвалифицированный персонал или воспользоваться специальным оборудованием; как правило, и то и другое ограничено. В этих случаях сплошное обследование невозможно: приходится либо получать сведения выборочным путем, либо не получать их совсем. Таким образом, выборочные обследования имеют более широкую область применения и дают большую возможность получать сведения самого разнообразного характера. С другой стороны, если желательно получить точную информацию о мелких подразделениях исходной со­вокупности, то нужный для этого объем выборки может оказаться столь большим, что предпочтительнее окажется сплошная перепись.

Больше достоверность.

Если общий объем работы меньше, то можно привлечь более квалифицированный персонал, лучше его подготовить, более тщательно кон­тролировать проведение обследования и обработку его результатов. Поэтому выборочное обследование может дать более достоверные сведения, чем соответствующее сплошное обследование. [[16]]

1.2. Примеры применения выборочного метода.

Если проследить за развитием выборочного метода за последние 10 лет, то наибольшее впечатление производит быстрое увеличение числа и видов проведенных выборочных обследований. Статистическое бюро ООН время от времени публикует сообщения о выборочных об­следованиях, проводимых в странах—членах ООН, в издании «Sample Surveys of Current Interest». В сообщении за 1960 г. перечисляются обследования, проведенные в 52 странах. Многие из этих обследований преследовали цель получить несомненно важные для национального планирования сведения в таких областях, как сельскохозяйственное производство и землепользование, безработица и трудовые ресурсы, промышленное производство, оптовые и розничные цены, состояние здоровья населения, доходы и расходы семей. Проводились обследо­вания и по более частным темам: были исследованы, например, жилищ­ные и социальные проблемы пожилых людей (Австрия), задолженность арендаторов (Цейлон), стоимость жилищного строительства (Чехосло­вакия), возраст учеников начальных школ (Италия), влияние телеви­дения на школьников (Голландия), условия домашней работы домо­хозяек (Швеция), состав женщин, берущих детей на воспитание (Вели­кобритания), использование технической информации на мелких пред­приятиях (Великобритания), занятость ученых и инженеров в промыш­ленности (США).

Выборочный метод стал играть значительную роль в национальных переписях населения, проводимых каждые десять лет. В США 5%-ная выборка была впервые применена в переписи 1940 г., когда дополни­тельные вопросы о роде занятий, происхождении, числе детей и т. д. задавали лицам, чьи фамилии попадали на две из каждых 40 строк на лицевой и на оборотной сторонах переписного листа. При переписи 1950 г. выборочный метод применялся гораздо шире. По 20%-ной вы­борке (каждая пятая строка переписного листа) были получены сведе­ния по таким признакам, как доход, число лет обучения, миграция, служба в вооруженных силах. Путем отбора в этой 20%-ной выборке каждого шестого человека дополнительно была взята 31/з%-нaя вы­борка для получения сведений о браках и числе рожденных детей. Кроме того, группа вопросов, касающихся срока службы и состояния жилища, была разбита на пять подгрупп и ответы на вопросы соответ­ствующей подгруппы были получены в каждом пятом доме. Выборочный метод применялся также для ускорения публикации результатов пере­писи. Предварительные результаты по многим важным показателям, полученные путем выборочной разработки, появились более чем за полтора года до опубликования окончательных итогов.

Выборочный метод широко применялся и в переписи населения 1960 г. За исключением некоторых основных данных, требуемых по конституции или согласно закону от каждого человека, полная пере­пись была проведена на 25%-ной выборочной основе: только одно из каждых четырех домохозяйств получало полный переписной лист. Это изменение наряду с существенным повышением механизации обработки [[17]] работки материалов переписи значительно ускорило публикацию результатов и удешевило перепись.

На более низком уровне местные власти — городов, штатов и графств — стали шире пользоваться выборочными обследованиями, чтобы получать сведения, необходимые для перспективного плани­рования и решения неотложных проблем. В США в большинстве крупных городов существуют коммерческие агентства, которые по за­казам планируют и проводят выборочные обследования.

В значительной степени требует выборочного подхода и так назы­ваемое исследование рынка. Постоянно необходимы сведения о числе радиослушателей, телезрителей по различным программам, а также о читательских аудиториях газет и журналов (включая читающих рек­ламу). Промышленники и торговцы интересуются реакцией населения на новые продукты или новые методы упаковки, жалобами на ранее выпущенные продукты и причинами предпочтения одного продукта другому.

В промышленности, торговле и обслуживании часто пользуются выборочным методом, пытаясь повысить результативность работы предприятий. Такие важные области применения выборочного метода, как контроль качества и выборочная приемка продукции, находятся за рамками настоящей книги. Очевидно, однако, что решения, касающие­ся уровня качества партии изделий или его изменения или же принятия или отклонения такой партии, могут быть хорошо обоснованными толь­ко в том случае, когда результаты, полученные по выборочным данным, справедливы (с достаточной точностью) для партии изделий в целом. Выборка деловых документов (отчетов, платежных ведомостей, акций, личных дел), получить которую обычно гораздо проще, чем провести выборочный опрос людей, может дать нужные сведения быстро и эко­номично. Применив выборочный метод, можно сэкономить средства и время также при оценке запасов, при изучении условий и продол­жительности службы оборудования, при оценке качества и эффектив­ности канцелярской работы, при исследовании того, как руководящие работники распределяют свое время на решение различных вопросов и вообще в новой области управления, называемой «исследование опе­раций». В книгах Деминга (Deming, I960)* и Слонима (Slonim, 1960) содержится много интересных примеров, демонстрирующих диапазон применения выборочного метода в торгово-промышленной деятель­ности.

Опросы общественного мнения и предвыборные опросы, которые сыграли большую роль в ознакомлении общественности с методами выборочного исследования, продолжают привлекать внимание газет. В счетоводстве и финансовом контроле, где выборочный метод приме­няется уже в течение многих лет, растет интерес к приложению его современных достижений при решении конкретных задач. Предметом оживленной дискуссии служит возможность полагаться на результаты выборочных обследований в ходе судебного процесса. [[18]]

Выборочные обследования можно условно разделить на два вида: описательные и аналитические. Цель описательного обследования состоит просто в том, чтобы получить сведения о некоторых больших группах: например, о числе мужчин, женщин и детей, смотрящих ту или иную телевизионную программу. При аналитическом обследова­нии сравниваются различные подгруппы совокупности для того, чтобы установить, существуют ли между ними такие различия, которые поз­волили бы нам построить или проверить гипотезы о природе сил, дей­ствующих в данной совокупности. Например, обследование рождае­мости в Индианаполисе было предпринято с целью выяснить, в какой степени супружеские пары планируют число и время появления детей, отношение мужей и жен к такому планированию, причины того или ино­го отношения и в какой мере супруги достигают успеха в своих дейст­виях (Kiser and Whelpton, 1953).

Разумеется, между описательными и аналитическими обследования­ми нельзя провести четкой границы. Многие обследования предостав­ляют данные, пригодные для обеих целей. Наряду с ростом числа опи­сательных обследований наблюдается, однако, и значительное увели­чение числа обследований, предпринятых главным образом с аналити­ческими целями, особенно для изучения поведения и здоровья людей. В качестве примеров можно назвать обследования состояния зубов у школьников до и после фторизации воды, уровня и причин смертно­сти курильщиков в зависимости от интенсивности курения и обширное обследование эффективности противополиомиелитной вакцины Солка.

Успешное проведение выборочных обследований привело к их применению для оценки довольно необычных величин: например, длины сигаретных окурков, числа мух в городе, числа подписей под петицией, в действительности не поставленных указанными людьми, и даже числа людей, умеющих складывать язык «трубочкой». Эти ве­личины имели отношение к изучению соответственно связи между ку­рением и раком легких, эффективности борьбы с мухами, юридической силы петиций и наследования умения складывать язык «трубочкой», хотя последнее, на мой взгляд, не может служить объектом большого обследования.

1.3. Основные проблемы выборочного обследования.

Прежде чем рассматривать роль, которую играет теория в выбороч­ном обследовании, полезно вкратце охарактеризовать основные пробле­мы, связанные с планированием и проведением обследования. Обсле­дования могут сильно различаться по их сложности. Взять выборку из 5000 карточек, пронумерованных и аккуратно расставленных в кар­тотеке, нетрудно. Совсем другое дело получить выборку жителей рай­она, где средством сообщения служат реки, протекающие в лесах, где карты отсутствуют, жители говорят на 15 разных диалектах и весьма подозрительно относятся к любопытным незнакомцам. Проблемы, вызывающие затруднения в одном обследовании, могут оказаться не­существенными или совсем не возникнуть в другом.

Основные проблемы, связанные с обследованием, сгруппированы более или менее произвольно в следующие 11 пунктов. [[19]]

Цели обследования.

Чрезвычайно полезна четкая формулировка целей обследования. Без нее, погружаясь в детали планирования сложного обследования, легко забыть о его общих целях и принять решения, расходящиеся с ними.

Совокупность, из которой производится отбор.

Словом совокупность пользуются для обозначения множества объ­ектов, из которого извлекается выборка. Определение совокупности может не представлять никакой трудности, как, например, в случае, когда отбирается партия электрических лампочек для оценки сред­него времени их горения. Напротив, при выборочном исследовании совокупности ферм необходимо сформулировать правила, позволя­ющие выделить ферму и отграничить одну из них от другой. Такие пра­вила должны быть практичными: нужно, чтобы в ходе работы обследо­ватель был в состоянии без особых колебаний определять, принадлежит ли сомнительный объект к совокупности или нет.

Совокупность, из которой производится отбор (обследуемая сово­купность), должна совпадать с совокупностью, о которой мы хотим собрать сведения (изучаемая совокупность). Иногда по практическим соображениям или ради удобства обследуемая совокупность сужи­вается по сравнению с изучаемой. В этом случае следует помнить, что выводы, сделанные по выборке, относятся лишь к обследуемой сово­купности. 'Суждение о степени применимости этих выводов также и к изучаемой совокупности должно основываться на других источ­никах сведений. Может оказаться полезной любая доступная допол­нительная информация о характере различий между обследуемой и изучаемой совокупностями.

Собираемые данные.

Необходимо убедиться в том, что все собираемые данные соответ­ствуют целям обследования и никаких важных данных не пропущено. Существует! распространенная тенденция, особенно при обследовании совокупностей людей, задавать слишком много вопросов, часть кото­рых впоследствии вовсе не анализируется. Перегруженный опросный лист ухудшает качество ответов как на важные, так и на второстепен­ные вопросы.

Желательная степень точности.

Результаты выборочных обследований всегда отчасти неопределен­ны. Это происходит потому, что исследуется только часть всей сово­купности и измерения производятся с ошибками. Эту неопределенность можно уменьшить, извлекая выборки большего объема и производя более точные измерения. Но это обычно увеличивает затраты времени и средств. Следовательно, важный момент состоит в определении желательной [[20]] степени точности результатов. Ответственность за это несет лицо, которое будет пользоваться собранными данными. Принятие решения относительно желательной точности может оказаться затруд­нительным, поскольку многие практические работники не привыкли мыслить в терминах величины погрешностей, допустимой при полу­чении оценок и тем не менее дающей возможность принять правиль­ное решение. Статистик часто может оказать им помощь на этом этапе.

Способы наблюдения.

Существует большой выбор средств и методов изучения совокуп­ности. Данные о состоянии здоровья человека могут быть получены либо с его слов, либо по результатам медицинского исследования. При обследовании можно предоставить опрашиваемому самому запол­нять опросный лист или поручить обследователям задавать стандарт­ный набор вопросов в определенной форме или же вести опрос в виде беседы, при которой вопросы задают в различной форме и в произволь­ном порядке. Обследование можно произвести по почте, по телефону, путем личного посещения или же так или иначе сочетая эти способы. Методы опроса и связанные с ними проблемы подробно изучались (см., например, [Hyman, 1954] и [Рауnе, 1951]).

Значительная часть предварительной работы состоит в разработке форм документов, в которых будут содержаться вопросы и куда нужно будет записывать ответы. Если опросные листы сравнительно просты, то возможные ответы можно иногда заранее закодировать, т. е. за­писать в таком виде, чтобы потом их легко было преобразовать для ма­шинной обработки. Для разработки удачного инструментария обсле­дования необходимо отчетливо представлять структуру таблиц с ито­говыми данными, которыми будут пользоваться при анализе материа­лов обследования.

Основа выборки.

Прежде чем производить отбор, необходимо разбить совокупность на части, которые называются единицами отбора или просто едини­цами. Эти единицы должны вместе исчерпывать всю совокупность и не должны перекрывать одна другую, т. е. каждый элемент совокупности должен принадлежать одной и только одной единице. Иногда единицы отбора выделяются очевидным образом, как, например, в совокупности электрических лампочек, где единицей отбора служит отдельная лам­почка. Иногда приходится выбирать из нескольких возможных единиц отбора. Например, при обследовании людей в городе единицей отбора может быть отдельный человек, члены одной семьи или же все жители Уродского квартала. При выборочном изучении урожая сельскохо­зяйственных культур единицами отбора могут служить поля, фермы или же участки земли, форма и размеры которых заранее известны.

Построение такого перечня единиц отбора, называемого основой сборки, на практике часто бывает одной из главных задач. Научен­ные горьким опытом организаторы обследований с недоверием отно­сятся к спискам, составленным ранее для других целей. Несмотря на заверения в обратном, такие списки часто оказываются неполными [[21]] оценки, получаемой с помощью того или иного способа отбора, опреде­ляется на основании распределения частот этой оценки, которое полу­чается, если соответствующий способ многократно применять к одной и той же совокупности. Это, конечно, обычный прием суждения о точ­ности в статистической теории.

Можно ввести еще одно упрощение. Для выборок того объема, который обычно встречается на практике, часто есть все основания полагать, что выборочные оценки имеют приблизительно нормальное распределение. Для нормально распределенных оценок вид распре­деления частот полностью известен, если известны среднее значение и среднее квадратичное отклонение ( или дисперсия). Значительная часть теории выборочного метода посвящена нахождению формул для таких средних и дисперсий.

Существует некоторое различие между теорией выборочных об­следований и классической теорией выборочного метода, заключаю­щееся в том, что при обследованиях совокупности состоят из конеч­ного числа единиц. Когда отбор производится из конечной, а не из бес­конечной совокупности, методы доказательства теорем иные и резуль­таты несколько более сложны. Для практических целей эти различия в результатах для конечных и для бесконечных совокупностей обычно не имеют значения. Если объем выборки (по числу первичных единиц отбора) мал по сравнению с объемом всей совокупности, то вполне при­менимы результаты, полученные для бесконечной совокупности. В ос­новном в этой книге излагаются результаты, относящиеся к конечным совокупностям. В некоторых, более сложных вопросах, чтобы упро­стить изложение, мы будем пользоваться теорией для бесконечных совокупностей.

1.4. Вероятностный отбор.

Все методы отбора, для которых будет излагаться соответствующая теория, должны обладать следующими общими математическими свой­ствами.

1. Должна существовать возможность указать множество раз­личных выборок S1, S2, ..., Sv, которые могут быть получены при применении данного метода отбора к некоторой конкретной совокупности. Это значит, что мы можем точно указать, какие единицы отбора принадлежат к S1, к S2 и т. д. Предположим, например, что совокупность состоит из шести единиц, пронумерованных числами от 1 до 6. При извлечении выборки объемом в две единицы принятый способ отбора дает три возможных исхода: S1 ~ (1,4); S2 ~ (2,5); S3 ~ (3,6). Заметим, что при этом не обязательно перечислять все возможные выборки объема 2.

2. Для каждой из возможных выборок Si, задана известная нам вероятность ее извлечения pi.

3. Мы извлекаем одну из выборок Si, с помощью некоторого процесса, при котором вероятность извлечения каждой выборки прини­мает соответствующее значение л,. В рассматриваемом примере мы можем приписать трем указанным выборкам равные вероятности. Тогда [[24]] само извлечение может быть произведено с помощью равновозможного выбора целого числа от 1 до 3. Если таким числом оказалось j, то считается извлеченной выборка Sj.

4. Должен быть установлен метод вычисления оценки по выборке и для каждой конкретной выборки он должен приводить к единствен­ному значению. Мы можем принять, например, в качестве оценки среднее значение результатов наблюдений отдельных единиц в выборке.

Для каждого способа отбора, удовлетворяющего этим свойствам, мы можем вычислить распределение частот значений соответствующей оценки, которое получилось бы в результате многократного приме­нения этого способа отбора к рассматриваемой совокупности. Действительно, мы знаем, с какой частотой будет извлечена любая отдель­ная выборка S; и как вычислить оценку по данным этой выборки. Таким образом, для любого метода отбора рассмотренного типа можно развивать дальнейшую теорию, хотя конкретные детали могут и ока­заться довольно сложными.

К методу отбора такого типа применяется термин вероятностный отбор. Это, конечно, не единственный способ, которым можно извлечь выборку. Далее указаны распространенные способы отбора, не имею­щие вероятностного характера.

1. Отбор ограничивается легко доступной частью совокупности. Например, выборка угля из открытого вагона берется лишь с глубины от 6 до 9 дюймов.

2. Отбор производится беспорядочно. Исследователь, выбирая де­сять кроликов из большой клетки в лаборатории, может делать это без продуманного плана, забирая тех, до которых он может дотянуться.

3. Имеется небольшая, но неоднородная совокупность. Обследователь просматривает всю совокупность и отбирает небольшое число «типичных» единиц, т. е. единиц, отвечающих его представлению о среднем для совокупности. Такой метод называют иногда предвзятым или направленным отбором.

4. Выборка состоит преимущественно из добровольцев в исследованиях, где процесс измерения неприятен или опасен для обследуемого.

При надлежащих условиях каждый из этих способов может дать полезные сведения. Однако развитие теории выборочного метода не связано с этими способами, поскольку в них отсутствует элемент случайного отбора. Что касается проверки ценности того или иного из этих методов, то единственно возможный путь состоит в отыскании ситуа­ции, при которой известны результаты или по всей совокупности или по данным вероятностной выборки, и в сопоставлении с ними результатов отбора. Однако даже если при одном таком сравнении метод и окажется удовлетворительным, это не гарантирует, что так же будет и в других обстоятельствах.

На практике мы редко получаем вероятностную выборку, записывая Si и pi, как было указано ранее. Для больших совокупностей, где принятый порядок отбора дал бы миллиарды возможных выборок, это оказалось бы немыслимо трудоемкой работой. Обычно отбор производится путем указания вероятностей включения в выборку отдельных [[25]] дельных единиц и затем извлечения единиц по одной или по нескольку сразу до тех пор, пока не будет образована выборка нужного объема и типа. Для теоретических же целей достаточно знать, что при желании, располагая достаточным временем, мы можем выписать все Si и pi.

1.5. Применение нормального распределения.

Как уже упоминалось, при обследованиях выборки часто достаточно велики, так что получаемые по ним оценки имеют приблизительно нормальное распределение. Для вероятностного отбора, кроме того, существуют формулы среднего значения и дисперсии оценки. Рассмот­рим сначала несмещенные оценки. Оценка , получаемая согласно некоторой схеме отбора, называется несмещенной оценкой некоторой характеристики совокупности, , если среднее значение*, взятое по всем возможным выборкам, равно. В обозначениях параграфа 1.5 это условие можно записать в виде

,

где — оценка, получаемая по i-й выборке. Символ Е, заменяющий выражение «математическое ожидание величины» (the expected value of), общепринят.

Предположим, что мы получили выборку методом, обеспечивающим несмещенную оценку, и вычислили соответствующее значение выборочной оценки и ее среднее квадратичное отклонение (часто называемое иначе ее стандартной ошибкой**). Насколько хороша наша оценка? Мы не знаем точную величину ошибки оценки (-), но из свойств нормального распределения вытекает, что с вероятностями:

0,32 (или приблизительно в одном случае из трех) абсолютное значение ошибки | - | превосходит;

0,05 (или в одном случае из двадцати) абсолютное значение ошибки | - | превосходит 1,96»2;

0,01 (или в одном случае из ста) абсолютное значение ошибки | - | превосходит 2,58.

Например, если при определении срока службы некоторых приборов на большом предприятии при обычной нагрузке вероятностная [[26]] выборка показала, что среднее время работы прибора для этой выборки = 394 дням при среднем квадратичном отклонении (стандартной ошибке) = 4,6 дня, то среднее время работы приборов для всей их совокупности в 99 случаях из ста заключено между

= 394 - (2,58) • (4,6) = 382 дням

и

= 394 + (2,58) • (4,6) = 406 дням.

Эти границы, 382 дня и 406 дней, называются нижней (lower) и верхней (upper) доверительными границами. Для отдельной оценки, сделанной по однократному обследованию, утверждение «и, заключено между 382 и 406 днями» не является абсолютно правильным. «99%-ный доверительный уровень» означает, что если бы та же схема отбора мно­гократно применялась к рассматриваемой совокупности и утверждение о доверительных границах делалось по каждой выборке, то приблизи­тельно в 99% случаев оно было бы правильным и в 1 % случаев ошибоч­ным. Если выборочный метод применяется там, где ранее производи­лись сплошные переписи, то это свойство иногда можно продемонст­рировать, извлекая повторно выборки предлагаемого типа из совокуп­ности, по которой имеются полные данные, так что р. известно [см., на­пример, (Trueblood and Cyert, 1957)]. Практические работники лучше и глубже понимают природу выборочного метода, убедившись на деле в том, что за небольшим исключением заранее установленная доля утверждений оказывается правильной. Подобным же образом, если извлекается однократная выборка из каждой совокупности, принад­лежащей некоторому ряду различных совокупностей, то окажутся правильными приблизительно 95% утверждений, сделанных на 95%-ном доверительном уровне.

Ранее предполагалось, что , вычисленное по выборке, определяется точно. В действительности , как и , подвержено ошибкам выборки. Если случайная переменная распределена нормально, то при малом объеме выборки для нахождения доверительных границ для вместо таблиц нормального распределения применяются таблицы t‑распределения Стьюдента. Замена таблиц нормального распределения таблицами tраспределения почти не играет роли, если число степеней свободы при вычислении превосходит 60. При некоторых видах расслоенного отбора и применении метода дублированного отбора (см. параграф 13.14) число степеней свободы невелико и необходимо пользоваться таблицами t‑распределения.

1.6. Смещение и его роль.

В теории выборочных обследований приходится рассматривать смещенные оценки. Это нужно делать по двум причинам.

1. В некоторых, часто встречающихся случаях, особенно при оце­нивании отношений двух величин, оценки, которые по другим сооб­ражениям удобны и целесообразны, оказываются смещенными. [[27]]

2. Даже если оценки при вероятностном отборе и будут несмещен­ными, ошибки наблюдения и неполучение ответа могут привести к смещению в окончательных результатах обследования. Так произойдет, например, если среди ответивших на вопросы обследования о расходовании общественных фондов на некоторые цели половина настроена «за» и половина «против», а среди отказавшихся отвечать настроены «против» почти все.

Для того чтобы исследовать эффект смещения, предположим, что оценка распределена нормально со средним значением т, которое находится на расстоянии В от истинного значения для совокупности m,

Рис. 1.1. Влияние смещения на ошибки оценивания

как показано на рис. 1.1. Величина смещения В = т— m. Предположим, что мы не знаем о существовании смещения. Мы вычисляем среднее квадратичное отклонение s распределения частот оценки — оно будет, конечно, средним квадратичным отклонением от среднего значения т для распределения, а не от истинного среднего значения m. Вместо мы принимаем s. В качестве утверждения относительно до­стоверности оценки мы заявляем, что лишь с вероятностью 0,05 оценка , отклонится от своего истинного значения на величину, большую чем 1,96s.

Рассмотрим теперь, как искажается эта вероятность при наличии смещения. Для этого мы вычислим истинную вероятность того, что ошибка оценки превысит 1,96s, при этом ошибка измеряется относительно истинного значения m. Два «хвоста» распределения нужно исследовать отдельно. Для правого «хвоста» вероятность того, что ошибка превысит +1,96s, равна площади заштрихованной области на рис. 1.1 справа от точки Q. Эта площадь равна

.

[[28]]

Положим (m - т) = st. Нижний предел интегрирования по t равен:

.

Следовательно, эта площадь равна

.

Аналогично для левого «хвоста» площадь заштрихованной области слева от точки Р равна

.

Из вида интегралов ясно, что величина искажения вероятностей зависит только от отношения смещения к среднему квадратичному отклонению. Результаты вычислений приведены в табл. 1.1.

Таблица 1.1

ВЛИЯНИЕ СМЕЩЕНИЯ В НА ВЕРОЯТНОСТЬ ТОГО, ЧТО ОШИБКА ПРЕВЫСИТ ВЕЛИЧИНУ 1,96s

 

В/s

Вероятность того, что ошибка

Общая вероятность

<-1,96s

>1,96s

0,02

0,0238

0,0262

0,0500

0,04

0,0228

0,0274

0,0502

0,06

0,0217

0,0287

0,0504

0,08

0,0207

0,0301

0,0508

0,10

0,0197

0,0314

0,0511

0,20

0,0154

0,0392

0,0546

0,40

0,0091

0,0594

0,0685

0,60

0,0052

0,0869

0,0921

0,80

0,0029

0,1230

0,1259

1,00

0,0015

0,1685

0,1700

1,50

0,0003

0,3228

0,3231

 

На общую вероятность того, что ошибка превысит величину 1,96s, смещение влияет очень мало при условии, что оно составляет менее одной десятой среднего квадратичного отклонения. В этом случае об­щая вероятность составляет 0,0511 вместо предполагавшихся 0,05. По мере того как смещение увеличивается, искажение вероятности становится более значительным. Для В = s общая вероятность равна 0,17, что более чем в три раза превышает предполагавшуюся величину.

На «хвосты» распределения смещение влияет по-разному. При по­ложительном смещении, как в нашем примере, вероятность преумень­шить истинное значение быстро уменьшается от предполагавшихся 0,025 до пренебрежимо малой величины при В = s. Вероятность соот­ветствующего преувеличения постепенно растет. Для большинства [[29]] приложений интерес, главным образом, представляет совокупная ошибка, но иногда интересуются ошибкой, имеющей определенный знак.

В качестве рабочего правила принимается, что влиянием смещения на достоверность оценки можно пренебречь, если смещение составляет менее одной десятой среднего квадратичного отклонения оценки. Если имеется смещенный метод оценивания, для которого В/о < 0,1, где В — абсолютная величина смещения, то можно считать, что сме­щение не будет существенным недостатком этого метода. Даже при В/о == 0,2 искажение вероятности ошибки довольно незначительно.

Пользуясь этим правилом, следует различать два источника сме­щения, упомянутые в начале этого параграфа. Для смещений, анало­гичных тем, что возникают при оценивании отношений двух величин, верхняя граница для отношения В/о может быть найдена теоретически. Если выборка достаточно велика, то мы можем быть уверены в том, что В/о не превышает 0,1. С другой стороны, для смещений, вызванных ошибками наблюдения или неполучением ответа, обычно невозможно найти надежную и достаточно малую верхнюю границу для В/о. Этот трудный вопрос рассматривается в гл. 13.

1.7. Средний квадрат ошибки.

При сравнении смещенной оценки с несмещенной или двух оценок с разными величинами смещения полезным критерием служит средний квадрат ошибки (СКО) оценки, здесь ошибка измеряется относительно оцениваемого параметра для совокупности. Формально

CKO() =

==

= (дисперсия)+ (смещение)2

(члены удвоенного произведения исчезают, так как Е( — т) = 0).

Применение СКО в качестве критерия достоверности оценки рав­носильно рассмотрению двух оценок, имеющих одинаковый СКО, как эквивалентных. Это не вполне строгое заключение, потому что распределения частот ошибок ( ) разной величины для двух оце­нок не будут одинаковы, если у них разные величины смещения. Од­нако, как показали Хансен, Хервиц и Мэдоу (Hansen, Hurwitz and Madow, 1953), если В/ меньше чем приблизительно 1/2, то распре­деления частот абсолютных величин ошибок почти одинаковы. Табл. 1.2 иллюстрирует это утверждение.

Даже при В/ = 0,6 соответствующие вероятности меняются не­значительно по сравнению со случаем В/ = 0.

Поскольку трудно проследить за тем, чтобы в оценках не присут­ствовало никаких незаподозренных смещений, мы будем говорить обычно о точности (precision) оценки, а не о ее достоверности (accu­racy). Термин достоверность относится к величине отклонений от истинного среднего значения , в то время как термин точность от­носится к величине отклонений от среднего значения т, получаемого в результате многократного применения одного и того же способа отбора. [[30]]

Таблица 1.2

ВЕРОЯТНОСТЬ ТОГО, ЧТО АБСОЛЮТНАЯ ВЕЛИЧИНА ОШИБКИ БОЛЬШЕ ИЛИ РАВНА:

1 ; 1,96; 2,576

 

B/s

Вероятость

1

1,96

2,576

0

0,317

0,0500

0,0100

0,2

0,317

0,0499

0,0100

0,4

0,319

0,0495

0,0095

0,6

0,324

0,0479

0,0083

 

[[31]]



* Данные относятся к началу 60-х годов.— Примеч. ред.

*Фамилия и год издания в скобках указывают на источник в списке литературы, помещенном в конце главы..—Примеч. ред.

* Далее слово «значение» будет иногда опускаться. – Примеч. ред.

** Английский термин standard error, который здесь употребляет автор, перелается термином стандартная ошибка, чтобы подчеркнуть терминологически отличие среднего квадратичного отклонения выборочной оценки (средней квадратичной ошибки) от среднего квадратичного отклонения вообще. – Примеч. ред.

 

 
Понравился ли Вам сайт
 

Яндекс цитирования

Союз образовательных сайтов
Home Преимущества выборочного метода