FAQ маркет рисёч

6.5. Что нужно знать про теорию вероятностей: числа должны быть большими

Вот мы добрались до количественных выборок. Оговоримся, что это сочинение сугубо прикладное, поэтому теорию (вообще все теории) мы разве что упомянем. Не пересказывать же учебники.

Наше главное оружие – закон больших чисел. Он утверждает очень важное: достаточно большие выборки – они репрезентируют вообще всю совокупность. То есть, если узнать, например, доход у достаточно многих жителей страны – картинка будет такая же, как во всей стране. И, что особенно важно, «достаточно многих» – в штуках, а не в процентах. То есть, уже тысяча человек отлично репрезентирует хоть всю страну, и неважно, что это ничтожная доля населения. Ну тысяча, много же.

Разумеется, если отбирать случайно. Нетрудно представить картину, где акционеры ОАО Газпром затруднились с ответом, а в тихие поселения вокруг Рублево-Успенского шоссе интервьюера тупо не впустили. И средний доход получился как у Госкомстата. Но, знаете ли, кривые выборки не доказывают вообще ничего, кроме тщеты ваших усилий. Не можете случайно – не исследуйте; приходится исследовать – не жалуйтесь.

Работает репрезентативность просто – мы уже приводили пример в 1-й главе, говоря про компетенцию «счетовода». Каждый врач плохо считает своих пациентов, но если эти ошибки случайны (т.е. за ними не стоит какого-нибудь общего для многих интереса) – суммарно ошибки нивелируют друг друга. Так же работает и ошибка «непохожести»: каждый отдельный респондент в какую-то сторону отличается от «среднего для популяции существа», но чем их больше – тем качественнее эти отличия компенсируют друг друга. До нуля они сократятся только когда мы опросим вообще всех поголовно, но вплотную подойдут к нулю намного, очень много раньше. Поэтому количественные выборки – репрезентативны.

И поэтому (поэтому тоже) качественные исследования – не количественные. В качественных числа не большие. Отклонения не компенсируются. А нужны большие. Какие?

Начнем с предельного примера: семья из мамы, папы и ребенка. Если спросить всех поголовно, выяснится, что 33% семьи хочет в зоопарк, а 66% - смотреть «Игру престолов». Это генеральное распределение, то есть распределение в популяции. Какие будут цифры, если опросить только выборку – двоих членов семьи? За сериал выступит либо 100% респондентов (оба), либо 50%. Разлет! Потому что два респондента – не большое число. Нужны большие.

Используйте этот пример, если надо объяснить (а иногда надо), что качество выборки – никак не вопрос процентов от популяции. Смотрите, мы опросили две трети – и что толку?

Этот пример можно развить – а что, если в семье четыре человека, пять, и так далее. Даже выбирая четырех членов семьи из шести возможных (опять две трети), мы сильно рискуем опросить одних детей. Ну, скорее один взрослый все же попадется, но мы же хотим гарантий. Может репрезентировать, а может и нет – это же не разговор. За исследования вообще-то деньги платят.

Продолжим: например, в классе 30 человек, а выборка – 10. Этого хватит, чтобы измерить долю троечников в классе? Да не особо: даже если в выбранной десятке все сплошь троечники, все равно довольно велик шанс, что среди оставшихся 20 таки затесалась пара-тройка отличников или двоечников. Это достаточно очевидно. Их мало, это достоверно (принцип гомогенности), но все же – так себе измерение.

А если в нашей выборке пятеро троечников, и пятеро прочих – тогда генеральная пропорция легко может оказаться, скажем, 20 на 10, причем в обе стороны – тоже очевидно. Это еще что, если увеличить выборку до 20 учеников, (а троечников там все еще поровну с прочими) – даже тогда возможно, что среди не опрошенных десяти детей, девять – троечники. Тогда что – в целом по классу распределение 19 на 11, при выборочном 10 на 10. Потому что и 20 респондентов – тоже еще не большое число.

И, закрывая пример – давайте опросим 25 детей из 30. Хотя называть это выборкой уже несколько неудобно[1]. Любопытно, что по теории вероятностей, среди оставшихся пятерых по-прежнему реальны любые расклады. Но кому тут нужны вероятности? Мы уже почти всю популяцию лично освидетельствовали.

С другой стороны, вы ведь заметили, что выборочная оценка по 10 ученикам все же ближе к генеральному распределению, чем в примере с семьей из 3 человек? Так оно и работает. Чем больше – тем точнее. Продолжение следует.

[1] Метод основного массива, кошерный термин. Пользуйтесь.

Задать вопрос Посмотреть другие вопросы