FAQ маркет рисёч

6.7. Что стоит помнить про погрешность - 1: по факту она будет меньше

Планируя выборку, мы никогда не знаем погрешность, потому что она зависит от распределения. Что есть распределение – в сущности, это сами результаты опроса: сколько ответили «брито», а сколько – «стрижено».

Вообще, распределение можно считать для любых множественных измерений чего угодно – хоть для кучности пролета элементарных частиц в ускорителе, хоть для доли голосов за коммунистов по избирательным участкам. А нас вот интересуют ответы в анкетах.

Почему распределение важно. Потому что оно про гомогенность. Выше уже звучало, что у гомогенных признаков погрешность мала. У абсолютно гомогенных – нулевая, то есть, такую генсовокупность отлично репрезентирует ровно один респондент. Ну одинаковые там все. Так вот, оценивая погрешность перед опросом, принято предполагать прямо противоположное. Мы ведь не знаем, насколько все одинаковые, поэтому для гарантий, нужно предположить, что ну вообще разные. То есть, что дисперсия признака (разброс ответов, полярность мнений – как угодно) окажется максимальной.

Максимальная дисперсия – скажем, это когда для дихотомичного признака есть строго 50% «голосов» за, и, соответственно, 50% против. Сильнее поляризовать общество нельзя. Склонись оно в любую пользу хоть на 1% – это уже перевес в сторону «одинаковости».

Если признак не дихотомичный («выберите любимого вождя», 10 вариантов ответа) логика та же: он просто разбирается на дихотомичные элементы (первый вариант, Карл Маркс – выбрал» 20%, не выбрали 80%; второй вариант, Сидящий Бык – выбрали 25%, не выбрали 75%, и так далее).

Разумеется, на практике редко встретишь максимальную дисперсию. Соответственно, и ошибка ниже максимальной. На выборке 100 человек при максимальной поляризации погрешность будет почти 10%[1] (кстати, плюс-минус 10%, не забывайте). Но если интересующее мнение «весит» всего 20% – погрешность уже меньше 8%. И так далее.

Это все, конечно, будет известно потом, после опроса. Но учтите две вещи, чтобы закладываться на максимальный разброс только когда это действительно нужно.

Во-первых, масштаб многих показателей вполне предсказуем. Долю прескрайберов или знание бренда, скорее всего, измеряли уже не раз. А эти вещи не умеют резко меняться (не могли 90% знать ваш продукт, а потом забыть). Нелогично ждать тут максимального разброса.

Во-вторых, насчет остальных показателей, тут, видите ли, какая штука. Понятно почему 50% ответов – редкая история, в целом. Ну какие там шансы. И вот, если наш показатель не какой-то критически важный для анализа (а критически важных обычно мало, остальные – так) – то, может быть, можно и рискнуть. Например, если мы хотим выделить сегмент, и сейчас решаем, нужна ли ему большая выборка, буст, скажем. Ведь погрешность превысит плановую, только если не повезет с дисперсией. То есть, решать вам, конечно, допустимо оно или нет. Главное, понимайте в чем смысл перестраховки.

[1] А доверительная вероятность все еще дефолтная, 95%.

Задать вопрос Посмотреть другие вопросы