FAQ маркет рисёч

6.9. Что стоит помнить про погрешность - 3: погрешность признака и погрешность оценки – это две большие разницы

Но основная причина, почему для врачей 120 респондентов – нормальная выборка, а для пациентов – совсем мало, вовсе не в их образовании. Мы измеряем у них разное, хотя, казалось бы, спрашиваем об одном.   

Одна и та же болезнь пациента – в опросе пациентов это признак (я либо болел, либо нет), в опросе врачей – оценка распределения («половина болеют»). То, что мы на выходе видим одну и ту же объективную реальность (где половина болеет) тут отвлекает от понимания, что мы используем разные метрики. Можно сказать, шкалы. А у разных шкал, очевидно, разные погрешности.

Важное про признак – он дихотомия. То есть, его шкала максимально поляризована. Либо болезнь есть, либо нет, точка. То есть, у единичного респондента на «шкале» два деления: либо 0%, либо 100%. Калькулятор выборки тут применяется «в лоб»: смотрим выборочное распределение, накладываем погрешность. Если в выборке из 120 пациентов болеет половина, то погрешность будет +/- 9%. Многовато, скорее всего.

Важное про оценку: эта шкала куда менее поляризована, скорее всего. Пусть ее границы – те же 0% и 100%, но основной массив ответов будет не на границе, а где-то между. Насколько «кучно» они там лягут, то есть дисперсию, мы заранее не знаем, естественно. Но поскольку сама шкала в принципе допускает ответы не только 0% и 100% – кучность практически неизбежно будет хоть чуть-чуть, а выше, чем у признака, то есть дихотомии. И скорее всего – не чуть-чуть кучнее, а намного.  

Потому что бы тут могла значить поляризация? Представьте, что у половины опрошенных вами врачей все пациенты имеют диагноз А, а у второй половины – вообще никто. Тут возможны два объяснения: либо вы кого-то не того опросили (наполовину!), либо в системе здравоохранения какая-то катастрофа (тоже наполовину!). Поищите лучше ошибку в подсчетах, вот что.

На практике, как раз тут гомогенность врачей обычно встает в полный рост. То есть, оценки ложатся ну очень кучно. Мало колеблются, то есть.

Тут лучше напомнить, что дисперсия – это ведь не максимальный диапазон ответов (мир не без маргиналов, штучные и 0%, и 100% так-то будут), а насколько «кучно ложится» большая часть ответов.

А большинство училось одинаково, заболеваемость там похожая, вот и видим, что 90% врачей оценивают наш диагноз где-нибудь от 40% до 60% потока пациентов. Видите, в чем вся штука – разлет в пять раз меньше, не 0-100, а 40-60. Поэтому и погрешность составляет не 9, а от 2 до 4 (почему от 2 до 4 – потому что, помните, есть еще 10% врачей, у которых более «разные» ответы – вот смотря насколько разные)[1]. И даже если 90% врачей оценят заболеваемость от 25% до 75% (что многовато, для реальной жизни) – и тогда погрешность не превысит 4,5% на выборке в 120. Сравните с 9% у пациентов!

Формулы расчета доверительных интервалов разбирать не будем. Ничего сложного, но они уже даже в эксель зашиты, не говоря про SPSS. Вот пусть компьютер считает, за него деньги плочены. Эксель → стандартное отклонение → доверительный интервал. Поиграйте с разными распределениями.

Прикинуть эту замечательную кучность до опроса крайне сложно. В онлайновый калькулятор выборки это вообще не закладывается. Он-то оценивает число ответивших, а не сами ответы. То есть, он вообще про дихотомии. Рассчитать гипотетическую максимальную погрешность можно вручную, самостоятельно – берем с потолка диапазон ответов (от 0 до 100 попугаев, а почему нет!), и ждем максимальной дисперсии. Ну то есть, что будет дихотомия. Но по описанным выше причинам, эта оценка будет настолько выше реальной, что нет особого смысла. Единственное что остается, и что стоит делать – это ориентироваться на аналогичные опросы в прошлом, какая дисперсия и какая ошибка тогда получались, по факту.  

Хорошая новость заключается в том (и ваши собственные примеры это подтвердят), что обычно погрешность получается вполне аккуратной. Порядка единичных процентных пунктов, если ответ в процентах. То есть, во-первых, типичные обычные выборки вполне достаточны, и во-вторых, достаточны более-менее всегда. Мы изучаем какие-то профессиональные (более-менее) практики, врачи гомогенны – вот поэтому. Так что пример выше, где на выборке в 120 мы получаем погрешности в районе 2-4% – вполне реалистичен.

А если вспомнить, что сами оценки в основной массе приблизительны – врачи отвечают-то «на глазок» с люфтом процентов в 5% минимум – при выборках в районе 100 можно окончательно переставать беспокоиться за статистическую погрешность. Точнее не измерите. Ведь те метрики, где особенно нужна точность – доля выписки, и тому подобное – чаще всего как раз оценочные.

Это при опросе врачей. А пациентов таки нужно много (будь это живые пациенты, или дневники – не важно). Потому что там обычно меряются признаки, «болеет-не болеет», а чтобы получить ошибку в пределах те же 4%   нужно 600 человек.         



[1] Значки % тут пропали не случайно: на самом деле, неважно в каких попугаях респонденты оценивают то, что оценивают – в рублях, молях или милях. Важно, что погрешность нам нужна в тех же рублях или милях. Но чаще всего мы спрашиваем в %, и, наверное, тут появляется риск спутать разные метрики: % который, в сущности, является вариантом ответа, и %, который показывает сколько респондентов выбрали этот вариант. Оценку и признак, опять же.


Задать вопрос Посмотреть другие вопросы