7 заметок с тегом

биномиальное

Позднее Ctrl + ↑

Ищем «аномалии», включаем красные и зеленые «лампочки»

Переписываясь на днях с коллегой в Телеграме, в очередной раз увидел примерно вот такой отчет (сейчас просто нарисовал похожий) — сверху недели, сбоку, допустим, территориальные офисы продаж (там были месяцы и продажи по типам продукта, но для целей этой заметки это совершенно не имеет значения):

Воспользовавшись «Условным форматированием» в Экселе, замечаем, что на 6-й неделе в офисе «Академический» было 503 продажи. В общем, до этого момента ничего необычного, и так выжали 90% из данных, можно работать с отчетом и анализировать, что душе угодно.

Однако, есть несложная доработка, позволяющая выжать из данных еще лишние 5%.

Что, собственно, ищем

На картинке особо не видно, но чем ниже по списку, тем меньше в среднем продаж в каждом следующем офисе. То есть, будем считать, что офисы продаж все очень разные, и некорректно сравнивать «Академический» с «Якиманкой» — нехитрым вычислением получается, что «Академический» в среднем делал 242 продажи в неделю, а «Якиманка» — всего 13. Предположим, что тому есть объективные причины, и никто и не требовал от всех офисов показывать одинаковые результаты.

И тогда можно задать себе вопрос: достаточно ли просто анализировать абсолютные показатели по нашим офисам? И не будет ли правильнее копнуть вглубь, и попробовать найти такие показатели, которые выбиваются из общей картины? Такие недели, которые были аномальными для данного офиса продаж.

Здесь и далее под «аномалией» я буду понимать такое значение продаж, которое слишком отличается от среднего по данном офису. Как в большую (и надо разобраться, как повторить этот результат) или в меньшую (проанализировать, как избежать неудачи в будущем) сторону.

Распределяем результаты офиса «Академический»

Изучив результаты продаж офиса «Академический» за прошедшие 43 недели, мы рассчитали, что в среднем они делают 241,5 продаж в неделю, при этом стандартное отклонение (SD) равно 86,3.

Напомню формулы:

=СРЗНАЧ(B2:AR2)
=СТАНДОТКЛОН.В(B2:AR2)

Можно, гипотетически, представить, что мы имеем возможность наблюдать за результатами офиса «Академический» 200 (sic!) лет, при условии, что все это время среднее и стандартное отклонение не меняются, т. е., грубо говоря, они работают, как работали. В этом случае, мы увидели бы распределение результатов продаж, близкое к нормальному:

Давайте даже еще раз перерисуем картинку. 2 290 недель из 10 000 они бы делали от 200 до 249 продаж в неделю:

Понимаете, к чему я клоню?

Если только допустить, что результаты продаж подчиняются законам нормального распределения (грубо говоря, равновероятно продать как чуть больше, так и чуть меньше среднего), существует некоторое разумное отклонение от среднего, в пределах которого было бы глупо всерьез говорить о «спаде продаж» или «невероятном успехе». Иными словами, бессмысленно считать «аномалией» то, что лежит в пределах разумного отклонения от среднего.

Остается сформулировать критерии «разумности» и научить отчет сигнализировать об «аномалиях».

Вспоминаем теорию

Если вкратце, то, допустив на минутку, что мы имеем дело с нормальным распределением, вычислив среднее значение и стандартное отклонение (SD), мы можем уверенно говорить о том, что 90% данных в отчете не будут выходить за границы ±1,645SD от среднего.

Применительно к офису «Академический» речь идет о том, что для 90% времени результаты их продаж будут лежать в диапазоне от 100 до 383, или 241,5±142,0. Поэтому до тех пор, пока цифры не вышли за пределы этих границ, мы не наблюдаем ничего необычного.

Сразу оговоримся: конечно, степень «необычности», или «аномалии», каждый определяет для себя сам. Для одних, подозрение могут вызывать показатели, выбивающиеся за рамки 80%-ной вероятности (±1,28SD), для других — терпимым будет отклонение в ±1,96SD, что соответствует 95%-й вероятности. Тогда, первые будут бить искать причины «аномалии» в 20% случаев, вторые — в 5%. Каждую пятую неделю но отчете у коммерческого директора первые будут объяснять, что произошло, и почему, тогда как вторые будут делать это раз в 4-5 месяцев.

Допущение о том, что продажи в территориальных офисах, число посетителей на сайте, количество рекламных звонков, клики по баннеру распределяются по закону нормального распределения, дало нам потрясающую возможность оценивать вероятность наступления «аномалии» — слишком сильного отклонения от среднего значения. Обратно, оно учит нас не бить тревогу там, где отклонение, хотя и есть, не является достаточно сильным, и делает, отчасти, бессмысленным анализ и разбор ситуаций, когда показатель отклоняется в пределах разумного.

Перекрашиваем отчет, включаем зеленые и красные «лампочки»

Теперь мы хотим переделать отчет о продажах в территориальных офисах таким образом, чтобы напротив подозрительно больших или подозрительно маленьких значений загорались бы зеленые и красные «лампочки».

Нам необходимо научить отчет «включать» наши «лампочки», если значение в ячейке становится больше или меньше границ 90%-го диапазона, т. е. в примерно 90% случаев ни одна из «лампочек» «загораться» не будет, в примерно 5% случаев будет «загораться» красная «лампочка», и еще в примерно 5% — зеленая.

Применительно к «Академическому», мы хотим выделять красным значения, меньшие чем 241,5-1,645*86,3, т. е., меньшие, чем 100, и мы ходим выделять зеленым значения, большие, чем 241,5+1,645*86,3, т. е., большие, чем 383.

Нам остается рассчитать границы включения «лампочек» по каждому из офисов продаж, рассчитав последовательно: среднее значение продаж, стандартное отклонение (SD), нижнюю границу 90%-го диапазона, верхнюю границу 90%-го диапазона.

Используемые формулы:

=СРЗНАЧ(B2:AR2)
=СТАНДОТКЛОН.В(B2:AR2)
=B2-1,645*C2
=B2+1,645*C2

У нас получилась следующая таблица, содержащая расчеты по нижним и верхним границам того, что мы далее будем считать «аномалией»:

Теперь, используя инструмент «Условное форматирование» — «Правило выделения ячеек» — «Меньше...»/«Больше...», последовательно для каждого из 17-ти офисов продаж настраиваем правила подсветки ячеек красным и зеленым, в зависимости от того, будет ли значение ниже нижней границы 90%-го диапазона, или выше верхней границы:

Дополнительно выставляем светло-серый цвет текста, чтобы подсвеченные «аномалии» были еще более заметны. Добавляем градиент от белого к светло-серому, чтобы сохранить первоначальную идею выделять большие значения более темной заливкой. Законченная таблица приобретает следующий вид:

Выводы

Используя идею о разбросе значений вокруг среднего в нормальном распределении, нам удалось доработать наш отчет о территориальных офисах таким образом, что мы не просто видим результаты, но и теперь отдельно включаем красные и зеленые «лампочки» для тех результатов, которые представляют интерес, как «аномалии» — маловероятно маленькие или маловероятно большие значения, определив уровень «аномалии» как все, что выходит за пределы 90% вероятности.

«В каждом пятом» звонке проблемы, проверяем

На днях пришел в голову такой пример: предположим, подрядчик жалуется на плохую связь «в каждом пятом» звонке.

Наша задача проверить, справедлива ли гипотеза, что 20% звонков имеют проблемы со связью. Причем, как всегда, мы не просто сделаем 100 тестовых звонков (на это у нас нет ресурсов), а сформулируем нулевую гипотезу, альтернативную гипотезу, и проверим ее с заданным уровнем достоверности.

Выдвигаем гипотезу и определяем уровень достоверности

Нулевой гипотезой (H0) пусть будет предположение, что со связью все в порядке, или, по крайней мере, проблемы встречаются реже, чем в 20% звонков.

Альтернативной гипотезой (H1), которую мы будем проверять, пусть будет предположение подрядчика, что в каждом пятом звонке наблюдаются помехи. То есть, по крайней мере, в 20% звонков есть проблемы со связью.

Уровень достоверности — это наша уверенность в результатах эксперимента. Чем он выше, тем больше придется сделать проверочных звонков, поэтому мы заложим 1% на возможную ошибку, и выберем уровень достоверности в 99% (1%, что, если даже эксперимент не подтвердит проблем со связью, они, в действительности, могут быть).

Cобираем формулу для расчета выборки

Предположим, цель эксперимента — опровергнуть альтернативную гипотезу H1 («есть проблемы»), подтвердив нулевую гипотезу H0 («все в порядке»). Чтобы сделать это, нам будет достаточно продемонстрировать N подряд успешных звонков без признаков проблем со связью, при этом допуская вероятность, равную или меньше 1%, что нам просто повезет, и, при наличии, в действительности, проблем с оборудованием, они случайно не проявят себя ни в одном из N звонков.

Из предположения подрядчика вытекает, что 80% звонков не имеют проблем. Вероятность отсутствия сбоев в N звонках подряд равна 0,80N. Нам нужно подобрать минимальное N, при котором вероятность упадет до 1%: 0,80N = 1%

Получается, нам нужно вычислить логарифм 1% по основанию 80%!

Загружаем в Гугл Таблицы:

Формула для ячейки C5 будет выглядеть как

=LOG(1-C2;1-C3)

Нужно сделать 20,64 звонка. (Проверяем: 0,8020,64 = 0,9995%, идеально.)

Остается только добавить округление:

=ОКРУГЛВВЕРХ(C5)

или сразу

=ОКРУГЛВВЕРХ(LOG(1-C2;1-C3))

Проверяем гипотезу

Если альтернативная гипотеза H1 нашего подрядчика верна, и мы испытываем проблемы со связью в каждом пятом звонке, то, вероятность не заметить проблем в 21 тестовом звонке подряд составляет порядка 1%. Иными словами, либо это крайне редкое совпадение (1%), либо альтернативная гипотеза о проблемах в 20% звонков неверна (99%), и мы оставляем нулевую гипозеу H0. С вероятностью 99% мы уверены, что проблем со связью не наблюдается.

 Нет комментариев    63   2019   Google Таблицы   биномиальное   выборки   коллцентр

Когнитивная ошибка конверсии

Любопытная особенность работы с понятием конверсия заключается в том, что, строго говоря, конверсия практически никогда не бывает определена точно.

Вот эти вот «конверсия звонка в продажу 18,4%», «CTR 3,1%», «конверсия в сделки 30%» — это всегда немного упрощенный подход, будто конверсия надежно измерена и, если и изменится, то мы это объясним объективными факторами, не допуская мысли, что изначально никаких «18,4%» и не было, а были только 38 договоров, которые мы сделали на 206 звонках, и это вовсе не значит, что их не могло бы быть больше или меньше.

Примерно, как местоположение электрона вокруг ядра атома не задается точными координатами, а лишь описывается некоторой областью, в которой он, наиболее вероятно, находится, наша конверсия — это тоже не конкретное число, а, в действительности, интервал, в котором она находится.

Расчет конверсии и когнитивное искажение

Рассмотрим вымышленный отдел продаж, в котором с этого года начали продавать новый продукт. Допустим, ммм, лимузины. Продукт не пользуется большим спросом, поэтому, пока что, данных для анализа не так много, или, лучше сказать, совсем мало:

месяц Заявки Продажи
август 48 1
сентябрь 35 1
октябрь 24 0
ноябрь 61 2
декабрь 32 0
ИТОГО: 200 4

Как видно из данных наших продаж, по итогам нескольких месяцев, мы имеем 4 сделки на 200 лидов (заявок), т. е. наша конверсия равна 4 / 200 = 2,0%

(Дополнительно, исходя из цифр пяти месяцев работы, мы можем примерно спрогнозировать 480 лидов на следующий год и, соответствнно, 480 * 0,02 = 9,6 сделок.)

В целом, на таких скудных данных ошибиться невозможно, поэтому, безусловно, такой прогноз не будет ошибочным. Однако, он содержит важное когнитивное искажение: 2,0% это не точное значение, а наиболее пока вероятное значение конверсии заявок в продажи наших лимузинов.

В действительности, конверсия не может быть определена точно. Она лежит в доверительном интервале от 0,4% до 3,6%. И в будущем году нужно прогнозировать не 9,6 сделок, а от 5 до 15 проданных лимузинов. К сожалению, определить этот диапазон точнее будет довольно самонадеянным.

Колокол конверсии

Исходя из предположения, что наша истинная конверсия стабильна, и точно равна 2,0%, мы можем прикинуть возможные варианты числа сделок на 480 лидов, ожидаемых в будущем году. Поскольку мы можем отвечать только за стабильность своей работы, но не можем учесть фактор случайности (настроение клиентов, форс мажор, случайная продажа другу гендиректора), всегда существует вероятность, что число сделок будет немного отличаться от прогнозируемых 480 * 0,02 = 9,6 сделок подобно тому, как число решек на 480 бросков монеты может немного отличаться от 240, и быть 235, 248, или, возможно, даже 223.

Графически это выглядит как колокол нормального распределения, где, чем дальше мы уходим от математического ожидания в 9 сделок в центре колокола, тем ниже становится вероятность сделать сильно меньше или сильно больше сделок:

Глядя на полученный график, приходится признать, что увидеть меньше 2-х и больше 19-ти сделок практически невероятно.

Но, можно ли сузить наш доверительный интервал?

Доверительный интервал конверсии

Стандартная ошибка (SD) для биномиального распределения считается по формуле:

где n — это число испытаний, p — вероятность успеха.

Для наших 200 заявок текущего года имеем:

SD = 1,98 сделок. Иными словами, согласно законам нормального распределения (а биномиальное распределение — это частный случай нормального распределения), примерно в 68% случаев, работая с истинной конверсией 2,0%, мы бы попали в доверительный интервал от 2,02 до 5,98 сделок, то есть +/-1SD.

Для прогнозируемых 480 заявок будущего года получим:

SD = 3,07 сделок. По законам биномиального (нормального) распределения, известно, что в 68% случаев продажи будущего года будут лежать в пределах +/- 1SD от математического ожидания в 9,6 сделок, а в 90% случаев — в пределах +/- 1,645SD от матожидания. 3,07 сделок * 1,645 = 5,05 сделок, иными словами, в 90% случаев, работай мы весь следующий год с конверсией 2%, мы не выйдем за границы доверительного интервала «от 4,55 до 14,65 сделок». (Примечательно, что, обратно, в 1 случае из 10, мы, все-таки, выйдем за эти границы, по-прежнему, при этом, работая с «истинной» конверсией 2%.)

Любопытно, какой шум поднимет коммерческий директор, если по итогам года мы продадим всего 4 лимузина на 480 заявок, формально показав конверсию 0,83%... и еще более любопытно, что, статистически, это происходит в 1 из 27 отделов продаж. В одном из 27-ми случаев вас увольняют за невыполнение плана продаж, хотя вы по-прежнему работаете с «истинной» конверсией 2%.

Три конверсии на границе доверительного интервала

Как же тогда относится к результатам текущего года, где мы получили 4 сделки на 200 заявок?

Первый случай, «2,00%». Его мы рассмотрели сразу. 4 / 200 = 0,02, т. е. наша конверсия равна 2%. При этом, по законам биномиального распределения, все равно есть вероятность колебаться в 90%-м доверительном интервале «+/-1,645SD», т. е., в интервале от 0,74 до 7,26 сделок на 200 заявок.

Выглядит это примерно так:

Наш результат в 4 сделки совпал с математическим ожиданием от конверсии 2,0%, хотя, в общем, он мог и не совпасть, в целом находясь в 90% доверительном интервале от 1 до 7 сделок.

Второй случай, «1,22%». В этом случае, в реальности, наша «истинная» конверсия, на самом деле, ниже, и равна, например, 1,22%. Тогда матожидание числа проданных лимузинов примерно равно 2, и нам повезло сделать 4 продажи. Степень нашего везения такова, что сделать более 4 продаж мы могли бы только в 10% случаев. Т. е., мы остаемся в поле 90%-й вероятности, хотя и находимся на границе этого поля. Еще чуть-чуть, и нам повезет слишком сильно, а пока что нам везет «в пределах разумного»:

Третий случай, «3,31%». Теперь мы предположим, что в текущем году нам не везло, хотя весь год наша истинная конверсия была выше 2,0% и равнялась 3,31%. Матожидание для 200 заявок тогда равнялось бы примерно 6 проданным лимузинам, а сделать менее 4-х продаж было бы возможно лишь в 10% случаев. Тогда мы тоже остаемся в поле 90%-й вероятности, но находимся на левой границе этого поля с нашими невезучими 4 сделками.

Таким образом, приходится признать: мы не знаем наверняка, какая из 3-х конверсий — истинная. Нам привычно думать, что речь идет о 1-м случае, и мы делим 4 сделки на 200 заявок, получая конверсию 2,00%. Но никто не знает наверняка, является ли текущий год обычным или необычным, везло ли нам в нем, или не везло. В 90% случаев речь могла идти как о везении, и мы работали в действительности с конверсией 1,22%, так и о невезении, когда мы работали с конверсией 3,31%. Во всех 3-х случаях вероятность сделать 4 сделки на 200 заявок не выходила за границы 90%.

К сожалению, у нас пока слишком мало данных, чтобы утверждать что-то можно было более точно.

Нужно больше данных

Логично задать вопрос — а сколько нужно накопить данных, чтобы более-менее надежно говорить о конверсии 2,0%? Попробуем постепенно увеличивать размер выборки (число заявок, и, следовательно, продаж), пока не увидим, как 90%-й доверительный интервал сомкнется вокруг значения конверсии в 2,00%:

                    Заявки              Сделки Нижняя граница 90% доверительного интервала (-1,645SD) Верхняя граница 90% доверительного интервала (+1,645SD) Нижняя граница конверсии Верхняя граница конверсии
200 4 0,7 7,3 0,37% 3,63%
500 10 4,9 15,1 0,97% 3,03%
1 000 20 12,7 27,3 1,27% 2,73%
5 000 100 83,7 116,3 1,67% 2,33%
10 000 200 177,0 223,0 1,77% 2,23%
50 000 1 000 948,5 1 051,5 1,90% 2,10%
100 000 2 000 1 927,2 2 072,8 1,93% 2,07%
500 000 10 000 9 837,2 10 162,8 1,97% 2,03%
1 000 000 20 000 19 769,7 20 230,3 1,98% 2,02%
10 000 000 200 000 199 271,7 200 728,3 1,99% 2,01%
25 000 000 500 000 498 848,5 501 151,5 2,00% 2,00%

Надо ли говорить, что получить более нескольких десятков тысяч заявок-лидов может мало какой из отделов продаж. Поэтому, приходится признать, что ставить планы продаж и принимать кадровые решения относительно сотрудников, работающих с уровнями конверсии 1-5% — это безумие, и на таких маленьких числах математика в продажах не работает.

См. также:

http://italylov.ru/blog/all/ctatisticheskaya-dostovernost-koltrekinga/

 Нет комментариев    77   2019   биномиальное   воронка продаж   конверсия
Ранее Ctrl + ↓