4 заметки с тегом

конверсия

График конверсии с доверительным интервалом

Некоторое время с удовольствием использую более свежую визуализацию конверсии, добавляя к своим диаграммам границы доверительного интервала.

Конверсия офисов продаж

Итак, например, мы оцениваем эффективность работы территориальных офисов продаж. Под эффективностью понимаем отношение числа совершенных продаж к числу заявок (конверсию заявок в продажи, или просто «конверсию»). То есть, если в офисе «Сокольники» за квартал было 19 продаж на 33 заявки, их эффективность будем считать равной 19/33 = 57,6%.

Очевидно, что одни офисы работают эффективнее других: конверсия по офисам меняется от 57,6% до 17,6%. Заметно также, что и число заявок в офисах различно: от 33 заявок в «Сокольниках» до 706 заявок в «Лианозово».

Обычно на этом этапе многие останавливаются, но есть несложный способ воспользоваться понятием «доверительного интервала» или «стандартного отклонения (SD)», чтобы показать то, что, на первый взгляд, не так заметно.

Оцениваем размер выборки и величину SD

Как нетрудно заметить, из-за неравного числа заявок по разным офисам («Сокольники» отличаются в этом смысле от «Лианозово» почти в 22 раза), уверенность в надежности рассчитанной конверсии будет не одинакова. Так, для «Лианозово» результат в 36,1% достигнут на выборке из 706 заявок и может считаться вполне надежным; в «Сокольниках» мы получили результат 57,6% на небольшой выборке в 33 заявки, из-за чего нет уверенности, что, получи со временем последние свои 706 заявок, они бы удержали результат на том же уровне.

Разумеется, необходимо прикинуть размер доверительного интервала для каждого офиса продаж, исходя из числа заявок, то есть, размера выборки.

Уже знакомая нам формула стандартного отклонения (SD), или σ:

где p — величина конверсии, n — число заявок.

Считаем в колонке E:

Полученная величина стандартного отклонения (SD) показывает погрешность при расчете конверсии, и, очевидно, оказалась выше там, где была меньше выборка. Чем меньше данных, тем менее надежен рассчитанный результат, и тем меньше мы уверены в нашей оценке эффективности соответствующего офиса продаж.

Считаем границы 90%-го доверительного интервала

Дополним нашу таблицу рассчитанными нижней и верхней границей 90%-го доверительного интервала. Другими словами, оценим разброс конверсий по каждому из офисов продаж, так, что с вероятностью 90% мы будем уверены, что истинная конверсия лежит в пределах этого диапазона.

Зная о том, что границы 90%-го доверительного интервала лежат в пределах ±1,645SD, вычитаем и прибавляем 1,645SD для нижней и верхней границ, соответственно. Для «Лианозово» получаем, что их истинная конверсия лежит в пределах от 33,1% до 39,1%. (По-прежнему, в 1 случае из 10 она выходит за границы нашего интервала, но зато в 9 случаях из 10 мы не ошиблись).

Дополняем график, рисуя «свечи»

В Excel 2013 воспользуемся «биржевой диаграммой», указав вместо самого высокого и самого низкого курсов верхнюю и нижнюю границу наших доверительных интервалов, а вместо курса закрытия — рассчитанную вначале конверсию:

Доработанная подобным образом диаграмма не меняет выводов, полученных в самом начале. Однако, для наблюдательного руководителя она ненавязчиво напоминает, что полученные значения конверсий офисов продаж не конечны, и особенно «не конечны» там, где оказались шире границы разброса конверсии.

«Сокольники», предварительно, обогнали «Беговой», однако, если хороший результат «Бегового» надежен за счет узкого интервала, то результат «Сокольников» очень приблизителен, поэтому уверенные выводы возможно делать лишь о части офисов продаж, для остальных — нужно больше данных, а до тех пор их позиции в рейтинге можно считать лишь предварительными, или, как было сказано выше, не конечными.

См. также:

http://italylov.ru/blog/all/ctatisticheskaya-dostovernost-koltrekinga/

Доверительный интервал биномиального распределения по методу Уилсона

В процессе изучения биномиального распределения, обратил внимание, что стандартный способ определения доверительного интервала через ±1,645SD не всегда точен. Грубо говоря, если «решка» выпала меньше, чем в 10 бросках, то, скорее всего, либо вы сделали мало бросков, либо у вас вероятность выпадения «решки» в «заколдованной монетке» сильно невелика; если np < 10, лучше воспользоваться более сложными формулами, дающими более точные оценки при маленьких p или n:

По мнению многих статистиков, наиболее оптимальную оценку доверительных интервалов для частот осуществляет метод Уилсона (Wilson), предложенный еще в 1927 году <...>. Данный метод не только позволяет оценить доверительные интервалы для очень малых и очень больших частот, но и применим для малого числа наблюдений.

Звучит заманчиво. Попробуем разобраться.

Метод Уилсона

Нижняя и верхняя граница доверительного интервала p = 1—α/2 вычисляются следующими формулами:

Формула расчета нижней и верхней границ, соответственно.

где p — наблюдаемая вероятность «выпадения решки», N — число измерений («бросков»), z — z-оценка (например, 1,960 для 95%-го доверительного интервала, или 1,645 для 90%-го).

Пример и калькулятор для расчета

Предположим, нам удалось прослушать 10 рандомных звонков колл-центра, и в 4 из них оператор забыл или поленился уточнить у клиента источник рекламы. Скорее всего, исходя из данной информации, операторы не уточняют источники рекламы в 40% звонков.

Однако, это очень смелое утверждение, ведь наша выборка (10 звонков) откровенно мала: для получения более точной оценки качества работы коллцентра, хорошо бы прослушать больше рандомных звонков (прослушать все звонки, очевидно, невозможно).

Но даже для выборки из 10 звонков, можно рассчитать SD биномиального распределения:

Имеем, SD = 15,49%. С вероятностью 90%, точная оценка качества работы коллцентра (доля звонков, где не выявлен источник рекламы) лежит в диапазоне 40%±1,645SD, или от 14,52% до 65,48%.

Применяя же формулу Уилсона (что уместно, так как np = 4 < 10), границы доверительного интервала уточняются: с вероятностью 90%, истинная доля звонков, где не выявляется источник рекламы, лежит в границах от 19,42% до 64,84%. SD, получается, равно 13,80%.

Калькулятор в Google Таблицах (меню «Файл» — «Создать копию»).

См. также:

«Доверительные интервалы для частот и долей», А.М. Гржибовский, 2008 (стр. 58-59)
Онлайн-калькулятор для 95%-го доверительного интервала
Калькулятор на WolframAlpha.com
Binomial confidence intervals and contingency tests (стр.4-5)
https://influentialpoints.com/Training/confidence_intervals_of_proportions.htm#wils
Wilson score interval на Википедии

Голосовой робот KupiVIP, угадываем размер выборки

В статье «Кейс: заменили на Black Friday колл-центр KupiVIP роботом, и только 5 человек из 5000 поняли, что общаются с нейросетью» на vc.ru меня, среди прочего, не могла не заинтересовать фраза, где автор рассказывает о росте конверсии с 6% до 8%:

"количество активаций промокода у голосового робота доходило до 8% против 6% у реальных сотрудников колл-центра."

Естественно, я задумался, на каком же объеме звонков был зафиксирован данный рост конверсии, и достаточен ли был этот объем, чтобы можно было достоверно утверждать, что голосовой робот эффективнее живых операторов колл-центра.

Точно вопрос можно было бы сформулировать, например, следующим образом: какой минимальный объем звонков требуется сделать, чтобы с уровнем достоверности, например, 95% зафиксировать рост конверсии с 6% до 8%?

Строим эксперимент в Excel

Попробуем выписать имеющиеся данные в Excel. Для дальнейших расчетов нам понадобится параметр «число звонков» — предположим пока, что и робот, и операторы сделали по 1000 звонков, прежде чем были получены конверсии 6% и 8%:

Вообще, налицо обычный А/Б сплит-тест, и далее нам нужно будет пройтись по его алгоритму для получения Z-оценки и расчета p-значения.

Рассчитаем стандартные ошибки (SD, или σ) для обеих конверсий и стандартную ошибку разницы этих конверсий. Формула для расчета стандартной ошибки конверсии:

где p — конверсия (6%, например), n — размер выборки (1000 звонков). Считаем в Excel:

Стандартная ошибка разницы конверсий — считаем по формуле:

где σ — это стандартная ошибка каждой из конверсий A и B (оператор и робот). В Excel посчитаем ее чуть ниже:

Насколько разница между конверсиями A и B больше, чем стандартная ошибка этой разницы? Это соотношение называется Z-оценкой. В Excel считается совсем просто:

Итак, Z-оценка = 1,7541. На графике нормального распределения это соответствует 96%-му персентилю, то есть, вероятность, что Z-оценка случайно окажется выше 1,7541 составляет порядка 4% (иными словами, 96% площади под колоколом нормального распределения не выходят за пределы +1,7541 стандартных отклонений):

Откуда мы взяли именно 96%? Точное значение вероятности, p-значение, вычисляем по формуле:

=НОРМ.РАСП(1,7541;0;1;ИСТИНА)

P-значение = 96,03%.

Итак, промежуточный вывод: если на выборке в 1000 звонков в каждом из двух случаев мы обнаружили конверсии (активации промокода) в 6% и 8% звонков, то мы на 96% уверены, что эта разница не случайна. (Остается 4% вероятности, что обнаруженная разница — случайность. Тогда, возможно, конверсия вообще одинакова и равна, например, 7%. Сделай мы больше звонков, разница вскоре сошла бы на нет).

Эксперимент минимального размера

Однако, вернемся к первоначальной задаче.

Мы не хотели убедиться, что 8% больше, чем 6%, да и цифра 1000 звонков для робота и операторов была выбрана наугад. Мы хотели рассчитать минимальное количество звонков, чтобы с уровнем уверенности 95% зафиксировать статистическую значимость разницы между 8% и 6%.

1000 звонков нам оказалось точно достаточно. Теперь нам остается уменьшать это число до той поры, пока p-значение не пересечет границу 95%. (По формуле нормального распределения, кстати, это будет соответствовать Z-оценке, равной 1,6449 — попробуйте проверить.)

В теории, наверное, можно было бы вывести большую формулу для расчета такого n, при котором p-значение будет равно 0,95. На практике, быстрее окажется вручную подобрать минимальное n. Или, еще лучше, воспользоваться в Excel инструментом Данные — Анализ «что, если» — Подбор параметра:

(Убедитесь только, что число звонков робота ровно то же самое, что и число звонков оператора, т. е. вы указали =C6 в ячейке C7).

Выводы

Итак, мы вычислили минимальные условия эксперимента для оценки эффективности голосового робота для KupiVIP.

Нужно не менее 878 звонков в каждой из двух групп, чтобы с уровнем достоверности 95% подтвердить наличие разницы между 6% активаций промокодов в контрольной группе (реальные сотрудники) и 8% в тестовой группе (голосовой робот).

(Единственное, ни 6%, ни 8% не дают целого числа активаций на выборке из 878 звонков, и, в реальности, конечно, цифры будут другие, причем число звонков в двух группах вообще может быть различным. Но, на самом деле, это не имеет большого значения, т. к., наверняка, в статье были приведены округленные значения конверсий).

См. также:

https://abtestguide.com/calc/?ua=1000&ub=1000&ca=60&cb=80

Ранее Ctrl + ↓