<?xml version="1.0" encoding="utf-8"?> 
<rss version="2.0"
  xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
  xmlns:atom="http://www.w3.org/2005/Atom">

<channel>

<title>Математика и кофе: заметки с тегом А/Б-тесты</title>
<link>https://mathandcoffee.ru/tags/a-b-testy/</link>
<description>Отделы продаж, коллцентры, аналитика, цифры и данные, воронки продаж, матстатистика..</description>
<author>Иван Балдин</author>
<language>ru</language>
<generator>E2 (v3565; Aegea)</generator>

<itunes:owner>
<itunes:name>Иван Балдин</itunes:name>
<itunes:email></itunes:email>
</itunes:owner>
<itunes:subtitle>Отделы продаж, коллцентры, аналитика, цифры и данные, воронки продаж, матстатистика..</itunes:subtitle>
<itunes:image href="" />
<itunes:explicit></itunes:explicit>

<item>
<title>Голосовой робот KupiVIP, угадываем размер выборки</title>
<guid isPermaLink="false">27</guid>
<link>https://mathandcoffee.ru/all/golosovoy-robot-kupivip-ugadyvaem-razmer-vyborki/</link>
<pubDate>Sat, 20 Jul 2019 13:18:48 +0300</pubDate>
<author>Иван Балдин</author>
<comments>https://mathandcoffee.ru/all/golosovoy-robot-kupivip-ugadyvaem-razmer-vyborki/</comments>
<description>
&lt;p&gt;В статье «&lt;a href="https://vc.ru/marketing/54315-keys-zamenili-na-black-friday-koll-centr-kupivip-robotom-i-tolko-5-chelovek-iz-5000-ponyali-chto-obshchayutsya-s-neyrosetyu"&gt;Кейс: заменили на Black Friday колл-центр KupiVIP роботом, и только 5 человек из 5000 поняли, что общаются с нейросетью&lt;/a&gt;» на vc.ru меня, среди прочего, не могла не заинтересовать фраза, где автор рассказывает о росте конверсии с 6% до 8%:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/kupivip_robot_00.PNG" width="690" height="276" alt="&amp;quot;количество активаций промокода у голосового робота доходило до 8% против 6% у реальных сотрудников колл-центра.&amp;quot;" /&gt;
&lt;/div&gt;
&lt;p&gt;Естественно, я задумался, на каком же объеме звонков был зафиксирован данный рост конверсии, и достаточен ли был этот объем, чтобы можно было достоверно утверждать, что голосовой робот эффективнее живых операторов колл-центра.&lt;/p&gt;
&lt;p&gt;Точно вопрос можно было бы сформулировать, например, следующим образом: &lt;b&gt;какой минимальный объем звонков требуется сделать, чтобы с уровнем достоверности, например, 95% зафиксировать рост конверсии с 6% до 8%?&lt;/b&gt;&lt;/p&gt;
&lt;h2&gt;Строим эксперимент в Excel&lt;/h2&gt;
&lt;p&gt;Попробуем выписать имеющиеся данные в Excel. Для дальнейших расчетов нам понадобится параметр &lt;i&gt;«число звонков»&lt;/i&gt; — предположим пока, что и робот, и операторы сделали по 1000 звонков, прежде чем были получены конверсии 6% и 8%:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/kupivip_robot_01.PNG" width="366" height="215" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Вообще, налицо обычный А/Б сплит-тест, и далее нам нужно будет пройтись по его алгоритму для получения &lt;i&gt;Z-оценки&lt;/i&gt; и расчета &lt;i&gt;p-значения&lt;/i&gt;.&lt;/p&gt;
&lt;p&gt;Рассчитаем стандартные ошибки (SD, или &amp;sigma;) для обеих конверсий и стандартную ошибку разницы этих конверсий. Формула для расчета стандартной ошибки конверсии:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/CodeCogsEqn.png" width="201" height="77" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;где &lt;i&gt;p&lt;/i&gt; — конверсия (6%, например), &lt;i&gt;n&lt;/i&gt; — размер выборки (1000 звонков). Считаем в Excel:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/kupivip_robot_02.PNG" width="573" height="217" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Стандартная ошибка разницы конверсий — считаем по формуле:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/CodeCogsEqn02.png" width="230" height="58" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;где &amp;sigma; — это стандартная ошибка каждой из конверсий A и B (оператор и робот). В Excel посчитаем ее чуть ниже:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/kupivip_robot_03.PNG" width="556" height="250" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Насколько разница между конверсиями A и B больше, чем стандартная ошибка этой разницы? Это соотношение называется &lt;i&gt;&lt;b&gt;Z-оценкой.&lt;/b&gt;&lt;/i&gt; В Excel считается совсем просто:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/kupivip_robot_04.PNG" width="506" height="271" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Итак, Z-оценка = 1,7541. На графике нормального распределения это соответствует 96%-му персентилю, то есть, вероятность, что Z-оценка случайно окажется выше 1,7541 составляет порядка 4% (иными словами, 96% площади под колоколом нормального распределения не выходят за пределы +1,7541 стандартных отклонений):&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/kupivip_robot_05.PNG" width="706" height="304" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Откуда мы взяли именно 96%? Точное значение вероятности, &lt;i&gt;p-значение,&lt;/i&gt; вычисляем по формуле:&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=НОРМ.РАСП(1,7541;0;1;ИСТИНА)&lt;/code&gt;&lt;/pre&gt;&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/kupivip_robot_06.PNG" width="571" height="94" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;P-значение = 96,03%.&lt;/p&gt;
&lt;p&gt;Итак, промежуточный вывод: &lt;b&gt;если на выборке в 1000 звонков в каждом из двух случаев мы обнаружили конверсии (активации промокода) в 6% и 8% звонков, то мы на 96% уверены, что эта разница не случайна.&lt;/b&gt; (Остается 4% вероятности, что обнаруженная разница — случайность. Тогда, возможно, конверсия вообще одинакова и равна, например, 7%. Сделай мы больше звонков, разница вскоре сошла бы на нет).&lt;/p&gt;
&lt;h2&gt;Эксперимент минимального размера&lt;/h2&gt;
&lt;p&gt;Однако, вернемся к первоначальной задаче.&lt;/p&gt;
&lt;p&gt;Мы не хотели убедиться, что 8% больше, чем 6%, да и цифра 1000 звонков для робота и операторов была выбрана наугад. Мы хотели рассчитать &lt;b&gt;минимальное количество звонков, чтобы с уровнем уверенности 95% зафиксировать статистическую значимость разницы между 8% и 6%.&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;1000 звонков нам оказалось точно достаточно. Теперь нам остается уменьшать это число до той поры, пока p-значение не пересечет границу 95%. (По формуле нормального распределения, кстати, это будет соответствовать Z-оценке, равной 1,6449 — попробуйте проверить.)&lt;/p&gt;
&lt;p&gt;В теории, наверное, можно было бы вывести большую формулу для расчета такого &lt;i&gt;n,&lt;/i&gt; при котором p-значение будет равно 0,95. На практике, быстрее окажется вручную подобрать минимальное n. Или, еще лучше, воспользоваться в Excel инструментом &lt;b&gt;Данные — Анализ «что, если» — Подбор параметра:&lt;/b&gt;&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/kupivip_robot_07.PNG" width="797" height="186" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;(Убедитесь только, что число звонков робота ровно то же самое, что и число звонков оператора, т. е. вы указали =C6 в ячейке C7).&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/kupivip_robot_08.PNG" width="817" height="185" alt="" /&gt;
&lt;/div&gt;
&lt;h2&gt;Выводы&lt;/h2&gt;
&lt;p&gt;Итак, мы вычислили минимальные условия эксперимента для оценки эффективности голосового робота для KupiVIP.&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Нужно не менее 878 звонков в каждой из двух групп, чтобы с уровнем достоверности 95% подтвердить наличие разницы между 6% активаций промокодов в контрольной группе (реальные сотрудники) и 8% в тестовой группе (голосовой робот).&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;(Единственное, ни 6%, ни 8% не дают целого числа активаций на выборке из 878 звонков, и, в реальности, конечно, цифры будут другие, причем число звонков в двух группах вообще может быть различным. Но, на самом деле, это не имеет большого значения, т. к., наверняка, в статье были приведены округленные значения конверсий).&lt;/p&gt;
&lt;h2&gt;См. также:&lt;/h2&gt;
&lt;p&gt;&lt;a href="https://abtestguide.com/calc/?ua=1000&amp;ub=1000&amp;ca=60&amp;cb=80"&gt;https://abtestguide.com/calc/?ua=1000&amp;ub=1000&amp;ca=60&amp;cb=80&lt;/a&gt;&lt;/p&gt;
</description>
</item>

<item>
<title>Качество звонков: сколько нужно прослушать</title>
<guid isPermaLink="false">12</guid>
<link>https://mathandcoffee.ru/all/kachestvo-zvonkov-skolko-proslushat/</link>
<pubDate>Sun, 26 May 2019 16:46:00 +0300</pubDate>
<author>Иван Балдин</author>
<comments>https://mathandcoffee.ru/all/kachestvo-zvonkov-skolko-proslushat/</comments>
<description>
&lt;p&gt;Распространенным инструментом оценки качества работы менеджеров отдела продаж является &lt;b&gt;аудит качества телефонных звонков,&lt;/b&gt; «прослушка».&lt;/p&gt;
&lt;p&gt;Предположим, вы задались целью не просто &lt;b&gt;замерить&lt;/b&gt; качество телефонных звонков, но &lt;b&gt;зафиксировать &lt;i&gt;рост&lt;/i&gt; этого качества.&lt;/b&gt; Например, провели обучение (тренинг) менеджеров, либо предложили новую мотивацию за соблюдение стандартов качества, либо что-то еще.&lt;/p&gt;
&lt;p&gt;Логично предположить, что рост качества в первом попавшемся, после тренинга, звонке, не будет однозначно свидетельствовать о росте качества в остальных звонках. Скорее всего, и второй удачный звонок тоже однозначно не подтвердит гипотезу, что качество выросло.&lt;/p&gt;
&lt;p&gt;Таким образом, речь будет идти о том, что вам придется прослушать если не все, то, по крайней мере, достаточное число звонков после введенных вами изменений, и число звонков, которые необходимо будет прослушать, на самом деле, &lt;b&gt;можно однозначно рассчитать.&lt;/b&gt;&lt;/p&gt;
&lt;h2&gt;Считаем размер выборки&lt;/h2&gt;
&lt;p&gt;На 15-й странице работы «&lt;a href="https://people.ucsc.edu/~dgbonett/docs/wrkshp/LectureNotes.pdf"&gt;Планирование размеров выборки для исследований в бихевиоризме&lt;/a&gt;» мне попался подходящий пример 2.4 и формула для расчета таких выборок:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/samplesize00.PNG" width="858" height="506" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;В данном примере рассматривается изменение оценки &lt;a href="https://ru.wikipedia.org/wiki/ACT"&gt;ACT&lt;/a&gt;-теста по математике с 24,5 (дисперсия 8,2) до 26,0 баллов при &amp;alpha; = 0,05 и мощности = 0,90.&lt;/p&gt;
&lt;p&gt;Для удобства работы, я собрал приведенную формулу в Гугл-таблицах:&lt;br /&gt;
&lt;a href="https://docs.google.com/spreadsheets/d/1c1J88P0i0gmDFpOtfDIkPt-C0HKJOWACbSWVZTx2kL8/edit?usp=sharing"&gt;Калькулятор размера выборки&lt;/a&gt;&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/samplesize01.PNG" width="865" height="346" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Вам остается скопировать файл, и можете подставлять нужные вам значения. Достоверность разумно выбирать от 80% до 95%, значение мощности — от 60% до 80%. Указываете средний балл оценки звонков до изменений, стандартное отклонение (SD) оценки звонков «до», и ожидаемый средний балл оценки звонков после изменений.&lt;/p&gt;
&lt;h2&gt;Верификация полученных результатов&lt;/h2&gt;
&lt;p&gt;Важно понимать, что, даже прослушав требуемое количество звонков «после», все равно необходимо проверять наличие статистически значимых различий через &lt;a href="http://n4d-d.xyz/all/a-b-test-maksimalno-prosto/"&gt;калькулятор А/Б-тестов&lt;/a&gt;.&lt;/p&gt;
&lt;h2&gt;См. также:&lt;/h2&gt;
&lt;p&gt;&lt;a href="https://habr.com/ru/post/339798/"&gt;https://habr.com/ru/post/339798/&lt;/a&gt;&lt;br /&gt;
&lt;a href="https://people.ucsc.edu/~dgbonett/docs/wrkshp/LectureNotes.pdf"&gt;https://people.ucsc.edu/~dgbonett/docs/wrkshp/LectureNotes.pdf&lt;/a&gt;&lt;/p&gt;
</description>
</item>


</channel>
</rss>