<?xml version="1.0" encoding="utf-8"?> 
<rss version="2.0"
  xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
  xmlns:atom="http://www.w3.org/2005/Atom">

<channel>

<title>Математика и кофе: заметки с тегом аналитика</title>
<link>https://mathandcoffee.ru/tags/analitika/</link>
<description>Отделы продаж, коллцентры, аналитика, цифры и данные, воронки продаж, матстатистика..</description>
<author>Иван Балдин</author>
<language>ru</language>
<generator>E2 (v3565; Aegea)</generator>

<itunes:owner>
<itunes:name>Иван Балдин</itunes:name>
<itunes:email></itunes:email>
</itunes:owner>
<itunes:subtitle>Отделы продаж, коллцентры, аналитика, цифры и данные, воронки продаж, матстатистика..</itunes:subtitle>
<itunes:image href="" />
<itunes:explicit></itunes:explicit>

<item>
<title>График конверсии с доверительным интервалом</title>
<guid isPermaLink="false">45</guid>
<link>https://mathandcoffee.ru/all/grafik-konversii-s-doveritelnym-intervalom/</link>
<pubDate>Tue, 25 May 2021 01:13:50 +0300</pubDate>
<author>Иван Балдин</author>
<comments>https://mathandcoffee.ru/all/grafik-konversii-s-doveritelnym-intervalom/</comments>
<description>
&lt;p&gt;Некоторое время с удовольствием использую более свежую визуализацию конверсии, добавляя к своим диаграммам &lt;b&gt;границы доверительного интервала.&lt;/b&gt;&lt;/p&gt;
&lt;h2&gt;Конверсия офисов продаж&lt;/h2&gt;
&lt;p&gt;Итак, например, мы оцениваем эффективность работы территориальных офисов продаж. Под &lt;b&gt;&lt;i&gt;эффективностью&lt;/i&gt;&lt;/b&gt; понимаем отношение числа совершенных продаж к числу заявок (конверсию заявок в продажи, или просто &lt;b&gt;&lt;i&gt;«конверсию»).&lt;/i&gt;&lt;/b&gt; То есть, если в офисе «Сокольники» за квартал было 19 продаж на 33 заявки, их эффективность будем считать равной 19/33 = 57,6%.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/candles-sd-00.png" width="642" height="382" alt="" /&gt;
&lt;/div&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/candles-sd-01.png" width="455" height="454" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Очевидно, что одни офисы работают эффективнее других: конверсия по офисам меняется от 57,6% до 17,6%. Заметно также, что и число заявок в офисах различно: от 33 заявок в «Сокольниках» до 706 заявок в «Лианозово».&lt;/p&gt;
&lt;p&gt;Обычно на этом этапе многие останавливаются, но есть несложный способ воспользоваться понятием «доверительного интервала» или «стандартного отклонения (SD)», чтобы показать то, что, на первый взгляд, не так заметно.&lt;/p&gt;
&lt;h2&gt;Оцениваем размер выборки и величину SD&lt;/h2&gt;
&lt;p&gt;Как нетрудно заметить, из-за неравного числа заявок по разным офисам («Сокольники» отличаются в этом смысле от «Лианозово» почти в 22 раза), уверенность в надежности рассчитанной конверсии будет не одинакова. Так, для «Лианозово» результат в 36,1% достигнут на выборке из 706 заявок и может считаться вполне надежным; в «Сокольниках» мы получили результат 57,6% на небольшой выборке в 33 заявки, из-за чего нет уверенности, что, получи со временем последние свои 706 заявок, они бы удержали результат на том же уровне.&lt;/p&gt;
&lt;p&gt;Разумеется, необходимо прикинуть размер доверительного интервала для каждого офиса продаж, исходя из числа заявок, то есть, размера выборки.&lt;/p&gt;
&lt;p&gt;Уже знакомая нам формула стандартного отклонения (SD), или &lt;i&gt;&amp;sigma;&lt;/i&gt;:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/CodeCogsEqn.png" width="201" height="77" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;где &lt;i&gt;p&lt;/i&gt; — величина конверсии, &lt;i&gt;n&lt;/i&gt; — число заявок.&lt;/p&gt;
&lt;p&gt;Считаем в колонке E:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/candles-sd-02.png" width="637" height="380" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Полученная величина стандартного отклонения (SD) показывает погрешность при расчете конверсии, и, очевидно, оказалась выше там, где была меньше выборка. Чем меньше данных, тем менее надежен рассчитанный результат, и тем меньше мы уверены в нашей оценке эффективности соответствующего офиса продаж.&lt;/p&gt;
&lt;h2&gt;Считаем границы 90%-го доверительного интервала&lt;/h2&gt;
&lt;p&gt;Дополним нашу таблицу рассчитанными нижней и верхней границей 90%-го доверительного интервала. Другими словами, оценим разброс конверсий по каждому из офисов продаж, так, что с вероятностью 90% мы будем уверены, что &lt;i&gt;истинная&lt;/i&gt; конверсия лежит в пределах этого диапазона.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/candles-sd-03.png" width="653" height="381" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Зная о том, что границы 90%-го доверительного интервала лежат в пределах &amp;plusmn;1,645SD, вычитаем и прибавляем 1,645SD для нижней и верхней границ, соответственно. Для «Лианозово» получаем, что их &lt;i&gt;истинная&lt;/i&gt; конверсия лежит в пределах от 33,1% до 39,1%. (По-прежнему, в 1 случае из 10 она выходит за границы нашего интервала, но зато в 9 случаях из 10 мы не ошиблись).&lt;/p&gt;
&lt;h2&gt;Дополняем график, рисуя «свечи»&lt;/h2&gt;
&lt;p&gt;В Excel 2013 воспользуемся &lt;b&gt;«биржевой диаграммой»,&lt;/b&gt; указав вместо &lt;b&gt;&lt;i&gt;самого высокого&lt;/i&gt;&lt;/b&gt; и &lt;b&gt;&lt;i&gt;самого низкого курсов&lt;/i&gt;&lt;/b&gt; верхнюю и нижнюю границу наших доверительных интервалов, а вместо &lt;b&gt;&lt;i&gt;курса закрытия&lt;/i&gt;&lt;/b&gt; — рассчитанную вначале конверсию:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/candles-sd-04.png" width="634" height="600" alt="" /&gt;
&lt;/div&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/candles-sd-05.png" width="454" height="454" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Доработанная подобным образом диаграмма не меняет выводов, полученных в самом начале. Однако, для наблюдательного руководителя она ненавязчиво напоминает, что полученные значения конверсий офисов продаж &lt;b&gt;не конечны,&lt;/b&gt; и особенно «не конечны» там, где оказались шире границы разброса конверсии.&lt;/p&gt;
&lt;p&gt;«Сокольники», предварительно, обогнали «Беговой», однако, если хороший результат «Бегового» надежен за счет узкого интервала, то результат «Сокольников» очень приблизителен, поэтому уверенные выводы возможно делать лишь о части офисов продаж, для остальных — нужно больше данных, а до тех пор их позиции в рейтинге можно считать лишь предварительными, или, как было сказано выше, не конечными.&lt;/p&gt;
&lt;h2&gt;См. также:&lt;/h2&gt;
&lt;p&gt;&lt;a href="http://italylov.ru/blog/all/ctatisticheskaya-dostovernost-koltrekinga/"&gt;http://italylov.ru/blog/all/ctatisticheskaya-dostovernost-koltrekinga/&lt;/a&gt;&lt;/p&gt;
</description>
</item>

<item>
<title>Ищем «аномалии», включаем красные и зеленые «лампочки»</title>
<guid isPermaLink="false">30</guid>
<link>https://mathandcoffee.ru/all/ischem-anomalii/</link>
<pubDate>Thu, 12 Sep 2019 15:27:33 +0300</pubDate>
<author>Иван Балдин</author>
<comments>https://mathandcoffee.ru/all/ischem-anomalii/</comments>
<description>
&lt;p&gt;Переписываясь на днях с коллегой в Телеграме, в очередной раз увидел примерно вот такой отчет (сейчас просто нарисовал похожий) — сверху недели, сбоку, допустим, территориальные офисы продаж (там были месяцы и продажи по типам продукта, но для целей этой заметки это совершенно не имеет значения):&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/anomalii00.PNG" width="1163" height="434" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Воспользовавшись «Условным форматированием» в Экселе, замечаем, что на 6-й неделе в офисе «Академический»  было 503 продажи. В общем, до этого момента ничего необычного, и так выжали 90% из данных, можно работать с отчетом и анализировать, что душе угодно.&lt;/p&gt;
&lt;p&gt;Однако, есть несложная доработка, позволяющая выжать из данных еще лишние 5%.&lt;/p&gt;
&lt;h2&gt;Что, собственно, ищем&lt;/h2&gt;
&lt;p&gt;На картинке особо не видно, но чем ниже по списку, тем меньше в среднем продаж в каждом следующем офисе. То есть, будем считать, что офисы продаж все очень разные, и некорректно сравнивать «Академический» с «Якиманкой» — нехитрым вычислением получается, что «Академический» в среднем делал 242 продажи в неделю, а «Якиманка» — всего 13. Предположим, что тому есть объективные причины, и никто и не требовал от всех офисов показывать одинаковые результаты.&lt;/p&gt;
&lt;p&gt;И тогда можно задать себе вопрос: достаточно ли просто анализировать абсолютные показатели по нашим офисам? И не будет ли правильнее копнуть вглубь, и &lt;b&gt;попробовать найти такие показатели, которые выбиваются из общей картины?&lt;/b&gt; Такие недели, которые были &lt;b&gt;&lt;i&gt;аномальными&lt;/i&gt;&lt;/b&gt; для данного офиса продаж.&lt;/p&gt;
&lt;p&gt;Здесь и далее под &lt;i&gt;«аномалией»&lt;/i&gt; я буду понимать такое значение продаж, которое &lt;b&gt;слишком отличается от среднего по данном офису.&lt;/b&gt; Как в большую (и надо разобраться, как повторить этот результат) или в меньшую (проанализировать, как избежать неудачи в будущем) сторону.&lt;/p&gt;
&lt;h2&gt;Распределяем результаты офиса «Академический»&lt;/h2&gt;
&lt;p&gt;Изучив результаты продаж офиса «Академический» за прошедшие 43 недели, мы рассчитали, что в среднем они делают 241,5 продаж в неделю, при этом стандартное отклонение (SD) равно 86,3.&lt;/p&gt;
&lt;p&gt;Напомню формулы:&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=СРЗНАЧ(B2:AR2)&lt;/code&gt;&lt;/pre&gt;&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=СТАНДОТКЛОН.В(B2:AR2)&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Можно, гипотетически, представить, что мы имеем возможность наблюдать за результатами офиса «Академический» 200 (sic!) лет, при условии, что все это время среднее и стандартное отклонение не меняются, т. е., грубо говоря, они работают, как работали. В этом случае, мы увидели бы распределение результатов продаж, близкое к &lt;i&gt;нормальному:&lt;/i&gt;&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/anomalii01.PNG" width="663" height="379" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Давайте даже еще раз перерисуем картинку. 2 290 недель из 10 000 они бы делали от 200 до 249 продаж в неделю:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/anomalii02.PNG" width="663" height="379" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Понимаете, к чему я клоню?&lt;/p&gt;
&lt;p&gt;Если только допустить, что результаты продаж подчиняются законам &lt;i&gt;нормального распределения&lt;/i&gt; (грубо говоря, равновероятно продать как чуть больше, так и чуть меньше среднего), существует некоторое разумное отклонение от среднего, в пределах которого было бы глупо всерьез говорить о «спаде продаж» или «невероятном успехе». Иными словами, бессмысленно считать «аномалией» то, что лежит в пределах разумного отклонения от среднего.&lt;/p&gt;
&lt;p&gt;Остается сформулировать критерии «разумности» и научить отчет сигнализировать об «аномалиях».&lt;/p&gt;
&lt;h2&gt;Вспоминаем теорию&lt;/h2&gt;
&lt;p&gt;Если вкратце, то, допустив на минутку, что мы имеем дело с &lt;i&gt;нормальным распределением,&lt;/i&gt; вычислив &lt;i&gt;среднее значение&lt;/i&gt; и &lt;i&gt;стандартное отклонение (SD),&lt;/i&gt; мы можем уверенно говорить о том, &lt;b&gt;что 90% данных в отчете не будут выходить за границы &amp;plusmn;1,645SD от среднего.&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;Применительно к офису «Академический» речь идет о том, что для 90% времени результаты их продаж будут лежать в диапазоне от 100 до 383, или 241,5&amp;plusmn;142,0.  Поэтому до тех пор, пока цифры не вышли за пределы этих границ, мы не наблюдаем ничего необычного.&lt;/p&gt;
&lt;p&gt;Сразу оговоримся: конечно, степень «необычности», или «аномалии», каждый определяет для себя сам. Для одних, подозрение могут вызывать показатели, выбивающиеся за рамки 80%-ной вероятности (&amp;plusmn;1,28SD), для других — терпимым будет отклонение в &amp;plusmn;1,96SD, что соответствует 95%-й вероятности. Тогда, первые будут бить искать причины «аномалии» в 20% случаев, вторые — в 5%. Каждую пятую неделю но отчете у коммерческого директора первые будут объяснять, что произошло, и почему, тогда как вторые будут делать это раз в 4-5 месяцев.&lt;/p&gt;
&lt;p&gt;Допущение о том, что продажи в территориальных офисах, число посетителей на сайте, количество рекламных звонков, клики по баннеру распределяются по закону нормального распределения, дало нам потрясающую возможность оценивать вероятность наступления «аномалии» — слишком сильного отклонения от среднего значения. Обратно, оно учит нас не бить тревогу там, где отклонение, хотя и есть, не является достаточно сильным, и делает, отчасти, бессмысленным анализ и разбор ситуаций, когда показатель отклоняется в пределах разумного.&lt;/p&gt;
&lt;h2&gt;Перекрашиваем отчет, включаем зеленые и красные «лампочки»&lt;/h2&gt;
&lt;p&gt;Теперь мы хотим переделать отчет о продажах в территориальных офисах таким образом, чтобы напротив подозрительно больших или подозрительно маленьких значений загорались бы зеленые и красные «лампочки».&lt;/p&gt;
&lt;p&gt;Нам необходимо научить отчет «включать» наши «лампочки», если значение в ячейке становится больше или меньше границ 90%-го диапазона, т. е. в примерно 90% случаев ни одна из «лампочек» «загораться» не будет, в примерно 5% случаев будет «загораться» красная «лампочка», и еще в примерно 5% — зеленая.&lt;/p&gt;
&lt;p&gt;Применительно к «Академическому», мы хотим выделять красным значения, меньшие чем 241,5-1,645*86,3, т. е., меньшие, чем 100, и мы ходим выделять зеленым значения, большие, чем 241,5+1,645*86,3, т. е., большие, чем 383.&lt;/p&gt;
&lt;p&gt;Нам остается рассчитать границы включения «лампочек» по каждому из офисов продаж, рассчитав последовательно: среднее значение продаж, стандартное отклонение (SD), нижнюю границу 90%-го диапазона, верхнюю границу 90%-го диапазона.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/anomalii03.PNG" width="542" height="308" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Используемые формулы:&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=СРЗНАЧ(B2:AR2)&lt;/code&gt;&lt;/pre&gt;&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=СТАНДОТКЛОН.В(B2:AR2)&lt;/code&gt;&lt;/pre&gt;&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=B2-1,645*C2&lt;/code&gt;&lt;/pre&gt;&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=B2+1,645*C2&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;У нас получилась следующая таблица, содержащая расчеты по нижним и верхним границам того, что мы далее будем считать «аномалией»:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/anomalii04.PNG" width="471" height="439" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Теперь, используя инструмент «Условное форматирование» — «Правило выделения ячеек» — «Меньше...»/«Больше...», последовательно для каждого из 17-ти офисов продаж настраиваем правила подсветки ячеек красным и зеленым, в зависимости от того, будет ли значение ниже нижней границы 90%-го диапазона, или выше верхней границы:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;div class="fotorama" data-width="614" data-ratio="1.9068322981366"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/anomalii05.PNG" width="614" height="322" alt="" /&gt;
&lt;img src="https://mathandcoffee.ru/pictures/anomalii06.PNG" width="600" height="315" alt="" /&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;Дополнительно выставляем светло-серый цвет текста, чтобы подсвеченные «аномалии» были еще более заметны. Добавляем градиент от белого к светло-серому, чтобы сохранить первоначальную идею выделять большие значения более темной заливкой. Законченная таблица приобретает следующий вид:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/anomalii07.PNG" width="1162" height="438" alt="" /&gt;
&lt;/div&gt;
&lt;h2&gt;Выводы&lt;/h2&gt;
&lt;p&gt;Используя идею о разбросе значений вокруг среднего в нормальном распределении, нам удалось доработать наш отчет о территориальных офисах таким образом, что мы не просто видим результаты, но и теперь отдельно включаем красные и зеленые «лампочки» для тех результатов, которые представляют интерес, как «аномалии» — маловероятно маленькие или маловероятно большие значения, определив уровень «аномалии» как все, что выходит за пределы 90% вероятности.&lt;/p&gt;
</description>
</item>

<item>
<title>t-Критерий Стьюдента</title>
<guid isPermaLink="false">5</guid>
<link>https://mathandcoffee.ru/all/t-kriteriy-styudenta/</link>
<pubDate>Mon, 15 Apr 2019 11:44:02 +0300</pubDate>
<author>Иван Балдин</author>
<comments>https://mathandcoffee.ru/all/t-kriteriy-styudenta/</comments>
<description>
&lt;p&gt;Если однажды перед вами оказывались два набора похожих данных, вам, вероятно, приходило в голову задаться вопросом: насколько эти данные различаются между собой? Или, что еще более важно, наблюдаются ли &lt;i&gt;статистически значимые&lt;/i&gt; различия между этими выборками?&lt;/p&gt;
&lt;p&gt;Поясню, о чем идет речь.&lt;/p&gt;
&lt;p&gt;Допустим, вы проанализировали звонки за прошедший год и обратили внимание, что &lt;b&gt;среднее время звонка в первой половине дня — 2 мин 45 сек, а во второй половине дня — 2 мин 57 сек.&lt;/b&gt; Следует ли из этого, что звонки после обеда в среднем длятся дольше? Или это простое совпадение, и, возьми вы звонки за год до этого, вы бы увидели другую картину?&lt;/p&gt;
&lt;p&gt;Или, например, вы замеряли уровень гемоглобина у контрольной группы до начала исследований нового лекарства, и после. Предположим, &lt;b&gt;средний уровень вырос с 142,5 г/л до 147,1 г/л.&lt;/b&gt; Достаточно ли опираться на увеличение среднего, чтобы сделать заключение об эффективности лекарства? Или, возможно, исследование нужно повторить? Увеличив размер контрольной группы, например?&lt;/p&gt;
&lt;p&gt;Уже из постановки вопроса очевидно, что &lt;b&gt;одной разницы между средними в двух выборках недостаточно, чтобы научно подтвердить их различие.&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;Вот почему мы обратимся к &lt;b&gt;формуле расчета&lt;/b&gt; и &lt;b&gt;таблице значений t-критериев Стьюдента,&lt;/b&gt; чтобы научиться делать &lt;i&gt;математически корректные&lt;/i&gt; выводы о &lt;i&gt;статистически значимых&lt;/i&gt; различиях между двумя выборками. Или, другими словами, научиться видеть разницу, когда она не заметна, или игнорировать ее, даже если кажется, что она есть.&lt;/p&gt;
&lt;p&gt;Рассмотрим вопрос на примере.&lt;/p&gt;
&lt;h2&gt;Анализ длительности звонков Асланян и Евтушенко&lt;/h2&gt;
&lt;p&gt;В вашем отделе продаж работают 2 менеджера — Ольга Асланян и Кирилл Евтушенко. Вы получили данные по длительности их разговоров с покупателями и хотите проверить гипотезу, что разговоры Асланян в среднем длятся дольше разговоров Евтушенко.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/student01.PNG" width="694" height="474" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Посчитаем среднюю длительность звонка, стандартное отклонение и число звонков, которые попали в выборке.&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=СРЗНАЧ(B2:B999)&lt;/code&gt;&lt;/pre&gt;&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=СТАНДОТКЛОН(B2:B999)&lt;/code&gt;&lt;/pre&gt;&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=СЧЁТ(B2:B999)&lt;/code&gt;&lt;/pre&gt;&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/student02.PNG" width="696" height="403" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;В среднем, звонки Асланян длятся на 34,5 сек дольше звонков Евтушенко. (Кроме того, разброс длительности ее звонков больше, т. к. больше стандартное отклонение. Грубо говоря, короткие и длинные звонки у Асланян найти проще, чем у Евтушенко).&lt;/p&gt;
&lt;p&gt;Достаточно ли полученных данных, чтобы сделать вывод о правильности гипотезы, что Асланян в среднем дольше общается с клиентами, чем Евтушенко? На самом деле, нет. Всегда существует вероятность, что в выборку Асланян случайно попали более длинные звонки, а в выборку Евтушенко — более короткие. Чем больше звонков доступно для анализа (а нам достались 242 и 209 звонков, что не так уж и мало), тем более надежен результат, но он никогда не надежен на 100%.&lt;/p&gt;
&lt;p&gt;Впрочем, надежность 100% нам и не нужна. Не ракету к Марсу запускаем. Даже если нам удастся проверить нашу гипотезу с вероятностью 90-95%, этого будет вполне достаточно для большинства случаев. Пускай мы оставим себе шанс ошибиться в 5-10% случаев, зато нам не нужно будет ждать несколько лет, чтобы накопить достаточно данных для анализа, и управленческие решения (разбор звонков с менеджером, анализ продаж, корректировки скриптов) мы сможем принять уже сейчас.&lt;/p&gt;
&lt;p&gt;Рассмотрим два способа, как нам проверить, случайность ли, что звонки Асланян в среднем длиннее звонков Евтушенко.&lt;/p&gt;
&lt;h2&gt;Проверка гипотезы о равенстве среднего. Простой способ&lt;/h2&gt;
&lt;p&gt;И в Google Таблицах, и в Microsoft Excel, есть &lt;b&gt;функция ТТЕСТ.&lt;/b&gt; Воспользуемся ей для анализа наших выборок.&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=ТТЕСТ(B2:B999;C2:C999;2;3)&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;У функции 4 атрибута, идущие через точку с запятой.&lt;/p&gt;
&lt;ol start="1"&gt;
&lt;li&gt;Диапазон ячеек, содержащих первую выборку.&lt;/li&gt;
&lt;li&gt;Диапазон ячеек, содержащих вторую выборку.&lt;/li&gt;
&lt;li&gt;Количество хвостов распределения. Выбираем «2», чтобы проверить наличие различий вообще, и «1», чтобы проверить, звонки Асланян длиннее, а не наоборот.&lt;/li&gt;
&lt;li&gt;Тип применения t-критерия. По умолчанию выбираем «3». («2» выбираем если стандартные отклонения очень близки, «1» — если, например, вы сравниваете средний балл &lt;i&gt;одних и тех же учеников&lt;/i&gt; на начало и конец года попарно.)&lt;/li&gt;
&lt;/ol&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/student03.PNG" width="694" height="429" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Итак, Т-тест дал вероятность 0,04595, или, округленно, 4,6%.&lt;/p&gt;
&lt;p&gt;Что же это за вероятность? В нашем примере это вероятность того, &lt;b&gt;что статистически значимые различия между звонками Асланян и Евтушенко отсутствуют.&lt;/b&gt; Технически, это вероятность, что наша «нулевая гипотеза» («нет разницы между выборками») была верна, а «альтернативная» («Асланян общается с покупателями дольше Евтушенко») — неверна.&lt;/p&gt;
&lt;p&gt;Оставшиеся 95,4% составляют вероятность того, что между выборками есть статистические различия, и «альтернативная гипотеза» о различиях между выборками верна.&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Вывод: с вероятностью 95,4% Асланян, действительно, в среднем общается с клиентами дольше Евтушенко. (С вероятностью 4,6% статистически значих различий между их звонками нет).&lt;/b&gt;&lt;/p&gt;
&lt;h2&gt;Проверка гипотезы о равенстве среднего. Сложный способ&lt;/h2&gt;
&lt;p&gt;Сложный способ будет состоит из двух этапов: расчет t-критерия Стьюдента и сравнение полученного значения t-критерия с контрольным.&lt;/p&gt;
&lt;p&gt;На первом этапе рассчитаем t-критерий Стьюдента по следующей формуле:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/kriteriy_styudenta.jpg" width="247" height="157" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;X&lt;sub&gt;1&lt;/sub&gt; и X&lt;sub&gt;2&lt;/sub&gt; — средняя длина звонков в первой и второй выборке (238,6 сек и 204,1 сек)&lt;br /&gt;
s&lt;sub&gt;1&lt;/sub&gt; и s&lt;sub&gt;2&lt;/sub&gt; — стандартные отклонения первой и второй выборок в квадрате (их дисперсии, другими словами) (201,2&lt;sup&gt;2&lt;/sup&gt; и 164,7&lt;sup&gt;2&lt;/sup&gt; для наших выборок)&lt;br /&gt;
n&lt;sub&gt;1&lt;/sub&gt; и n&lt;sub&gt;2&lt;/sub&gt; — число звонков в первой и второй выборках (242 и 209 звонков)&lt;/p&gt;
&lt;p&gt;Воспользуемся листочком бумаги и калькулятором, или же посчитаем все прямо в Google Таблицах:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/student04.PNG" width="751" height="372" alt="" /&gt;
&lt;/div&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=(F2-G2)/КОРЕНЬ(F3^2/F4+G3^2/G4)&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;t-Критерий равен 2,0014.&lt;/p&gt;
&lt;p&gt;Осталось разобраться, что делать с вычисленным значением нашего t-критерия.&lt;/p&gt;
&lt;p&gt;Но перед этим посчитаем число степеней свободы по формуле n&lt;sub&gt;1&lt;/sub&gt;+n&lt;sub&gt;2&lt;/sub&gt;-2:&lt;/p&gt;
&lt;p&gt;242 + 209 — 2 = 449 степеней свободы&lt;/p&gt;
&lt;p&gt;Воспользуемся теперь &lt;a href="https://ru.wikipedia.org/wiki/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D0%B8_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0"&gt;таблицей коэффициентов Стьюдента&lt;/a&gt; из Википедии, найдя строку, соответствующую нашим 449 степеням свободы.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/student05.PNG" width="1302" height="88" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;В нашем случае, строки именно для числа 449 нет, зато несложно заметить, что значения для 100 и 1000 — ближайших подходящих строк — отличаются на сотые доли, поэтому для большого числа степеней свободны подойдет любая строка.&lt;/p&gt;
&lt;p&gt;Наше значение 2,0014 находится между 1,9623 и 2,3301: 1,9623 &lt; 2,0014 &lt; 2,3301&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/student05.PNG" width="1302" height="88" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;В шапке таблицы это соответствует 95%-му и 98%-му квантилю распределения Стьюдента, т. е. мы захватили 95%-й квантиль, но не захватили 98%-й:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/student06.PNG" width="1303" height="90" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;&lt;b&gt;Если расчетное значение t-критерия Стьюдента больше контрольного, значит, «альтернативная гипотеза» верна с соответствующей вероятностью (95%), и выборки статистически различаются.&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;Если бы мы получили значение t-критерия больше, чем 2,3301 (98%), мы бы могли говорить по правильности «альтернативной гипотезы» уже с 98%-й вероятностью. Аналогично, если бы мы получили значение t-критерия меньше, чем 1,9623 (95%), но больше 1,6464 (90%), мы бы говорили о правильности гипотезы на 90%.&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Вывод: расчетное значение t-критерия Стьюдента 2,0014 соответствует, по меньшей мере, 95% уверенности в том, что между выборками есть статистически значимые различия, и звонки Асланян, действительно, в среднем длиннее звонков Евтушенко.&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;Наша «альтернативная гипотеза» получила 95%-ое подтверждение, мы можем быть уверены в результате и принимать решение о дальнейшей работе с полученный информацией.&lt;/p&gt;
&lt;h2&gt;Полезные ссылки&lt;/h2&gt;
&lt;p&gt;&lt;a href="http://www.evanmiller.org/ab-testing/t-test.html"&gt;http://www.evanmiller.org/ab-testing/t-test.html&lt;/a&gt;&lt;/p&gt;
</description>
</item>


</channel>
</rss>