<?xml version="1.0" encoding="utf-8"?> 
<rss version="2.0"
  xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
  xmlns:atom="http://www.w3.org/2005/Atom">

<channel>

<title>Математика и кофе: заметки с тегом диаграммы и графики</title>
<link>https://mathandcoffee.ru/tags/diagrammy-i-grafiki/</link>
<description>Отделы продаж, коллцентры, аналитика, цифры и данные, воронки продаж, матстатистика..</description>
<author>Иван Балдин</author>
<language>ru</language>
<generator>E2 (v3565; Aegea)</generator>

<itunes:owner>
<itunes:name>Иван Балдин</itunes:name>
<itunes:email></itunes:email>
</itunes:owner>
<itunes:subtitle>Отделы продаж, коллцентры, аналитика, цифры и данные, воронки продаж, матстатистика..</itunes:subtitle>
<itunes:image href="" />
<itunes:explicit></itunes:explicit>

<item>
<title>График конверсии с доверительным интервалом</title>
<guid isPermaLink="false">45</guid>
<link>https://mathandcoffee.ru/all/grafik-konversii-s-doveritelnym-intervalom/</link>
<pubDate>Tue, 25 May 2021 01:13:50 +0300</pubDate>
<author>Иван Балдин</author>
<comments>https://mathandcoffee.ru/all/grafik-konversii-s-doveritelnym-intervalom/</comments>
<description>
&lt;p&gt;Некоторое время с удовольствием использую более свежую визуализацию конверсии, добавляя к своим диаграммам &lt;b&gt;границы доверительного интервала.&lt;/b&gt;&lt;/p&gt;
&lt;h2&gt;Конверсия офисов продаж&lt;/h2&gt;
&lt;p&gt;Итак, например, мы оцениваем эффективность работы территориальных офисов продаж. Под &lt;b&gt;&lt;i&gt;эффективностью&lt;/i&gt;&lt;/b&gt; понимаем отношение числа совершенных продаж к числу заявок (конверсию заявок в продажи, или просто &lt;b&gt;&lt;i&gt;«конверсию»).&lt;/i&gt;&lt;/b&gt; То есть, если в офисе «Сокольники» за квартал было 19 продаж на 33 заявки, их эффективность будем считать равной 19/33 = 57,6%.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/candles-sd-00.png" width="642" height="382" alt="" /&gt;
&lt;/div&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/candles-sd-01.png" width="455" height="454" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Очевидно, что одни офисы работают эффективнее других: конверсия по офисам меняется от 57,6% до 17,6%. Заметно также, что и число заявок в офисах различно: от 33 заявок в «Сокольниках» до 706 заявок в «Лианозово».&lt;/p&gt;
&lt;p&gt;Обычно на этом этапе многие останавливаются, но есть несложный способ воспользоваться понятием «доверительного интервала» или «стандартного отклонения (SD)», чтобы показать то, что, на первый взгляд, не так заметно.&lt;/p&gt;
&lt;h2&gt;Оцениваем размер выборки и величину SD&lt;/h2&gt;
&lt;p&gt;Как нетрудно заметить, из-за неравного числа заявок по разным офисам («Сокольники» отличаются в этом смысле от «Лианозово» почти в 22 раза), уверенность в надежности рассчитанной конверсии будет не одинакова. Так, для «Лианозово» результат в 36,1% достигнут на выборке из 706 заявок и может считаться вполне надежным; в «Сокольниках» мы получили результат 57,6% на небольшой выборке в 33 заявки, из-за чего нет уверенности, что, получи со временем последние свои 706 заявок, они бы удержали результат на том же уровне.&lt;/p&gt;
&lt;p&gt;Разумеется, необходимо прикинуть размер доверительного интервала для каждого офиса продаж, исходя из числа заявок, то есть, размера выборки.&lt;/p&gt;
&lt;p&gt;Уже знакомая нам формула стандартного отклонения (SD), или &lt;i&gt;&amp;sigma;&lt;/i&gt;:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/CodeCogsEqn.png" width="201" height="77" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;где &lt;i&gt;p&lt;/i&gt; — величина конверсии, &lt;i&gt;n&lt;/i&gt; — число заявок.&lt;/p&gt;
&lt;p&gt;Считаем в колонке E:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/candles-sd-02.png" width="637" height="380" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Полученная величина стандартного отклонения (SD) показывает погрешность при расчете конверсии, и, очевидно, оказалась выше там, где была меньше выборка. Чем меньше данных, тем менее надежен рассчитанный результат, и тем меньше мы уверены в нашей оценке эффективности соответствующего офиса продаж.&lt;/p&gt;
&lt;h2&gt;Считаем границы 90%-го доверительного интервала&lt;/h2&gt;
&lt;p&gt;Дополним нашу таблицу рассчитанными нижней и верхней границей 90%-го доверительного интервала. Другими словами, оценим разброс конверсий по каждому из офисов продаж, так, что с вероятностью 90% мы будем уверены, что &lt;i&gt;истинная&lt;/i&gt; конверсия лежит в пределах этого диапазона.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/candles-sd-03.png" width="653" height="381" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Зная о том, что границы 90%-го доверительного интервала лежат в пределах &amp;plusmn;1,645SD, вычитаем и прибавляем 1,645SD для нижней и верхней границ, соответственно. Для «Лианозово» получаем, что их &lt;i&gt;истинная&lt;/i&gt; конверсия лежит в пределах от 33,1% до 39,1%. (По-прежнему, в 1 случае из 10 она выходит за границы нашего интервала, но зато в 9 случаях из 10 мы не ошиблись).&lt;/p&gt;
&lt;h2&gt;Дополняем график, рисуя «свечи»&lt;/h2&gt;
&lt;p&gt;В Excel 2013 воспользуемся &lt;b&gt;«биржевой диаграммой»,&lt;/b&gt; указав вместо &lt;b&gt;&lt;i&gt;самого высокого&lt;/i&gt;&lt;/b&gt; и &lt;b&gt;&lt;i&gt;самого низкого курсов&lt;/i&gt;&lt;/b&gt; верхнюю и нижнюю границу наших доверительных интервалов, а вместо &lt;b&gt;&lt;i&gt;курса закрытия&lt;/i&gt;&lt;/b&gt; — рассчитанную вначале конверсию:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/candles-sd-04.png" width="634" height="600" alt="" /&gt;
&lt;/div&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/candles-sd-05.png" width="454" height="454" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Доработанная подобным образом диаграмма не меняет выводов, полученных в самом начале. Однако, для наблюдательного руководителя она ненавязчиво напоминает, что полученные значения конверсий офисов продаж &lt;b&gt;не конечны,&lt;/b&gt; и особенно «не конечны» там, где оказались шире границы разброса конверсии.&lt;/p&gt;
&lt;p&gt;«Сокольники», предварительно, обогнали «Беговой», однако, если хороший результат «Бегового» надежен за счет узкого интервала, то результат «Сокольников» очень приблизителен, поэтому уверенные выводы возможно делать лишь о части офисов продаж, для остальных — нужно больше данных, а до тех пор их позиции в рейтинге можно считать лишь предварительными, или, как было сказано выше, не конечными.&lt;/p&gt;
&lt;h2&gt;См. также:&lt;/h2&gt;
&lt;p&gt;&lt;a href="http://italylov.ru/blog/all/ctatisticheskaya-dostovernost-koltrekinga/"&gt;http://italylov.ru/blog/all/ctatisticheskaya-dostovernost-koltrekinga/&lt;/a&gt;&lt;/p&gt;
</description>
</item>

<item>
<title>Скользящее среднее, или как сгладить график</title>
<guid isPermaLink="false">2</guid>
<link>https://mathandcoffee.ru/all/skolzyaschee-srednee-ili-kak-sgladit-grafik/</link>
<pubDate>Sun, 26 May 2019 11:23:27 +0300</pubDate>
<author>Иван Балдин</author>
<comments>https://mathandcoffee.ru/all/skolzyaschee-srednee-ili-kak-sgladit-grafik/</comments>
<description>
&lt;p&gt;Честно говоря, не знаю, как правильно называется эта штука, но пусть у нее будет рабочее название &lt;b&gt;«скользящее среднее».&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;Очень часто бывает так, что у нас есть &lt;b&gt;данные с разбивкой по дням.&lt;/b&gt; Например, заходы на сайт или звонки в отдел продаж. И, в попытке проанализировать &lt;b&gt;динамику&lt;/b&gt; происходящего, мы строим график, получая примерно следующее:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/mvng_avrg_03.png" width="985" height="750" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Что здесь не так?&lt;/p&gt;
&lt;p&gt;Достаточно очевидно, что, во-первых, график постоянно прыгает вверх-вниз, а, во-вторых, имеет некрасивые &lt;i&gt;экстремумы&lt;/i&gt; вроде 16 заявок в октябре или 122 заявок в августе. День на день не приходится, и данные слишком сильно колеблются вокруг среднего значения (кстати, среднее тут равно 63).&lt;/p&gt;
&lt;p&gt;А там, где что-то так некрасиво прыгает, часто можно что-то сгладить, используя понятие &lt;a href="https://www.google.ru/search?q=moving+average&amp;newwindow=1&amp;tbm=isch"&gt;&lt;b&gt;&lt;i&gt;скользящего среднего&lt;/i&gt;&lt;/b&gt;&lt;/a&gt;.&lt;/p&gt;
&lt;h2&gt;Скользящее среднее. Простой способ.&lt;/h2&gt;
&lt;p&gt;Попробуем «сгладить» наш прыгающий график путем расчета &lt;b&gt;&lt;i&gt;среднего числа заявок на дату,&lt;/i&gt;&lt;/b&gt; исходя из предыдущих 6 дней (7-й — текущий день, итого ровно неделя).&lt;/p&gt;
&lt;p&gt;Напротив 07.01.2018 напишем формулу&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=СРЗНАЧ(B2:B8)&lt;/code&gt;&lt;/pre&gt;&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/mvng_avrg_05.png" width="985" height="750" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Протянув формулу по всему году до самой последней строки, получим &lt;i&gt;среднее число заявок на каждую дату за предыдущую неделю&lt;/i&gt;. Как будто рамку, шириной в одну неделю, мы двигали по году вдоль с шагом в один день.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/mvng_avrg_06.png" width="985" height="750" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Визуально ничего не изменилось. Разве что, раньше были целые значения, а теперь, из-за усреднения, вылезли знаки после запятой — 79,9, 84,1. Обновим наш график:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/mvng_avrg_07.png" width="985" height="750" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;На месте прежнего, «прыгающего», графика, теперь более гладкая линия. Исчезли аномальные дни с 16 и 122 звонками в октябре и в августе, зато теперь, на «недельном» масштабе, стал заметнее провал на майские праздники.&lt;/p&gt;
&lt;h2&gt;Скользящее среднее. Сложный способ.&lt;/h2&gt;
&lt;p&gt;Некоторое время попрактиковавшись с вычислением скользящего среднего, вы обратите внимание, что, чем шире вы будете брать «окно» для расчета среднего на дату, тем сильнее будет сглаживаться ваш график. Теоретически, вы можете взять окно шириной в 365 дней... и получится практически ровная линия. А при окне шириной в 1 день — график не сглаживается вообще.&lt;/p&gt;
&lt;p&gt;В этот момент становится понятно, что «7 дней» из первого примера — это просто случайное число, а на самом деле, оно может быть абсолютно любым — все зависит лишь от ваших предпочтений и представлений о том, что вы хотите увидеть и проанализировать.&lt;/p&gt;
&lt;p&gt;Попробуем не задавать жестко ширину нашего «окна», а сделать его &lt;i&gt;параметром&lt;/i&gt; нашего графика. Пусть «окно» в 7 дней, используемое для сглаживания графика, будет зависеть от цифры «7», помещенной в ячейку C1. И пусть, если мы меняем «7» на «5» или «30», Эксель перестраивает наш график.&lt;/p&gt;
&lt;p&gt;Итак, настало время для красивой формулы в ячейке C8:&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=СРЗНАЧЕСЛИМН(B$2:B$365;A$2:A$365;&amp;quot;&amp;lt;=&amp;quot;&amp;amp;A8;A$2:A$365;&amp;quot;&amp;gt;=&amp;quot;&amp;amp;(A8-$C$1+1))&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Функция&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=СРЗНАЧЕСЛИМН()&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;берет и считает среднее значение для тех дат, для которых будут выполняться оба условия:&lt;/p&gt;
&lt;ol start="1"&gt;
&lt;li&gt;Дата, которая участвует в расчете среднего, должна быть больше или равна дате, отстоящей от даты, для которой мы рассчитываем среднее, назад на N-1 дней (где N — ширина нашего «окна»).&lt;/li&gt;
&lt;li&gt;Дата, которая участвует в расчете среднего, должна быть меньше или равна дате, для которой мы это среднее рассчитываем.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Проще говоря, для расчета среднего числа заявок на 18 апреля при N=7 дней, мы возьмем среднее от числа заявок с 12 по 18 апреля (больше или равно 12 апреля и меньше или равно 18 апреля). Для расчета среднего числа заявок на 19 апреля — среднее от числа заявок с 13 по 19 апреля, и так далее.&lt;/p&gt;
&lt;p&gt;Выделим ячейку C1 под наш параметр N, тогда формула для 07.01.2018 выглядит так:&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=СРЗНАЧЕСЛИМН(B$2:B$365;A$2:A$365;&amp;quot;&amp;lt;=&amp;quot;&amp;amp;A8;A$2:A$365;&amp;quot;&amp;gt;=&amp;quot;&amp;amp;(A8-$C$1+1))&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Итого, теперь мы имеем уже знакомый нам «сглаженный» 7-дневный график, но ширину «окна» задали не строго, а привязали ее к параметру, записанному в ячейке C1:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/mvng_avrg_08.png" width="985" height="750" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Меняя значение параметра в ячейке C1, получаем все более и более ровную линию. Вот, для сравнения, наложенные друг на друга графики при N=1, N=5, N=30:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/mvng_avrg_09.png" width="985" height="750" alt="" /&gt;
&lt;/div&gt;
</description>
</item>


</channel>
</rss>