{
    "version": "https:\/\/jsonfeed.org\/version\/1",
    "title": "Математика и кофе: заметки с тегом аналитика",
    "_rss_description": "Отделы продаж, коллцентры, аналитика, цифры и данные, воронки продаж, матстатистика..",
    "_rss_language": "ru",
    "_itunes_email": "",
    "_itunes_categories_xml": "",
    "_itunes_image": "",
    "_itunes_explicit": "",
    "home_page_url": "https:\/\/mathandcoffee.ru\/tags\/analitika\/",
    "feed_url": "https:\/\/mathandcoffee.ru\/tags\/analitika\/json\/",
    "icon": "https:\/\/mathandcoffee.ru\/user\/userpic@2x.jpg?1559386410",
    "author": {
        "name": "Иван Балдин",
        "url": "https:\/\/mathandcoffee.ru\/",
        "avatar": "https:\/\/mathandcoffee.ru\/user\/userpic@2x.jpg?1559386410"
    },
    "items": [
        {
            "id": "45",
            "url": "https:\/\/mathandcoffee.ru\/all\/grafik-konversii-s-doveritelnym-intervalom\/",
            "title": "График конверсии с доверительным интервалом",
            "content_html": "<p>Некоторое время с удовольствием использую более свежую визуализацию конверсии, добавляя к своим диаграммам <b>границы доверительного интервала.<\/b><\/p>\n<h2>Конверсия офисов продаж<\/h2>\n<p>Итак, например, мы оцениваем эффективность работы территориальных офисов продаж. Под <b><i>эффективностью<\/i><\/b> понимаем отношение числа совершенных продаж к числу заявок (конверсию заявок в продажи, или просто <b><i>«конверсию»).<\/i><\/b> То есть, если в офисе «Сокольники» за квартал было 19 продаж на 33 заявки, их эффективность будем считать равной 19\/33 = 57,6%.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/candles-sd-00.png\" width=\"642\" height=\"382\" alt=\"\" \/>\n<\/div>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/candles-sd-01.png\" width=\"455\" height=\"454\" alt=\"\" \/>\n<\/div>\n<p>Очевидно, что одни офисы работают эффективнее других: конверсия по офисам меняется от 57,6% до 17,6%. Заметно также, что и число заявок в офисах различно: от 33 заявок в «Сокольниках» до 706 заявок в «Лианозово».<\/p>\n<p>Обычно на этом этапе многие останавливаются, но есть несложный способ воспользоваться понятием «доверительного интервала» или «стандартного отклонения (SD)», чтобы показать то, что, на первый взгляд, не так заметно.<\/p>\n<h2>Оцениваем размер выборки и величину SD<\/h2>\n<p>Как нетрудно заметить, из-за неравного числа заявок по разным офисам («Сокольники» отличаются в этом смысле от «Лианозово» почти в 22 раза), уверенность в надежности рассчитанной конверсии будет не одинакова. Так, для «Лианозово» результат в 36,1% достигнут на выборке из 706 заявок и может считаться вполне надежным; в «Сокольниках» мы получили результат 57,6% на небольшой выборке в 33 заявки, из-за чего нет уверенности, что, получи со временем последние свои 706 заявок, они бы удержали результат на том же уровне.<\/p>\n<p>Разумеется, необходимо прикинуть размер доверительного интервала для каждого офиса продаж, исходя из числа заявок, то есть, размера выборки.<\/p>\n<p>Уже знакомая нам формула стандартного отклонения (SD), или <i>&sigma;<\/i>:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn.png\" width=\"201\" height=\"77\" alt=\"\" \/>\n<\/div>\n<p>где <i>p<\/i> — величина конверсии, <i>n<\/i> — число заявок.<\/p>\n<p>Считаем в колонке E:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/candles-sd-02.png\" width=\"637\" height=\"380\" alt=\"\" \/>\n<\/div>\n<p>Полученная величина стандартного отклонения (SD) показывает погрешность при расчете конверсии, и, очевидно, оказалась выше там, где была меньше выборка. Чем меньше данных, тем менее надежен рассчитанный результат, и тем меньше мы уверены в нашей оценке эффективности соответствующего офиса продаж.<\/p>\n<h2>Считаем границы 90%-го доверительного интервала<\/h2>\n<p>Дополним нашу таблицу рассчитанными нижней и верхней границей 90%-го доверительного интервала. Другими словами, оценим разброс конверсий по каждому из офисов продаж, так, что с вероятностью 90% мы будем уверены, что <i>истинная<\/i> конверсия лежит в пределах этого диапазона.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/candles-sd-03.png\" width=\"653\" height=\"381\" alt=\"\" \/>\n<\/div>\n<p>Зная о том, что границы 90%-го доверительного интервала лежат в пределах &plusmn;1,645SD, вычитаем и прибавляем 1,645SD для нижней и верхней границ, соответственно. Для «Лианозово» получаем, что их <i>истинная<\/i> конверсия лежит в пределах от 33,1% до 39,1%. (По-прежнему, в 1 случае из 10 она выходит за границы нашего интервала, но зато в 9 случаях из 10 мы не ошиблись).<\/p>\n<h2>Дополняем график, рисуя «свечи»<\/h2>\n<p>В Excel 2013 воспользуемся <b>«биржевой диаграммой»,<\/b> указав вместо <b><i>самого высокого<\/i><\/b> и <b><i>самого низкого курсов<\/i><\/b> верхнюю и нижнюю границу наших доверительных интервалов, а вместо <b><i>курса закрытия<\/i><\/b> — рассчитанную вначале конверсию:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/candles-sd-04.png\" width=\"634\" height=\"600\" alt=\"\" \/>\n<\/div>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/candles-sd-05.png\" width=\"454\" height=\"454\" alt=\"\" \/>\n<\/div>\n<p>Доработанная подобным образом диаграмма не меняет выводов, полученных в самом начале. Однако, для наблюдательного руководителя она ненавязчиво напоминает, что полученные значения конверсий офисов продаж <b>не конечны,<\/b> и особенно «не конечны» там, где оказались шире границы разброса конверсии.<\/p>\n<p>«Сокольники», предварительно, обогнали «Беговой», однако, если хороший результат «Бегового» надежен за счет узкого интервала, то результат «Сокольников» очень приблизителен, поэтому уверенные выводы возможно делать лишь о части офисов продаж, для остальных — нужно больше данных, а до тех пор их позиции в рейтинге можно считать лишь предварительными, или, как было сказано выше, не конечными.<\/p>\n<h2>См. также:<\/h2>\n<p><a href=\"http:\/\/italylov.ru\/blog\/all\/ctatisticheskaya-dostovernost-koltrekinga\/\">http:\/\/italylov.ru\/blog\/all\/ctatisticheskaya-dostovernost-koltrekinga\/<\/a><\/p>\n",
            "date_published": "2021-05-25T01:13:50+03:00",
            "date_modified": "2021-05-25T01:17:18+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-00.png",
            "_date_published_rfc2822": "Tue, 25 May 2021 01:13:50 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "45",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-00.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-01.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-02.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-03.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-04.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-05.png"
                ]
            }
        },
        {
            "id": "30",
            "url": "https:\/\/mathandcoffee.ru\/all\/ischem-anomalii\/",
            "title": "Ищем «аномалии», включаем красные и зеленые «лампочки»",
            "content_html": "<p>Переписываясь на днях с коллегой в Телеграме, в очередной раз увидел примерно вот такой отчет (сейчас просто нарисовал похожий) — сверху недели, сбоку, допустим, территориальные офисы продаж (там были месяцы и продажи по типам продукта, но для целей этой заметки это совершенно не имеет значения):<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/anomalii00.PNG\" width=\"1163\" height=\"434\" alt=\"\" \/>\n<\/div>\n<p>Воспользовавшись «Условным форматированием» в Экселе, замечаем, что на 6-й неделе в офисе «Академический»  было 503 продажи. В общем, до этого момента ничего необычного, и так выжали 90% из данных, можно работать с отчетом и анализировать, что душе угодно.<\/p>\n<p>Однако, есть несложная доработка, позволяющая выжать из данных еще лишние 5%.<\/p>\n<h2>Что, собственно, ищем<\/h2>\n<p>На картинке особо не видно, но чем ниже по списку, тем меньше в среднем продаж в каждом следующем офисе. То есть, будем считать, что офисы продаж все очень разные, и некорректно сравнивать «Академический» с «Якиманкой» — нехитрым вычислением получается, что «Академический» в среднем делал 242 продажи в неделю, а «Якиманка» — всего 13. Предположим, что тому есть объективные причины, и никто и не требовал от всех офисов показывать одинаковые результаты.<\/p>\n<p>И тогда можно задать себе вопрос: достаточно ли просто анализировать абсолютные показатели по нашим офисам? И не будет ли правильнее копнуть вглубь, и <b>попробовать найти такие показатели, которые выбиваются из общей картины?<\/b> Такие недели, которые были <b><i>аномальными<\/i><\/b> для данного офиса продаж.<\/p>\n<p>Здесь и далее под <i>«аномалией»<\/i> я буду понимать такое значение продаж, которое <b>слишком отличается от среднего по данном офису.<\/b> Как в большую (и надо разобраться, как повторить этот результат) или в меньшую (проанализировать, как избежать неудачи в будущем) сторону.<\/p>\n<h2>Распределяем результаты офиса «Академический»<\/h2>\n<p>Изучив результаты продаж офиса «Академический» за прошедшие 43 недели, мы рассчитали, что в среднем они делают 241,5 продаж в неделю, при этом стандартное отклонение (SD) равно 86,3.<\/p>\n<p>Напомню формулы:<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=СРЗНАЧ(B2:AR2)<\/code><\/pre><pre class=\"e2-text-code\"><code class=\"\">=СТАНДОТКЛОН.В(B2:AR2)<\/code><\/pre><p>Можно, гипотетически, представить, что мы имеем возможность наблюдать за результатами офиса «Академический» 200 (sic!) лет, при условии, что все это время среднее и стандартное отклонение не меняются, т. е., грубо говоря, они работают, как работали. В этом случае, мы увидели бы распределение результатов продаж, близкое к <i>нормальному:<\/i><\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/anomalii01.PNG\" width=\"663\" height=\"379\" alt=\"\" \/>\n<\/div>\n<p>Давайте даже еще раз перерисуем картинку. 2 290 недель из 10 000 они бы делали от 200 до 249 продаж в неделю:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/anomalii02.PNG\" width=\"663\" height=\"379\" alt=\"\" \/>\n<\/div>\n<p>Понимаете, к чему я клоню?<\/p>\n<p>Если только допустить, что результаты продаж подчиняются законам <i>нормального распределения<\/i> (грубо говоря, равновероятно продать как чуть больше, так и чуть меньше среднего), существует некоторое разумное отклонение от среднего, в пределах которого было бы глупо всерьез говорить о «спаде продаж» или «невероятном успехе». Иными словами, бессмысленно считать «аномалией» то, что лежит в пределах разумного отклонения от среднего.<\/p>\n<p>Остается сформулировать критерии «разумности» и научить отчет сигнализировать об «аномалиях».<\/p>\n<h2>Вспоминаем теорию<\/h2>\n<p>Если вкратце, то, допустив на минутку, что мы имеем дело с <i>нормальным распределением,<\/i> вычислив <i>среднее значение<\/i> и <i>стандартное отклонение (SD),<\/i> мы можем уверенно говорить о том, <b>что 90% данных в отчете не будут выходить за границы &plusmn;1,645SD от среднего.<\/b><\/p>\n<p>Применительно к офису «Академический» речь идет о том, что для 90% времени результаты их продаж будут лежать в диапазоне от 100 до 383, или 241,5&plusmn;142,0.  Поэтому до тех пор, пока цифры не вышли за пределы этих границ, мы не наблюдаем ничего необычного.<\/p>\n<p>Сразу оговоримся: конечно, степень «необычности», или «аномалии», каждый определяет для себя сам. Для одних, подозрение могут вызывать показатели, выбивающиеся за рамки 80%-ной вероятности (&plusmn;1,28SD), для других — терпимым будет отклонение в &plusmn;1,96SD, что соответствует 95%-й вероятности. Тогда, первые будут бить искать причины «аномалии» в 20% случаев, вторые — в 5%. Каждую пятую неделю но отчете у коммерческого директора первые будут объяснять, что произошло, и почему, тогда как вторые будут делать это раз в 4-5 месяцев.<\/p>\n<p>Допущение о том, что продажи в территориальных офисах, число посетителей на сайте, количество рекламных звонков, клики по баннеру распределяются по закону нормального распределения, дало нам потрясающую возможность оценивать вероятность наступления «аномалии» — слишком сильного отклонения от среднего значения. Обратно, оно учит нас не бить тревогу там, где отклонение, хотя и есть, не является достаточно сильным, и делает, отчасти, бессмысленным анализ и разбор ситуаций, когда показатель отклоняется в пределах разумного.<\/p>\n<h2>Перекрашиваем отчет, включаем зеленые и красные «лампочки»<\/h2>\n<p>Теперь мы хотим переделать отчет о продажах в территориальных офисах таким образом, чтобы напротив подозрительно больших или подозрительно маленьких значений загорались бы зеленые и красные «лампочки».<\/p>\n<p>Нам необходимо научить отчет «включать» наши «лампочки», если значение в ячейке становится больше или меньше границ 90%-го диапазона, т. е. в примерно 90% случаев ни одна из «лампочек» «загораться» не будет, в примерно 5% случаев будет «загораться» красная «лампочка», и еще в примерно 5% — зеленая.<\/p>\n<p>Применительно к «Академическому», мы хотим выделять красным значения, меньшие чем 241,5-1,645*86,3, т. е., меньшие, чем 100, и мы ходим выделять зеленым значения, большие, чем 241,5+1,645*86,3, т. е., большие, чем 383.<\/p>\n<p>Нам остается рассчитать границы включения «лампочек» по каждому из офисов продаж, рассчитав последовательно: среднее значение продаж, стандартное отклонение (SD), нижнюю границу 90%-го диапазона, верхнюю границу 90%-го диапазона.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/anomalii03.PNG\" width=\"542\" height=\"308\" alt=\"\" \/>\n<\/div>\n<p>Используемые формулы:<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=СРЗНАЧ(B2:AR2)<\/code><\/pre><pre class=\"e2-text-code\"><code class=\"\">=СТАНДОТКЛОН.В(B2:AR2)<\/code><\/pre><pre class=\"e2-text-code\"><code class=\"\">=B2-1,645*C2<\/code><\/pre><pre class=\"e2-text-code\"><code class=\"\">=B2+1,645*C2<\/code><\/pre><p>У нас получилась следующая таблица, содержащая расчеты по нижним и верхним границам того, что мы далее будем считать «аномалией»:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/anomalii04.PNG\" width=\"471\" height=\"439\" alt=\"\" \/>\n<\/div>\n<p>Теперь, используя инструмент «Условное форматирование» — «Правило выделения ячеек» — «Меньше...»\/«Больше...», последовательно для каждого из 17-ти офисов продаж настраиваем правила подсветки ячеек красным и зеленым, в зависимости от того, будет ли значение ниже нижней границы 90%-го диапазона, или выше верхней границы:<\/p>\n<div class=\"e2-text-picture\">\n<div class=\"fotorama\" data-width=\"614\" data-ratio=\"1.9068322981366\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/anomalii05.PNG\" width=\"614\" height=\"322\" alt=\"\" \/>\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/anomalii06.PNG\" width=\"600\" height=\"315\" alt=\"\" \/>\n<\/div>\n<\/div>\n<p>Дополнительно выставляем светло-серый цвет текста, чтобы подсвеченные «аномалии» были еще более заметны. Добавляем градиент от белого к светло-серому, чтобы сохранить первоначальную идею выделять большие значения более темной заливкой. Законченная таблица приобретает следующий вид:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/anomalii07.PNG\" width=\"1162\" height=\"438\" alt=\"\" \/>\n<\/div>\n<h2>Выводы<\/h2>\n<p>Используя идею о разбросе значений вокруг среднего в нормальном распределении, нам удалось доработать наш отчет о территориальных офисах таким образом, что мы не просто видим результаты, но и теперь отдельно включаем красные и зеленые «лампочки» для тех результатов, которые представляют интерес, как «аномалии» — маловероятно маленькие или маловероятно большие значения, определив уровень «аномалии» как все, что выходит за пределы 90% вероятности.<\/p>\n",
            "date_published": "2019-09-12T15:27:33+03:00",
            "date_modified": "2019-09-12T17:41:05+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/anomalii00.PNG",
            "_date_published_rfc2822": "Thu, 12 Sep 2019 15:27:33 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "30",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/jquery\/jquery.js",
                    "system\/library\/fotorama\/fotorama.css",
                    "system\/library\/fotorama\/fotorama.js"
                ],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/anomalii00.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/anomalii01.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/anomalii02.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/anomalii03.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/anomalii04.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/anomalii05.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/anomalii06.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/anomalii07.PNG"
                ]
            }
        },
        {
            "id": "5",
            "url": "https:\/\/mathandcoffee.ru\/all\/t-kriteriy-styudenta\/",
            "title": "t-Критерий Стьюдента",
            "content_html": "<p>Если однажды перед вами оказывались два набора похожих данных, вам, вероятно, приходило в голову задаться вопросом: насколько эти данные различаются между собой? Или, что еще более важно, наблюдаются ли <i>статистически значимые<\/i> различия между этими выборками?<\/p>\n<p>Поясню, о чем идет речь.<\/p>\n<p>Допустим, вы проанализировали звонки за прошедший год и обратили внимание, что <b>среднее время звонка в первой половине дня — 2 мин 45 сек, а во второй половине дня — 2 мин 57 сек.<\/b> Следует ли из этого, что звонки после обеда в среднем длятся дольше? Или это простое совпадение, и, возьми вы звонки за год до этого, вы бы увидели другую картину?<\/p>\n<p>Или, например, вы замеряли уровень гемоглобина у контрольной группы до начала исследований нового лекарства, и после. Предположим, <b>средний уровень вырос с 142,5 г\/л до 147,1 г\/л.<\/b> Достаточно ли опираться на увеличение среднего, чтобы сделать заключение об эффективности лекарства? Или, возможно, исследование нужно повторить? Увеличив размер контрольной группы, например?<\/p>\n<p>Уже из постановки вопроса очевидно, что <b>одной разницы между средними в двух выборках недостаточно, чтобы научно подтвердить их различие.<\/b><\/p>\n<p>Вот почему мы обратимся к <b>формуле расчета<\/b> и <b>таблице значений t-критериев Стьюдента,<\/b> чтобы научиться делать <i>математически корректные<\/i> выводы о <i>статистически значимых<\/i> различиях между двумя выборками. Или, другими словами, научиться видеть разницу, когда она не заметна, или игнорировать ее, даже если кажется, что она есть.<\/p>\n<p>Рассмотрим вопрос на примере.<\/p>\n<h2>Анализ длительности звонков Асланян и Евтушенко<\/h2>\n<p>В вашем отделе продаж работают 2 менеджера — Ольга Асланян и Кирилл Евтушенко. Вы получили данные по длительности их разговоров с покупателями и хотите проверить гипотезу, что разговоры Асланян в среднем длятся дольше разговоров Евтушенко.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/student01.PNG\" width=\"694\" height=\"474\" alt=\"\" \/>\n<\/div>\n<p>Посчитаем среднюю длительность звонка, стандартное отклонение и число звонков, которые попали в выборке.<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=СРЗНАЧ(B2:B999)<\/code><\/pre><pre class=\"e2-text-code\"><code class=\"\">=СТАНДОТКЛОН(B2:B999)<\/code><\/pre><pre class=\"e2-text-code\"><code class=\"\">=СЧЁТ(B2:B999)<\/code><\/pre><div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/student02.PNG\" width=\"696\" height=\"403\" alt=\"\" \/>\n<\/div>\n<p>В среднем, звонки Асланян длятся на 34,5 сек дольше звонков Евтушенко. (Кроме того, разброс длительности ее звонков больше, т. к. больше стандартное отклонение. Грубо говоря, короткие и длинные звонки у Асланян найти проще, чем у Евтушенко).<\/p>\n<p>Достаточно ли полученных данных, чтобы сделать вывод о правильности гипотезы, что Асланян в среднем дольше общается с клиентами, чем Евтушенко? На самом деле, нет. Всегда существует вероятность, что в выборку Асланян случайно попали более длинные звонки, а в выборку Евтушенко — более короткие. Чем больше звонков доступно для анализа (а нам достались 242 и 209 звонков, что не так уж и мало), тем более надежен результат, но он никогда не надежен на 100%.<\/p>\n<p>Впрочем, надежность 100% нам и не нужна. Не ракету к Марсу запускаем. Даже если нам удастся проверить нашу гипотезу с вероятностью 90-95%, этого будет вполне достаточно для большинства случаев. Пускай мы оставим себе шанс ошибиться в 5-10% случаев, зато нам не нужно будет ждать несколько лет, чтобы накопить достаточно данных для анализа, и управленческие решения (разбор звонков с менеджером, анализ продаж, корректировки скриптов) мы сможем принять уже сейчас.<\/p>\n<p>Рассмотрим два способа, как нам проверить, случайность ли, что звонки Асланян в среднем длиннее звонков Евтушенко.<\/p>\n<h2>Проверка гипотезы о равенстве среднего. Простой способ<\/h2>\n<p>И в Google Таблицах, и в Microsoft Excel, есть <b>функция ТТЕСТ.<\/b> Воспользуемся ей для анализа наших выборок.<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=ТТЕСТ(B2:B999;C2:C999;2;3)<\/code><\/pre><p>У функции 4 атрибута, идущие через точку с запятой.<\/p>\n<ol start=\"1\">\n<li>Диапазон ячеек, содержащих первую выборку.<\/li>\n<li>Диапазон ячеек, содержащих вторую выборку.<\/li>\n<li>Количество хвостов распределения. Выбираем «2», чтобы проверить наличие различий вообще, и «1», чтобы проверить, звонки Асланян длиннее, а не наоборот.<\/li>\n<li>Тип применения t-критерия. По умолчанию выбираем «3». («2» выбираем если стандартные отклонения очень близки, «1» — если, например, вы сравниваете средний балл <i>одних и тех же учеников<\/i> на начало и конец года попарно.)<\/li>\n<\/ol>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/student03.PNG\" width=\"694\" height=\"429\" alt=\"\" \/>\n<\/div>\n<p>Итак, Т-тест дал вероятность 0,04595, или, округленно, 4,6%.<\/p>\n<p>Что же это за вероятность? В нашем примере это вероятность того, <b>что статистически значимые различия между звонками Асланян и Евтушенко отсутствуют.<\/b> Технически, это вероятность, что наша «нулевая гипотеза» («нет разницы между выборками») была верна, а «альтернативная» («Асланян общается с покупателями дольше Евтушенко») — неверна.<\/p>\n<p>Оставшиеся 95,4% составляют вероятность того, что между выборками есть статистические различия, и «альтернативная гипотеза» о различиях между выборками верна.<\/p>\n<p><b>Вывод: с вероятностью 95,4% Асланян, действительно, в среднем общается с клиентами дольше Евтушенко. (С вероятностью 4,6% статистически значих различий между их звонками нет).<\/b><\/p>\n<h2>Проверка гипотезы о равенстве среднего. Сложный способ<\/h2>\n<p>Сложный способ будет состоит из двух этапов: расчет t-критерия Стьюдента и сравнение полученного значения t-критерия с контрольным.<\/p>\n<p>На первом этапе рассчитаем t-критерий Стьюдента по следующей формуле:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/kriteriy_styudenta.jpg\" width=\"247\" height=\"157\" alt=\"\" \/>\n<\/div>\n<p>X<sub>1<\/sub> и X<sub>2<\/sub> — средняя длина звонков в первой и второй выборке (238,6 сек и 204,1 сек)<br \/>\ns<sub>1<\/sub> и s<sub>2<\/sub> — стандартные отклонения первой и второй выборок в квадрате (их дисперсии, другими словами) (201,2<sup>2<\/sup> и 164,7<sup>2<\/sup> для наших выборок)<br \/>\nn<sub>1<\/sub> и n<sub>2<\/sub> — число звонков в первой и второй выборках (242 и 209 звонков)<\/p>\n<p>Воспользуемся листочком бумаги и калькулятором, или же посчитаем все прямо в Google Таблицах:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/student04.PNG\" width=\"751\" height=\"372\" alt=\"\" \/>\n<\/div>\n<pre class=\"e2-text-code\"><code class=\"\">=(F2-G2)\/КОРЕНЬ(F3^2\/F4+G3^2\/G4)<\/code><\/pre><p>t-Критерий равен 2,0014.<\/p>\n<p>Осталось разобраться, что делать с вычисленным значением нашего t-критерия.<\/p>\n<p>Но перед этим посчитаем число степеней свободы по формуле n<sub>1<\/sub>+n<sub>2<\/sub>-2:<\/p>\n<p>242 + 209 — 2 = 449 степеней свободы<\/p>\n<p>Воспользуемся теперь <a href=\"https:\/\/ru.wikipedia.org\/wiki\/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D0%B8_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0\">таблицей коэффициентов Стьюдента<\/a> из Википедии, найдя строку, соответствующую нашим 449 степеням свободы.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/student05.PNG\" width=\"1302\" height=\"88\" alt=\"\" \/>\n<\/div>\n<p>В нашем случае, строки именно для числа 449 нет, зато несложно заметить, что значения для 100 и 1000 — ближайших подходящих строк — отличаются на сотые доли, поэтому для большого числа степеней свободны подойдет любая строка.<\/p>\n<p>Наше значение 2,0014 находится между 1,9623 и 2,3301: 1,9623 < 2,0014 < 2,3301<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/student05.PNG\" width=\"1302\" height=\"88\" alt=\"\" \/>\n<\/div>\n<p>В шапке таблицы это соответствует 95%-му и 98%-му квантилю распределения Стьюдента, т. е. мы захватили 95%-й квантиль, но не захватили 98%-й:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/student06.PNG\" width=\"1303\" height=\"90\" alt=\"\" \/>\n<\/div>\n<p><b>Если расчетное значение t-критерия Стьюдента больше контрольного, значит, «альтернативная гипотеза» верна с соответствующей вероятностью (95%), и выборки статистически различаются.<\/b><\/p>\n<p>Если бы мы получили значение t-критерия больше, чем 2,3301 (98%), мы бы могли говорить по правильности «альтернативной гипотезы» уже с 98%-й вероятностью. Аналогично, если бы мы получили значение t-критерия меньше, чем 1,9623 (95%), но больше 1,6464 (90%), мы бы говорили о правильности гипотезы на 90%.<\/p>\n<p><b>Вывод: расчетное значение t-критерия Стьюдента 2,0014 соответствует, по меньшей мере, 95% уверенности в том, что между выборками есть статистически значимые различия, и звонки Асланян, действительно, в среднем длиннее звонков Евтушенко.<\/b><\/p>\n<p>Наша «альтернативная гипотеза» получила 95%-ое подтверждение, мы можем быть уверены в результате и принимать решение о дальнейшей работе с полученный информацией.<\/p>\n<h2>Полезные ссылки<\/h2>\n<p><a href=\"http:\/\/www.evanmiller.org\/ab-testing\/t-test.html\">http:\/\/www.evanmiller.org\/ab-testing\/t-test.html<\/a><\/p>\n",
            "date_published": "2019-04-15T11:44:02+03:00",
            "date_modified": "2019-06-15T13:52:59+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/student01.PNG",
            "_date_published_rfc2822": "Mon, 15 Apr 2019 11:44:02 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "5",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css"
                ],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/student01.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/student02.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/student03.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/kriteriy_styudenta.jpg",
                    "https:\/\/mathandcoffee.ru\/pictures\/student04.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/student05.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/student06.PNG"
                ]
            }
        }
    ],
    "_e2_version": 3565,
    "_e2_ua_string": "E2 (v3565; Aegea)"
}