{
    "version": "https:\/\/jsonfeed.org\/version\/1",
    "title": "Математика и кофе",
    "_rss_description": "Отделы продаж, коллцентры, аналитика, цифры и данные, воронки продаж, матстатистика..",
    "_rss_language": "ru",
    "_itunes_email": "",
    "_itunes_categories_xml": "",
    "_itunes_image": "",
    "_itunes_explicit": "",
    "home_page_url": "https:\/\/mathandcoffee.ru\/",
    "feed_url": "https:\/\/mathandcoffee.ru\/rss\/",
    "icon": "https:\/\/mathandcoffee.ru\/user\/userpic@2x.jpg?1559386410",
    "author": {
        "name": "Иван Балдин",
        "url": "https:\/\/mathandcoffee.ru\/",
        "avatar": "https:\/\/mathandcoffee.ru\/user\/userpic@2x.jpg?1559386410"
    },
    "items": [
        {
            "id": "45",
            "url": "https:\/\/mathandcoffee.ru\/all\/grafik-konversii-s-doveritelnym-intervalom\/",
            "title": "График конверсии с доверительным интервалом",
            "content_html": "<p>Некоторое время с удовольствием использую более свежую визуализацию конверсии, добавляя к своим диаграммам <b>границы доверительного интервала.<\/b><\/p>\n<h2>Конверсия офисов продаж<\/h2>\n<p>Итак, например, мы оцениваем эффективность работы территориальных офисов продаж. Под <b><i>эффективностью<\/i><\/b> понимаем отношение числа совершенных продаж к числу заявок (конверсию заявок в продажи, или просто <b><i>«конверсию»).<\/i><\/b> То есть, если в офисе «Сокольники» за квартал было 19 продаж на 33 заявки, их эффективность будем считать равной 19\/33 = 57,6%.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/candles-sd-00.png\" width=\"642\" height=\"382\" alt=\"\" \/>\n<\/div>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/candles-sd-01.png\" width=\"455\" height=\"454\" alt=\"\" \/>\n<\/div>\n<p>Очевидно, что одни офисы работают эффективнее других: конверсия по офисам меняется от 57,6% до 17,6%. Заметно также, что и число заявок в офисах различно: от 33 заявок в «Сокольниках» до 706 заявок в «Лианозово».<\/p>\n<p>Обычно на этом этапе многие останавливаются, но есть несложный способ воспользоваться понятием «доверительного интервала» или «стандартного отклонения (SD)», чтобы показать то, что, на первый взгляд, не так заметно.<\/p>\n<h2>Оцениваем размер выборки и величину SD<\/h2>\n<p>Как нетрудно заметить, из-за неравного числа заявок по разным офисам («Сокольники» отличаются в этом смысле от «Лианозово» почти в 22 раза), уверенность в надежности рассчитанной конверсии будет не одинакова. Так, для «Лианозово» результат в 36,1% достигнут на выборке из 706 заявок и может считаться вполне надежным; в «Сокольниках» мы получили результат 57,6% на небольшой выборке в 33 заявки, из-за чего нет уверенности, что, получи со временем последние свои 706 заявок, они бы удержали результат на том же уровне.<\/p>\n<p>Разумеется, необходимо прикинуть размер доверительного интервала для каждого офиса продаж, исходя из числа заявок, то есть, размера выборки.<\/p>\n<p>Уже знакомая нам формула стандартного отклонения (SD), или <i>&sigma;<\/i>:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn.png\" width=\"201\" height=\"77\" alt=\"\" \/>\n<\/div>\n<p>где <i>p<\/i> — величина конверсии, <i>n<\/i> — число заявок.<\/p>\n<p>Считаем в колонке E:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/candles-sd-02.png\" width=\"637\" height=\"380\" alt=\"\" \/>\n<\/div>\n<p>Полученная величина стандартного отклонения (SD) показывает погрешность при расчете конверсии, и, очевидно, оказалась выше там, где была меньше выборка. Чем меньше данных, тем менее надежен рассчитанный результат, и тем меньше мы уверены в нашей оценке эффективности соответствующего офиса продаж.<\/p>\n<h2>Считаем границы 90%-го доверительного интервала<\/h2>\n<p>Дополним нашу таблицу рассчитанными нижней и верхней границей 90%-го доверительного интервала. Другими словами, оценим разброс конверсий по каждому из офисов продаж, так, что с вероятностью 90% мы будем уверены, что <i>истинная<\/i> конверсия лежит в пределах этого диапазона.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/candles-sd-03.png\" width=\"653\" height=\"381\" alt=\"\" \/>\n<\/div>\n<p>Зная о том, что границы 90%-го доверительного интервала лежат в пределах &plusmn;1,645SD, вычитаем и прибавляем 1,645SD для нижней и верхней границ, соответственно. Для «Лианозово» получаем, что их <i>истинная<\/i> конверсия лежит в пределах от 33,1% до 39,1%. (По-прежнему, в 1 случае из 10 она выходит за границы нашего интервала, но зато в 9 случаях из 10 мы не ошиблись).<\/p>\n<h2>Дополняем график, рисуя «свечи»<\/h2>\n<p>В Excel 2013 воспользуемся <b>«биржевой диаграммой»,<\/b> указав вместо <b><i>самого высокого<\/i><\/b> и <b><i>самого низкого курсов<\/i><\/b> верхнюю и нижнюю границу наших доверительных интервалов, а вместо <b><i>курса закрытия<\/i><\/b> — рассчитанную вначале конверсию:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/candles-sd-04.png\" width=\"634\" height=\"600\" alt=\"\" \/>\n<\/div>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/candles-sd-05.png\" width=\"454\" height=\"454\" alt=\"\" \/>\n<\/div>\n<p>Доработанная подобным образом диаграмма не меняет выводов, полученных в самом начале. Однако, для наблюдательного руководителя она ненавязчиво напоминает, что полученные значения конверсий офисов продаж <b>не конечны,<\/b> и особенно «не конечны» там, где оказались шире границы разброса конверсии.<\/p>\n<p>«Сокольники», предварительно, обогнали «Беговой», однако, если хороший результат «Бегового» надежен за счет узкого интервала, то результат «Сокольников» очень приблизителен, поэтому уверенные выводы возможно делать лишь о части офисов продаж, для остальных — нужно больше данных, а до тех пор их позиции в рейтинге можно считать лишь предварительными, или, как было сказано выше, не конечными.<\/p>\n<h2>См. также:<\/h2>\n<p><a href=\"http:\/\/italylov.ru\/blog\/all\/ctatisticheskaya-dostovernost-koltrekinga\/\">http:\/\/italylov.ru\/blog\/all\/ctatisticheskaya-dostovernost-koltrekinga\/<\/a><\/p>\n",
            "date_published": "2021-05-25T01:13:50+03:00",
            "date_modified": "2021-05-25T01:17:18+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-00.png",
            "_date_published_rfc2822": "Tue, 25 May 2021 01:13:50 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "45",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-00.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-01.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-02.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-03.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-04.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-05.png"
                ]
            }
        },
        {
            "id": "41",
            "url": "https:\/\/mathandcoffee.ru\/all\/normalnoe-raspredelenie\/",
            "title": "Нормальное распределение",
            "content_html": "<h2>Нормальное распределение<\/h2>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/normal00.png\" width=\"958\" height=\"392\" alt=\"\" \/>\n<\/div>\n<div class=\"e2-text-table\">\n<table cellpadding=\"0\" cellspacing=\"0\" border=\"0\">\n<tr>\n<td><b>Количество SD<\/b><\/td>\n<td style=\"text-align: right\"><b>-3,000<\/b><\/td>\n<td style=\"text-align: right\"><b>-2,576<\/b><\/td>\n<td style=\"text-align: right\"><b>-2,000<\/b><\/td>\n<td style=\"text-align: right\"><b>-1,960<\/b><\/td>\n<td style=\"text-align: right\"><b>-1,645<\/b><\/td>\n<td style=\"text-align: right\"><b>-1,282<\/b><\/td>\n<td style=\"text-align: right\"><b>1,282<\/b><\/td>\n<td style=\"text-align: right\"><b>1,645<\/b><\/td>\n<td style=\"text-align: right\"><b>1,960<\/b><\/td>\n<td style=\"text-align: right\"><b>2,000<\/b><\/td>\n<td style=\"text-align: right\"><b>2,576<\/b><\/td>\n<td style=\"text-align: right\"><b>3,000<\/b><\/td>\n<\/tr>\n<tr>\n<td><b>Вероятность накопленным итогом<\/b><\/td>\n<td style=\"text-align: right\">0,0013<\/td>\n<td style=\"text-align: right\">0,0050<\/td>\n<td style=\"text-align: right\">0,0228<\/td>\n<td style=\"text-align: right\">0,0250<\/td>\n<td style=\"text-align: right\">0,0500<\/td>\n<td style=\"text-align: right\">0,1000<\/td>\n<td style=\"text-align: right\">0,9000<\/td>\n<td style=\"text-align: right\">0,9500<\/td>\n<td style=\"text-align: right\">0,9750<\/td>\n<td style=\"text-align: right\">0,9772<\/td>\n<td style=\"text-align: right\">0,9950<\/td>\n<td style=\"text-align: right\">0,9987<\/td>\n<\/tr>\n<tr>\n<td><b>Вероятность в границах +\/- стольких SD<\/b><\/td>\n<td style=\"text-align: right\">-0,9973<\/td>\n<td style=\"text-align: right\">-0,9900<\/td>\n<td style=\"text-align: right\">-0,9545<\/td>\n<td style=\"text-align: right\">-0,9500<\/td>\n<td style=\"text-align: right\">-0,9000<\/td>\n<td style=\"text-align: right\">-0,8000<\/td>\n<td style=\"text-align: right\">0,8000<\/td>\n<td style=\"text-align: right\">0,9000<\/td>\n<td style=\"text-align: right\">0,9500<\/td>\n<td style=\"text-align: right\">0,9545<\/td>\n<td style=\"text-align: right\">0,9900<\/td>\n<td style=\"text-align: right\">0,9973<\/td>\n<\/tr>\n<\/table>\n<\/div>\n<p><a href=\"https:\/\/docs.google.com\/spreadsheets\/d\/1NyGMqQtVnRRNK06Wh2vR6R6e2M09Ao7LG5-2e3maLAk\/edit?usp=sharing\">График и данные<\/a> в Google Таблицах<\/p>\n",
            "date_published": "2020-04-05T15:06:07+03:00",
            "date_modified": "2020-04-05T14:13:50+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/normal00.png",
            "_date_published_rfc2822": "Sun, 05 Apr 2020 15:06:07 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "41",
            "_e2_data": {
                "is_favourite": true,
                "links_required": [],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/normal00.png"
                ]
            }
        },
        {
            "id": "40",
            "url": "https:\/\/mathandcoffee.ru\/all\/doveritelny-interval-binomialnogo-raspredeleniya-po-metodu-uilso\/",
            "title": "Доверительный интервал биномиального распределения по методу Уилсона",
            "content_html": "<p>В процессе изучения биномиального распределения, обратил внимание, что стандартный способ определения доверительного интервала через <i>&plusmn;1,645SD<\/i> не всегда точен. Грубо говоря, если «решка» выпала меньше, чем в 10 бросках, то, скорее всего, либо вы сделали мало бросков, либо у вас вероятность выпадения «решки» в «заколдованной монетке» сильно невелика; если <i>np<\/i> &lt; 10, лучше воспользоваться более сложными формулами, дающими более точные оценки при маленьких <i>p<\/i> или <i>n:<\/i><\/p>\n<p><i>По мнению многих статистиков, наиболее оптимальную оценку доверительных интервалов для частот осуществляет <b>метод Уилсона (Wilson),<\/b> предложенный еще в 1927 году &lt;...&gt;. Данный метод не только позволяет оценить доверительные интервалы для очень малых и очень больших частот, но и применим для малого числа наблюдений.<\/i><\/p>\n<p>Звучит заманчиво. Попробуем разобраться.<\/p>\n<h2>Метод Уилсона<\/h2>\n<p>Нижняя и верхняя граница доверительного интервала <i>p = 1—&alpha;\/2<\/i> вычисляются следующими формулами:<\/p>\n<div class=\"e2-text-picture\">\n<div class=\"fotorama\" data-width=\"392\" data-ratio=\"2.6666666666667\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/wilson01.PNG\" width=\"392\" height=\"147\" alt=\"\" \/>\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/wilson02.PNG\" width=\"393\" height=\"132\" alt=\"\" \/>\n<\/div>\n<div class=\"e2-text-caption\">Формула расчета нижней и верхней границ, соответственно.<\/div>\n<\/div>\n<p>где <i><b>p<\/b><\/i> — наблюдаемая вероятность «выпадения решки», <i><b>N<\/b><\/i> — число измерений («бросков»), <i><b>z<\/b><\/i> — <i>z-<\/i>оценка (например, 1,960 для 95%-го доверительного интервала, или 1,645 для 90%-го).<\/p>\n<h2>Пример и калькулятор для расчета<\/h2>\n<p>Предположим, нам удалось прослушать 10 рандомных звонков колл-центра, и в 4 из них оператор забыл или поленился уточнить у клиента источник рекламы. Скорее всего, исходя из данной информации, операторы не уточняют источники рекламы в 40% звонков.<\/p>\n<p>Однако, это очень смелое утверждение, ведь наша выборка (10 звонков) откровенно мала: для получения более точной оценки качества работы коллцентра, хорошо бы прослушать больше рандомных звонков (прослушать все звонки, очевидно, невозможно).<\/p>\n<p>Но даже для выборки из 10 звонков, можно рассчитать SD биномиального распределения:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn.png\" width=\"201\" height=\"77\" alt=\"\" \/>\n<\/div>\n<p>Имеем, SD = 15,49%. С вероятностью 90%, точная оценка качества работы коллцентра (доля звонков, где не выявлен источник рекламы) лежит в диапазоне 40%&plusmn;1,645SD, или от 14,52% до 65,48%.<\/p>\n<p>Применяя же формулу Уилсона (что уместно, так как <i>np<\/i> = 4 &lt; 10), границы доверительного интервала уточняются: с вероятностью 90%, истинная доля звонков, где не выявляется источник рекламы, лежит в границах от 19,42% до 64,84%. SD, получается, равно 13,80%.<\/p>\n<p><a href=\"https:\/\/docs.google.com\/spreadsheets\/d\/1QSvQF7SHUF8QIM8dzxWFT0itI5rP2VOn-tWJ4tHX5qI\/edit?usp=sharing\"><b>Калькулятор<\/b><\/a> в Google Таблицах (меню «Файл» — «Создать копию»).<\/p>\n<h2>См. также:<\/h2>\n<p>«<a href=\"https:\/\/cyberleninka.ru\/article\/n\/doveritelnye-intervaly-dlya-chastot-i-doley\/viewer\">Доверительные интервалы для частот и долей<\/a>», А.М. Гржибовский, 2008 (стр. 58-59)<br \/>\n<a href=\"http:\/\/vassarstats.net\/prop1.html\">Онлайн-калькулятор<\/a> для 95%-го доверительного интервала<br \/>\n<a href=\"https:\/\/www.wolframalpha.com\/input\/?i=binomial+distribution+confidence+interval&assumption=%22FSelect%22+-%3E+%7B%7B%22WilsonScoreInterval%22%7D%7D&assumption=%7B%22F%22%2C+%22WilsonScoreInterval%22%2C+%22k%22%7D+-%3E%224%22&assumption=%7B%22F%22%2C+%22WilsonScoreInterval%22%2C+%22c%22%7D+-%3E%220.90%22&assumption=%7B%22F%22%2C+%22WilsonScoreInterval%22%2C+%22n%22%7D+-%3E%2210%22\">Калькулятор<\/a> на WolframAlpha.com<br \/>\n<a href=\"https:\/\/www.ucl.ac.uk\/english-usage\/staff\/sean\/resources\/binomialpoisson.pdf\">Binomial confidence intervals and contingency tests<\/a> (стр.4-5)<br \/>\n<a href=\"https:\/\/influentialpoints.com\/Training\/confidence_intervals_of_proportions.htm#wils\">https:\/\/influentialpoints.com\/Training\/confidence_intervals_of_proportions.htm#wils<\/a><br \/>\n<a href=\"https:\/\/en.wikipedia.org\/wiki\/Binomial_proportion_confidence_interval#Wilson_score_interval\">Wilson score interval<\/a> на Википедии<\/p>\n",
            "date_published": "2020-04-01T16:54:50+03:00",
            "date_modified": "2020-04-01T16:55:04+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/wilson01.PNG",
            "_date_published_rfc2822": "Wed, 01 Apr 2020 16:54:50 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "40",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [
                    "system\/library\/jquery\/jquery.js",
                    "system\/library\/fotorama\/fotorama.css",
                    "system\/library\/fotorama\/fotorama.js"
                ],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/wilson01.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/wilson02.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn.png"
                ]
            }
        },
        {
            "id": "36",
            "url": "https:\/\/mathandcoffee.ru\/all\/tri-urovnya-ponimaniya-vyborki\/",
            "title": "Три уровня понимания выборки",
            "content_html": "<p>В последнее время много размышлял о том, как, с точки зрения статистики, можно кратко оценить или описать любую совокупность или выборку. Пришел к выводу, что, глобально, <b>существует 3 уровня понимания выборки.<\/b><\/p>\n<h2>Пруд с золотыми рыбками<\/h2>\n<p>Для примера, возьмем мой любимый пруд с золотыми рыбками. Вот такой:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/100_fish.png\" width=\"1200\" height=\"675\" alt=\"\" \/>\n<div class=\"e2-text-caption\">100 золотых рыбок. (На самом деле, рыбок-клоунов, но не важно.)<\/div>\n<\/div>\n<p>Предположим, мы знаем вес каждой рыбки в граммах (или длину в миллиметрах, не имеет значения в данном случае):<\/p>\n<div class=\"e2-text-table\">\n<table cellpadding=\"0\" cellspacing=\"0\" border=\"0\">\n<tr>\n<td style=\"text-align: right\">96,83<\/td>\n<td style=\"text-align: right\">100,84<\/td>\n<td style=\"text-align: right\">97,59<\/td>\n<td style=\"text-align: right\">135,46<\/td>\n<td style=\"text-align: right\">89,32<\/td>\n<td style=\"text-align: right\">25,72<\/td>\n<td style=\"text-align: right\">71,5<\/td>\n<td style=\"text-align: right\">28,7<\/td>\n<td style=\"text-align: right\">100,47<\/td>\n<td style=\"text-align: right\">96,08<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">75,74<\/td>\n<td style=\"text-align: right\">90,22<\/td>\n<td style=\"text-align: right\">64,58<\/td>\n<td style=\"text-align: right\">101,55<\/td>\n<td style=\"text-align: right\">43,38<\/td>\n<td style=\"text-align: right\">109,91<\/td>\n<td style=\"text-align: right\">83,22<\/td>\n<td style=\"text-align: right\">115,43<\/td>\n<td style=\"text-align: right\">118,84<\/td>\n<td style=\"text-align: right\">56,39<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">99,43<\/td>\n<td style=\"text-align: right\">67,46<\/td>\n<td style=\"text-align: right\">99,19<\/td>\n<td style=\"text-align: right\">86,85<\/td>\n<td style=\"text-align: right\">53,01<\/td>\n<td style=\"text-align: right\">123,29<\/td>\n<td style=\"text-align: right\">95,37<\/td>\n<td style=\"text-align: right\">67,57<\/td>\n<td style=\"text-align: right\">123,89<\/td>\n<td style=\"text-align: right\">98,91<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">101,96<\/td>\n<td style=\"text-align: right\">157,56<\/td>\n<td style=\"text-align: right\">139,5<\/td>\n<td style=\"text-align: right\">89,64<\/td>\n<td style=\"text-align: right\">92,31<\/td>\n<td style=\"text-align: right\">175,05<\/td>\n<td style=\"text-align: right\">92,29<\/td>\n<td style=\"text-align: right\">124,63<\/td>\n<td style=\"text-align: right\">81,35<\/td>\n<td style=\"text-align: right\">107,43<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">86,47<\/td>\n<td style=\"text-align: right\">110,03<\/td>\n<td style=\"text-align: right\">144,89<\/td>\n<td style=\"text-align: right\">105,25<\/td>\n<td style=\"text-align: right\">137,14<\/td>\n<td style=\"text-align: right\">76,28<\/td>\n<td style=\"text-align: right\">102,96<\/td>\n<td style=\"text-align: right\">101,95<\/td>\n<td style=\"text-align: right\">90,88<\/td>\n<td style=\"text-align: right\">69,02<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">96,76<\/td>\n<td style=\"text-align: right\">110,17<\/td>\n<td style=\"text-align: right\">118,66<\/td>\n<td style=\"text-align: right\">100,5<\/td>\n<td style=\"text-align: right\">109,23<\/td>\n<td style=\"text-align: right\">40,66<\/td>\n<td style=\"text-align: right\">104,43<\/td>\n<td style=\"text-align: right\">113,17<\/td>\n<td style=\"text-align: right\">101,9<\/td>\n<td style=\"text-align: right\">66,76<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">107,59<\/td>\n<td style=\"text-align: right\">141,11<\/td>\n<td style=\"text-align: right\">71,43<\/td>\n<td style=\"text-align: right\">95,73<\/td>\n<td style=\"text-align: right\">52,26<\/td>\n<td style=\"text-align: right\">70,67<\/td>\n<td style=\"text-align: right\">70,97<\/td>\n<td style=\"text-align: right\">103,66<\/td>\n<td style=\"text-align: right\">135,65<\/td>\n<td style=\"text-align: right\">144,62<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">150,26<\/td>\n<td style=\"text-align: right\">130,69<\/td>\n<td style=\"text-align: right\">81,31<\/td>\n<td style=\"text-align: right\">163,39<\/td>\n<td style=\"text-align: right\">74,22<\/td>\n<td style=\"text-align: right\">83,43<\/td>\n<td style=\"text-align: right\">122,14<\/td>\n<td style=\"text-align: right\">122,61<\/td>\n<td style=\"text-align: right\">137,46<\/td>\n<td style=\"text-align: right\">53,94<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">29,25<\/td>\n<td style=\"text-align: right\">90,83<\/td>\n<td style=\"text-align: right\">119,56<\/td>\n<td style=\"text-align: right\">99,3<\/td>\n<td style=\"text-align: right\">34,53<\/td>\n<td style=\"text-align: right\">74,02<\/td>\n<td style=\"text-align: right\">120,04<\/td>\n<td style=\"text-align: right\">129,32<\/td>\n<td style=\"text-align: right\">124,2<\/td>\n<td style=\"text-align: right\">83,37<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">109,94<\/td>\n<td style=\"text-align: right\">70,41<\/td>\n<td style=\"text-align: right\">107,63<\/td>\n<td style=\"text-align: right\">107,79<\/td>\n<td style=\"text-align: right\">52,74<\/td>\n<td style=\"text-align: right\">79,36<\/td>\n<td style=\"text-align: right\">80,28<\/td>\n<td style=\"text-align: right\">72,16<\/td>\n<td style=\"text-align: right\">142,41<\/td>\n<td style=\"text-align: right\">64,53<\/td>\n<\/tr>\n<\/table>\n<\/div>\n<p><b>Имея такую выборку, что мы можем сказать о наших рыбках в общем? Как кратко описать множество этих рыбок так, чтобы стало немного понятнее, с чем мы имеем дело с точки зрения статистки?<\/b><\/p>\n<h2>1-й уровень понимания. Среднее значение.<\/h2>\n<p>Проще всего было бы рассчитать <b><i>среднее значение<\/i><\/b> веса рыбок — в нашем случае получилось бы 96,70 г. Тогда, на первом, самом базовом уровне понимания, мы бы сказали:<\/p>\n<p><b><i>— В нашем пруду водятся золотые рыбки. Их средний вес равен 96,70 г.<\/i><\/b><\/p>\n<p>Верное ли утверждение? Верное. Действительно, несмотря на то, что попадаются и рыбки весом 26 г, и рыбки весом 175 г, средний вес рыбок равен 96,7 г.<\/p>\n<p>Достаточно ли данной информации? Как минимум, ее достаточно, чтобы представить множество из ста рыбок по 96,7 г каждая, и, приблизительно, это дает понимание о качестве рыбок в нашем пруду. Вооружившись удочкой, мы бы шли ловить таких рыбок.<\/p>\n<p>Однако, этого будет недостаточно, чтобы понять, например, как сильно рыбки различаются между собой. Потому что случайно выловленная рыбка может весить гораздо меньше, чем 96,7 г. И тут мы подошли бы к следующему, более углубленному, уровню понимания.<\/p>\n<h2>2-й уровень понимания. Стандартное отклонение.<\/h2>\n<p>Чуть более образованный человек не удовлетворился бы информацией о том, что средний вес рыбок равен 96,7 г. Он обязательно пошутил бы про «среднюю температуру по больнице» и уточнил бы, а <b>как сильно различаются рыбки по размеру между собой?<\/b><\/p>\n<p>Такое различие называлось бы <b><i>стандартным отклонением<\/i><\/b> (или дисперсией). Оно описывало бы величину отклонения веса случайной рыбки от среднего веса всех рыбок.<\/p>\n<p>Проведя несложные вычисления, мы бы узнали, что, в среднем, вес случайной рыбки отклоняется от веса средней рыбки на 30,4 г. Стандартное отклонение (SD) равно 30,4 г.<\/p>\n<p>И здесь, мы бы уточнили свое первоначальное утверждение:<\/p>\n<p><b><i>— В нашем пруду водятся золотые рыбки. Их средний размер (вес) равен 96,70 г, SD=30,4 г.<\/i><\/b><\/p>\n<p>Теперь случайный рыбак не просто идет ловить рыбок весом 96,7 г, а отдает себе отчет в том, что, в среднем, вес выловленных рыбок будет на 30,4 г больше или меньше среднего веса. Наш рыбак теперь морально готов к тому, что ему может попасться как маленькая, так и большая рыбка.<\/p>\n<p>А, если наш рыбак еще и математик, то он прикинет, что, предполагая, что вес рыбок подчиняется закону нормального распределения (а огромное число вещей и явлений в природе и мире распределены <i>нормально<\/i>), он будет ожидать, что 68% выловленных рыбок будет иметь вес плюс-минус 30,4 г от среднего 96,7 г, или от 66,3 г до 127,1 г.<\/p>\n<p>И, если наш рыбак-математик с первой попытки поймает рыбку весом, например, 146,7 г (что будет отличаться от среднего веса на 50,0 г, или 1,645SD), он будет знать, что так везет лишь одному рыбаку из двадцати, потому что лишь 5% рыбок в пруду имеют вес более 146,7 г, согласно закону нормального распределения.<\/p>\n<p>Единственная проблема заключается в том, что далеко не все в жизни сводится к примеру с рыбками, или к нормальному распределению. Так как речь может идти о генеральных совокупностях, распределенных не <i>нормально,<\/i> а как-то иначе.<\/p>\n<p>И тут нам придется нырнуть, вслед за рыбками, к третьему, самому глубокому, уровню понимания.<\/p>\n<h2>3-й уровень понимания. Гистограмма распределения.<\/h2>\n<p>Чтобы понять, как распределена совокупность наших рыбок, лучше всего было бы «увидеть» всю картину в виде <i><b>гистограммы распределения.<\/b><\/i> Поскольку далеко не всегда мы будем иметь дело с нормальным распределением, одно лишь знание о размере стандартного отклонения и степени разброса значений в нашей выборке не даст нам полного понимания и осознания нашей совокупности.<\/p>\n<p>Распределив имеющиеся 100 значений веса рыбок по диапазонам от 20 до 180 г с шагом в 20 г, мы бы увидели следующую картину:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/3_levels_fish_02.png\" width=\"852\" height=\"530\" alt=\"\" \/>\n<\/div>\n<p>Только теперь мы получили полную картину того, какие рыбки плавают в нашем пруду. Мы словно разом прочувстовали, с чем имеем дело, увидели, насколько маловероятно выловить рыбку весом, например, больше 160 г, убедились, что вероятности встретить больших или маленьких рыбок одинаковы, а узнаваемая колоколообразная форма графика однозначно подсказала, что вес рыбок подчиняется нормальному распределению.<\/p>\n<h2>How much is the fish?<\/h2>\n<p>Мы идем на рыбалку, вооружившись полной картиной того, с чем имеем дело.<\/p>\n<p>На первом уровне, уточнили средний вес рыбок.<br \/>\nНа втором уровне, уточнили средний вес и его стандартное отклонение.<br \/>\nНа третьем уровне, нарисовали гистограмму веса рыбок, чтобы разом увидеть портрет всех рыбок в пруду.<\/p>\n",
            "date_published": "2020-01-26T12:54:32+03:00",
            "date_modified": "2020-01-26T12:54:27+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/100_fish.png",
            "_date_published_rfc2822": "Sun, 26 Jan 2020 12:54:32 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "36",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/100_fish.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/3_levels_fish_02.png"
                ]
            }
        },
        {
            "id": "16",
            "url": "https:\/\/mathandcoffee.ru\/all\/prodvinuty-sposob-rascheta-reytingov\/",
            "title": "Продвинутый способ расчета рейтингов",
            "content_html": "<p>Крайне любопытная статья на сайте EvanMiller.org, <a href=\"https:\/\/www.evanmiller.org\/ranking-items-with-star-ratings.html\" class=\"nu\">«<u>Ranking Items With Star Ratings<\/u>»<\/a>, предлагает <b>продвинутый способ расчета рейтингов,<\/b> например, по пятибалльной шкале.<\/p>\n<p>(Вообще, судя по интонации автора, история с рейтингами и методиками их расчета не так проста, как может показаться, и он <a href=\"https:\/\/www.evanmiller.org\/how-not-to-sort-by-average-rating.html\">неоднократно к ней возвращается<\/a>.)<\/p>\n<p>Из того, что удалось понять: во-первых, расчет <b>среднего рейтинга<\/b> не всегда позволяет однозначно определить место объекта относительно остальных объектов — например, средние рейтинги могут, банально, совпадать. Во-вторых, средний рейтинг не учитывает количество голосов, ведь по идее, чем больше голосов участвует в расчете рейтинга, тем надежнее этот рейтинг.<\/p>\n<p>Простой пример — оценки двух сотрудников:<\/p>\n<p>Осипов — 5, 5, 5, 5, 5, 2, 2, 2, 2, 2. <b>Среднее = 3,50.<\/b><br \/>\nСухонцев — 4, 4, 3, 3. <b>Среднее = 3,50.<\/b><\/p>\n<p>Неразрешимая, на первый взгляд, ситуация решается методами <a href=\"https:\/\/ru.wikipedia.org\/wiki\/%D0%91%D0%B0%D0%B9%D0%B5%D1%81%D0%BE%D0%B2%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0\">байесовской статистики<\/a> (что бы конкретно это здесь ни значило), вуаля:<\/p>\n<p>Осипов — <b>2,72.<\/b><br \/>\nСухонцев — <b>2,63.<\/b><\/p>\n<p>Чудесным образом то ли меньшее среднеквадратичное отклонение (0,58 против 1,58), то ли меньшее количество оценок (4 против 10), то ли все они вместе <b>уточнили<\/b> средний рейтинг Сухонцева, отдав ему предпочтение в несколько сотых.<\/p>\n<h2>Формула продвинутого расчета среднего рейтинга<\/h2>\n<p>Приготовьтесь, будет немного больно.<\/p>\n<p>Итак, <a href=\"https:\/\/www.evanmiller.org\/ranking-items-with-star-ratings.html#setup\">предполагается<\/a>, что у нас есть <i><b>K<\/b><\/i> возможных оценок, считаемых по <i><b>k,<\/b><\/i> каждая оценка стоит <i><b>s<sub>k<\/sub><\/b><\/i> баллов («1» — это 1 балл, «2» — это 2 балла и т. д.). Имея <i><b>N<\/b><\/i> полученных оценок для каждого объекта, по <i><b>n<sub>k<\/sub><\/b><\/i> оценок для каждого <i><b>k,<\/b><\/i> можно посчитать рейтинг каждого объекта по формуле:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/ratings00.PNG\" width=\"835\" height=\"229\" alt=\"\" \/>\n<\/div>\n<p>Где <i><b>z<sub>α\/2<\/sub><\/b><\/i> это <i><b>1−α\/2<\/b><\/i> квантиль нормального распределения. Посчитанный рейтинг является нижней границей нормальной аппроксимации байесова доверительного интервала для среднего рейтинга. Принимая, например, α=0,10 (z=1,65), рассчитанный рейтинг <i><b>S<\/b><\/i> будет означать, что в 95% случаев средний рейтинг объекта будет выше <i><b>S<\/b><\/i>.<\/p>\n<p>Упрощая, «продвинутый» расчет среднего рейтинга позволяет дать прогноз возможной средней оценки, рассчитываемой традиционным путем. Ну и, следовательно, как показано выше, ранжировать объекты даже при формально одинаковой средней оценке.<\/p>\n<h2>Пример расчета продвинутого среднего рейтинга<\/h2>\n<p>Вооружившись 2000 оценок по пятибалльной шкале условных территориальных офисов продаж, я посчитал средний рейтинг каждого офиса обычным и «продвинутым» способом.<\/p>\n<div class=\"e2-text-picture\">\n<div class=\"fotorama\" data-width=\"455\" data-ratio=\"1.0859188544153\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/ratings01.PNG\" width=\"455\" height=\"419\" alt=\"\" \/>\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/ratings02.PNG\" width=\"455\" height=\"419\" alt=\"\" \/>\n<\/div>\n<div class=\"e2-text-caption\">Среднее 1.0 — средний рейтинг обычный, Среднее 2.0 — средний рейтинг продвинутый.<\/div>\n<\/div>\n<p>«Таганский» упал со 2-го на 4-е место по всей видимости, из-за того, что выборка в 66 оценок не дает достаточной уверенности в том, что его средний рейтинг действительно настолько высок, и в 90% случаев его рейтинг прогнозируется выше всего лишь 4,55, что примерно соответствует 4-му месту.<\/p>\n<p>«Академический» формально был на 13-м месте, но, благодаря надежным 249 оценкам, для него прогнозируется, в 90% случаев, средний рейтинг не ниже 4,4, что поднимает его до 10-го места.<\/p>\n<p>У меня сложилось ощущение, что формула более убедительно работает для коротких шкал оценок, как «от 1 до 5» в приведенном примере.<\/p>\n<p>В любом случае, делюсь <a href=\"https:\/\/docs.google.com\/spreadsheets\/d\/1Uh5ndL3rFjd9orZ5NCZFInuWN218LDO6N-D90Ih0THo\/edit?usp=sharing\">файлом в Google Таблицах<\/a> — по идее, он считает рейтинги для всех шкал «длиной» до 100 оценок включительно, позволяет импортировать до 10 000 строк с оценками и корректировать уровень достоверности (90% в нашем примере).<\/p>\n<h2>Cм. также<\/h2>\n<p><a href=\"https:\/\/www.evanmiller.org\/ranking-items-with-star-ratings.html\">https:\/\/www.evanmiller.org\/ranking-items-with-star-ratings.html<\/a><\/p>\n<p><a href=\"https:\/\/docs.google.com\/spreadsheets\/d\/1Uh5ndL3rFjd9orZ5NCZFInuWN218LDO6N-D90Ih0THo\/edit?usp=sharing\">Продвинутый способ расчета рейтинга<\/a> в Google Таблицах<\/p>\n",
            "date_published": "2019-09-21T15:59:00+03:00",
            "date_modified": "2019-09-21T16:01:59+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/ratings00.PNG",
            "_date_published_rfc2822": "Sat, 21 Sep 2019 15:59:00 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "16",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [
                    "system\/library\/jquery\/jquery.js",
                    "system\/library\/fotorama\/fotorama.css",
                    "system\/library\/fotorama\/fotorama.js"
                ],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/ratings00.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/ratings01.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/ratings02.PNG"
                ]
            }
        },
        {
            "id": "31",
            "url": "https:\/\/mathandcoffee.ru\/all\/4-smski-za-4-smski-protiv\/",
            "title": "4 смски «за», 4 смски «против»",
            "content_html": "<p>Недавно слушал «Вести ФМ», где обсуждались итоги <a href=\"https:\/\/ru.wikipedia.org\/wiki\/%D0%95%D0%B4%D0%B8%D0%BD%D1%8B%D0%B9_%D0%B4%D0%B5%D0%BD%D1%8C_%D0%B3%D0%BE%D0%BB%D0%BE%D1%81%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_8_%D1%81%D0%B5%D0%BD%D1%82%D1%8F%D0%B1%D1%80%D1%8F_2019_%D0%B3%D0%BE%D0%B4%D0%B0\">единого дня голосования 8 сентября<\/a>.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/4smski05.JPG\" width=\"1230\" height=\"601\" alt=\"\" \/>\n<\/div>\n<p>Меня заинтересовала следующая реплика ведущего, <a href=\"https:\/\/youtu.be\/tOUSxbWdSuY?t=6305\">с 01:45:05<\/a>:<\/p>\n<blockquote>\n<p><i>Кстати, вот, слушатели из того же Хабаровского края пишут и, примерно, по количеству смсок делятся «50 на 50». 50% считают, что они позитивный выбор совершили, а 50% считают, что стало хуже, и это был негативный выбор. Это, понятно, не социологическое исследование. Ну, вот, просто я вижу десяток, восемь, где-то, смсок, и они примерно пополам делятся. Тоже любопытно.<\/i><\/p>\n<\/blockquote>\n<p>К чести ведущего, абсолютно корректное замечание-«дисклеймер», что это не «социологическое исследование». И все же, что можно сказать о том, как, <i>в реальности,<\/i> делятся голоса, если у вас в наличии только 4 смски «за» и 4 смски «против»? Насколько соотношение «50 на 50», полученное на выборке в 8 смсок, подтверждает ровно то же самое распределение голосов <i>в генеральной совокупности?<\/i><\/p>\n<h2>Считаем в Гугл Таблицах<\/h2>\n<p>Быстро воспроизводим эксперимент в Гугл Таблицах:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/4smski00.PNG\" width=\"381\" height=\"191\" alt=\"\" \/>\n<\/div>\n<p>Итак, в тот день 4 человека прислали смски «за», 4 человека прислали смски «против». Логично предположить, что день на день не приходится, и сегодня это были одни слушатели, завтра смски будут присылать другие слушатели, и соотношение сил может быть «3 к 5», «5 к 3», «2 к 6» или «7 к 1» — любое сочетание теоретически возможно. Однако, если мы предполагаем, что взгляды аудитории делятся поровну, то чуть более вероятны сценарии «4 к 4», «3 к 5» или «5 к 3», а сценарии «8 к 0» или «1 к 7», например, менее вероятны.<\/p>\n<p>Технически, мы имеем дело с <i>биномиальным распределением<\/i> — из 8 смсок мы <i>ожидаем<\/i> получить 4 смски «за», но не знаем наверняка, сколько их будет. Вероятность получить смску «за» равна 50% (допустим, что ровно 50% аудитории — «за»), в этом случае <b><i>стандартная ошибка (SD,<\/i><\/b> или <b><i>&sigma;)<\/i><\/b> биномиального распределения рассчитывалась бы по формуле:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn.png\" width=\"201\" height=\"77\" alt=\"\" \/>\n<\/div>\n<p>где <b><i>p<\/i><\/b> = 50%, а <b><i>n<\/i><\/b> = 8.<\/p>\n<p>Считаем:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/4smski01.PNG\" width=\"384\" height=\"231\" alt=\"\" \/>\n<\/div>\n<p>Получается, если вероятность получить смску «за» равняется 50%, то стандартное отклонение при выборке в 8 смсок <b>равняется 17,68%!<\/b><\/p>\n<p>Что же это означает на практике?<\/p>\n<p>Это означает, что, поскольку имеющаяся выборка (8 смсок) крайне мала, доля случайности в нашем результате «4 „за“, 4 „против“», наоборот, крайне велика, и мы не можем уверенно говорить о строгом распределении голосов «50 на 50» среди всей аудитории «Вести ФМ». Единственное, что мы можем утверждать более-менее точно, это то,  что истинная доля голосов «за» лежит <b><i>в некотором интервале<\/i><\/b> вокруг 50%. И величина этого интервала будет тем шире, чем больше мы захотим быть уверены в его надежности.<\/p>\n<p>Предположим, мы хотим быть уверены в нашем доверительном интервале на 90%. (Оставляем себе право на ошибку в 10% случаев, другими словами). Согласно законам <i>нормального распределения<\/i> (а биномиальное распределение — это частный случай нормального), данный интервал <b>определяется как 50%&plusmn;1,645SD.<\/b><\/p>\n<p>Такое несложно рассчитать в Гугл Таблицах:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/4smski03.PNG\" width=\"379\" height=\"246\" alt=\"\" \/>\n<\/div>\n<p>Получается, что истинная доля голосов «за» лежит в интервале 50%&plusmn;29,08%, <b>т. е. от 20,92% до 79,08%.<\/b> Примерно вот так это выглядит:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/4smski02.PNG\" width=\"789\" height=\"368\" alt=\"\" \/>\n<\/div>\n<p>Значит, мы и близко не можем говорить о том, что «слушатели ... примерно ... делятся 50 на 50»! В лучшем случае (даже оставляя 10% на то, что мы ошибемся), <b>мы можем говорить лишь об интервале от 21% до 79%.<\/b><\/p>\n<h2>Уточнение расчетов<\/h2>\n<p>Однако, интервал <b><i>p<\/i>&plusmn;1,645<i>SD<\/i><\/b> тоже является достаточно грубой оценкой. Существуют более сложные, и немного более точные, способы оценить границы интервалов.<\/p>\n<p>Воспользовавшись <a href=\"https:\/\/www.wolframalpha.com\/input\/?i=binomial+distribution+confidence+interval\">калькулятором Wolfram Alpha<\/a>, можно получить следующие границы интервала:<\/p>\n<div class=\"e2-text-table\">\n<table cellpadding=\"0\" cellspacing=\"0\" border=\"0\">\n<tr>\n<td style=\"text-align: left\">Clopper-Pearson confidence interval for a binomial parameter<\/td>\n<td style=\"text-align: right\">0,1929<\/td>\n<td style=\"text-align: right\">0,8071<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left\">Wilson score confidence interval for a binomial parameter with continuity correction<\/td>\n<td style=\"text-align: right\">0,2034<\/td>\n<td style=\"text-align: right\">0,7966<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left\">standard confidence interval for a binomial parameter<\/td>\n<td style=\"text-align: right\">0,2092<\/td>\n<td style=\"text-align: right\">0,7908<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left\">Jeffreys confidence interval for a binomial parameter<\/td>\n<td style=\"text-align: right\">0,2393<\/td>\n<td style=\"text-align: right\">0,7607<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left\">Wilson score confidence interval for a binomial parameter<\/td>\n<td style=\"text-align: right\">0,2486<\/td>\n<td style=\"text-align: right\">0,7514<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left\">Agresti-Coull confidence interval for a binomial parameter<\/td>\n<td style=\"text-align: right\">0,2486<\/td>\n<td style=\"text-align: right\">0,7514<\/td>\n<\/tr>\n<\/table>\n<\/div>\n<h2>Ну а если хотим, хотя бы, 45-55% получить?<\/h2>\n<p>Вот еще интересно: на какого размера выборке, если голоса в ней по-прежнему делятся строго «50 на 50», мы сможем говорить о доверительном интервале, суженном хотя бы до 45-55%?<\/p>\n<p>Рассчитать такое несложно. Если речь идет об интервале 50%&plusmn;5%, (и мы продолжаем придерживаться уровня уверенности в результате, равном нашим любимым 90%), то 5% должны составлять 1,645 стандартных отклонений (SD). Отсюда, SD = 3,04%. По формуле стандартного отклонения:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/4smski04.png\" width=\"270\" height=\"58\" alt=\"\" \/>\n<\/div>\n<p>откуда несложно найти n = 270,6. Получается, нужно 270-272 смски с распределением голосов строго пополам, чтобы говорить об интервале от 45% до 55% с уровнем уверенности 90%.<\/p>\n<h2>См. также<\/h2>\n<p><a href=\"https:\/\/en.wikipedia.org\/wiki\/Binomial_proportion_confidence_interval\">https:\/\/en.wikipedia.org\/wiki\/Binomial_proportion_confidence_interval<\/a><br \/>\n<a href=\"https:\/\/www.wolframalpha.com\/input\/?i=binomial+distribution+confidence+interval&assumption=%22FSelect%22+-%3E+%7B%7B%22BinomialInterval%22%7D%7D&assumption=%7B%22F%22%2C+%22BinomialInterval%22%2C+%22phat%22%7D+-%3E%220.5%22&assumption=%7B%22F%22%2C+%22BinomialInterval%22%2C+%22c%22%7D+-%3E%220.9%22&assumption=%7B%22F%22%2C+%22BinomialInterval%22%2C+%22n%22%7D+-%3E%228%22\">Калькулятор на WolframAlpha.com<\/a><br \/>\n<a href=\"https:\/\/cyberleninka.ru\/article\/n\/doveritelnye-intervaly-dlya-chastot-i-doley.pdf\">https:\/\/cyberleninka.ru\/article\/n\/doveritelnye-intervaly-dlya-chastot-i-doley.pdf<\/a><br \/>\n<a href=\"http:\/\/italylov.ru\/blog\/all\/ctatisticheskaya-dostovernost-koltrekinga\/\">Cтатистическая достоверность для застройщиков<\/a><\/p>\n",
            "date_published": "2019-09-16T20:03:11+03:00",
            "date_modified": "2019-09-16T20:37:32+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/4smski05.JPG",
            "_date_published_rfc2822": "Mon, 16 Sep 2019 20:03:11 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "31",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/4smski05.JPG",
                    "https:\/\/mathandcoffee.ru\/pictures\/4smski00.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/4smski01.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/4smski03.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/4smski02.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/4smski04.png"
                ]
            }
        },
        {
            "id": "30",
            "url": "https:\/\/mathandcoffee.ru\/all\/ischem-anomalii\/",
            "title": "Ищем «аномалии», включаем красные и зеленые «лампочки»",
            "content_html": "<p>Переписываясь на днях с коллегой в Телеграме, в очередной раз увидел примерно вот такой отчет (сейчас просто нарисовал похожий) — сверху недели, сбоку, допустим, территориальные офисы продаж (там были месяцы и продажи по типам продукта, но для целей этой заметки это совершенно не имеет значения):<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/anomalii00.PNG\" width=\"1163\" height=\"434\" alt=\"\" \/>\n<\/div>\n<p>Воспользовавшись «Условным форматированием» в Экселе, замечаем, что на 6-й неделе в офисе «Академический»  было 503 продажи. В общем, до этого момента ничего необычного, и так выжали 90% из данных, можно работать с отчетом и анализировать, что душе угодно.<\/p>\n<p>Однако, есть несложная доработка, позволяющая выжать из данных еще лишние 5%.<\/p>\n<h2>Что, собственно, ищем<\/h2>\n<p>На картинке особо не видно, но чем ниже по списку, тем меньше в среднем продаж в каждом следующем офисе. То есть, будем считать, что офисы продаж все очень разные, и некорректно сравнивать «Академический» с «Якиманкой» — нехитрым вычислением получается, что «Академический» в среднем делал 242 продажи в неделю, а «Якиманка» — всего 13. Предположим, что тому есть объективные причины, и никто и не требовал от всех офисов показывать одинаковые результаты.<\/p>\n<p>И тогда можно задать себе вопрос: достаточно ли просто анализировать абсолютные показатели по нашим офисам? И не будет ли правильнее копнуть вглубь, и <b>попробовать найти такие показатели, которые выбиваются из общей картины?<\/b> Такие недели, которые были <b><i>аномальными<\/i><\/b> для данного офиса продаж.<\/p>\n<p>Здесь и далее под <i>«аномалией»<\/i> я буду понимать такое значение продаж, которое <b>слишком отличается от среднего по данном офису.<\/b> Как в большую (и надо разобраться, как повторить этот результат) или в меньшую (проанализировать, как избежать неудачи в будущем) сторону.<\/p>\n<h2>Распределяем результаты офиса «Академический»<\/h2>\n<p>Изучив результаты продаж офиса «Академический» за прошедшие 43 недели, мы рассчитали, что в среднем они делают 241,5 продаж в неделю, при этом стандартное отклонение (SD) равно 86,3.<\/p>\n<p>Напомню формулы:<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=СРЗНАЧ(B2:AR2)<\/code><\/pre><pre class=\"e2-text-code\"><code class=\"\">=СТАНДОТКЛОН.В(B2:AR2)<\/code><\/pre><p>Можно, гипотетически, представить, что мы имеем возможность наблюдать за результатами офиса «Академический» 200 (sic!) лет, при условии, что все это время среднее и стандартное отклонение не меняются, т. е., грубо говоря, они работают, как работали. В этом случае, мы увидели бы распределение результатов продаж, близкое к <i>нормальному:<\/i><\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/anomalii01.PNG\" width=\"663\" height=\"379\" alt=\"\" \/>\n<\/div>\n<p>Давайте даже еще раз перерисуем картинку. 2 290 недель из 10 000 они бы делали от 200 до 249 продаж в неделю:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/anomalii02.PNG\" width=\"663\" height=\"379\" alt=\"\" \/>\n<\/div>\n<p>Понимаете, к чему я клоню?<\/p>\n<p>Если только допустить, что результаты продаж подчиняются законам <i>нормального распределения<\/i> (грубо говоря, равновероятно продать как чуть больше, так и чуть меньше среднего), существует некоторое разумное отклонение от среднего, в пределах которого было бы глупо всерьез говорить о «спаде продаж» или «невероятном успехе». Иными словами, бессмысленно считать «аномалией» то, что лежит в пределах разумного отклонения от среднего.<\/p>\n<p>Остается сформулировать критерии «разумности» и научить отчет сигнализировать об «аномалиях».<\/p>\n<h2>Вспоминаем теорию<\/h2>\n<p>Если вкратце, то, допустив на минутку, что мы имеем дело с <i>нормальным распределением,<\/i> вычислив <i>среднее значение<\/i> и <i>стандартное отклонение (SD),<\/i> мы можем уверенно говорить о том, <b>что 90% данных в отчете не будут выходить за границы &plusmn;1,645SD от среднего.<\/b><\/p>\n<p>Применительно к офису «Академический» речь идет о том, что для 90% времени результаты их продаж будут лежать в диапазоне от 100 до 383, или 241,5&plusmn;142,0.  Поэтому до тех пор, пока цифры не вышли за пределы этих границ, мы не наблюдаем ничего необычного.<\/p>\n<p>Сразу оговоримся: конечно, степень «необычности», или «аномалии», каждый определяет для себя сам. Для одних, подозрение могут вызывать показатели, выбивающиеся за рамки 80%-ной вероятности (&plusmn;1,28SD), для других — терпимым будет отклонение в &plusmn;1,96SD, что соответствует 95%-й вероятности. Тогда, первые будут бить искать причины «аномалии» в 20% случаев, вторые — в 5%. Каждую пятую неделю но отчете у коммерческого директора первые будут объяснять, что произошло, и почему, тогда как вторые будут делать это раз в 4-5 месяцев.<\/p>\n<p>Допущение о том, что продажи в территориальных офисах, число посетителей на сайте, количество рекламных звонков, клики по баннеру распределяются по закону нормального распределения, дало нам потрясающую возможность оценивать вероятность наступления «аномалии» — слишком сильного отклонения от среднего значения. Обратно, оно учит нас не бить тревогу там, где отклонение, хотя и есть, не является достаточно сильным, и делает, отчасти, бессмысленным анализ и разбор ситуаций, когда показатель отклоняется в пределах разумного.<\/p>\n<h2>Перекрашиваем отчет, включаем зеленые и красные «лампочки»<\/h2>\n<p>Теперь мы хотим переделать отчет о продажах в территориальных офисах таким образом, чтобы напротив подозрительно больших или подозрительно маленьких значений загорались бы зеленые и красные «лампочки».<\/p>\n<p>Нам необходимо научить отчет «включать» наши «лампочки», если значение в ячейке становится больше или меньше границ 90%-го диапазона, т. е. в примерно 90% случаев ни одна из «лампочек» «загораться» не будет, в примерно 5% случаев будет «загораться» красная «лампочка», и еще в примерно 5% — зеленая.<\/p>\n<p>Применительно к «Академическому», мы хотим выделять красным значения, меньшие чем 241,5-1,645*86,3, т. е., меньшие, чем 100, и мы ходим выделять зеленым значения, большие, чем 241,5+1,645*86,3, т. е., большие, чем 383.<\/p>\n<p>Нам остается рассчитать границы включения «лампочек» по каждому из офисов продаж, рассчитав последовательно: среднее значение продаж, стандартное отклонение (SD), нижнюю границу 90%-го диапазона, верхнюю границу 90%-го диапазона.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/anomalii03.PNG\" width=\"542\" height=\"308\" alt=\"\" \/>\n<\/div>\n<p>Используемые формулы:<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=СРЗНАЧ(B2:AR2)<\/code><\/pre><pre class=\"e2-text-code\"><code class=\"\">=СТАНДОТКЛОН.В(B2:AR2)<\/code><\/pre><pre class=\"e2-text-code\"><code class=\"\">=B2-1,645*C2<\/code><\/pre><pre class=\"e2-text-code\"><code class=\"\">=B2+1,645*C2<\/code><\/pre><p>У нас получилась следующая таблица, содержащая расчеты по нижним и верхним границам того, что мы далее будем считать «аномалией»:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/anomalii04.PNG\" width=\"471\" height=\"439\" alt=\"\" \/>\n<\/div>\n<p>Теперь, используя инструмент «Условное форматирование» — «Правило выделения ячеек» — «Меньше...»\/«Больше...», последовательно для каждого из 17-ти офисов продаж настраиваем правила подсветки ячеек красным и зеленым, в зависимости от того, будет ли значение ниже нижней границы 90%-го диапазона, или выше верхней границы:<\/p>\n<div class=\"e2-text-picture\">\n<div class=\"fotorama\" data-width=\"614\" data-ratio=\"1.9068322981366\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/anomalii05.PNG\" width=\"614\" height=\"322\" alt=\"\" \/>\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/anomalii06.PNG\" width=\"600\" height=\"315\" alt=\"\" \/>\n<\/div>\n<\/div>\n<p>Дополнительно выставляем светло-серый цвет текста, чтобы подсвеченные «аномалии» были еще более заметны. Добавляем градиент от белого к светло-серому, чтобы сохранить первоначальную идею выделять большие значения более темной заливкой. Законченная таблица приобретает следующий вид:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/anomalii07.PNG\" width=\"1162\" height=\"438\" alt=\"\" \/>\n<\/div>\n<h2>Выводы<\/h2>\n<p>Используя идею о разбросе значений вокруг среднего в нормальном распределении, нам удалось доработать наш отчет о территориальных офисах таким образом, что мы не просто видим результаты, но и теперь отдельно включаем красные и зеленые «лампочки» для тех результатов, которые представляют интерес, как «аномалии» — маловероятно маленькие или маловероятно большие значения, определив уровень «аномалии» как все, что выходит за пределы 90% вероятности.<\/p>\n",
            "date_published": "2019-09-12T15:27:33+03:00",
            "date_modified": "2019-09-12T17:41:05+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/anomalii00.PNG",
            "_date_published_rfc2822": "Thu, 12 Sep 2019 15:27:33 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "30",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/jquery\/jquery.js",
                    "system\/library\/fotorama\/fotorama.css",
                    "system\/library\/fotorama\/fotorama.js"
                ],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/anomalii00.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/anomalii01.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/anomalii02.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/anomalii03.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/anomalii04.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/anomalii05.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/anomalii06.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/anomalii07.PNG"
                ]
            }
        },
        {
            "id": "27",
            "url": "https:\/\/mathandcoffee.ru\/all\/golosovoy-robot-kupivip-ugadyvaem-razmer-vyborki\/",
            "title": "Голосовой робот KupiVIP, угадываем размер выборки",
            "content_html": "<p>В статье «<a href=\"https:\/\/vc.ru\/marketing\/54315-keys-zamenili-na-black-friday-koll-centr-kupivip-robotom-i-tolko-5-chelovek-iz-5000-ponyali-chto-obshchayutsya-s-neyrosetyu\">Кейс: заменили на Black Friday колл-центр KupiVIP роботом, и только 5 человек из 5000 поняли, что общаются с нейросетью<\/a>» на vc.ru меня, среди прочего, не могла не заинтересовать фраза, где автор рассказывает о росте конверсии с 6% до 8%:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_00.PNG\" width=\"690\" height=\"276\" alt=\"&quot;количество активаций промокода у голосового робота доходило до 8% против 6% у реальных сотрудников колл-центра.&quot;\" \/>\n<\/div>\n<p>Естественно, я задумался, на каком же объеме звонков был зафиксирован данный рост конверсии, и достаточен ли был этот объем, чтобы можно было достоверно утверждать, что голосовой робот эффективнее живых операторов колл-центра.<\/p>\n<p>Точно вопрос можно было бы сформулировать, например, следующим образом: <b>какой минимальный объем звонков требуется сделать, чтобы с уровнем достоверности, например, 95% зафиксировать рост конверсии с 6% до 8%?<\/b><\/p>\n<h2>Строим эксперимент в Excel<\/h2>\n<p>Попробуем выписать имеющиеся данные в Excel. Для дальнейших расчетов нам понадобится параметр <i>«число звонков»<\/i> — предположим пока, что и робот, и операторы сделали по 1000 звонков, прежде чем были получены конверсии 6% и 8%:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_01.PNG\" width=\"366\" height=\"215\" alt=\"\" \/>\n<\/div>\n<p>Вообще, налицо обычный А\/Б сплит-тест, и далее нам нужно будет пройтись по его алгоритму для получения <i>Z-оценки<\/i> и расчета <i>p-значения<\/i>.<\/p>\n<p>Рассчитаем стандартные ошибки (SD, или &sigma;) для обеих конверсий и стандартную ошибку разницы этих конверсий. Формула для расчета стандартной ошибки конверсии:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn.png\" width=\"201\" height=\"77\" alt=\"\" \/>\n<\/div>\n<p>где <i>p<\/i> — конверсия (6%, например), <i>n<\/i> — размер выборки (1000 звонков). Считаем в Excel:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_02.PNG\" width=\"573\" height=\"217\" alt=\"\" \/>\n<\/div>\n<p>Стандартная ошибка разницы конверсий — считаем по формуле:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn02.png\" width=\"230\" height=\"58\" alt=\"\" \/>\n<\/div>\n<p>где &sigma; — это стандартная ошибка каждой из конверсий A и B (оператор и робот). В Excel посчитаем ее чуть ниже:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_03.PNG\" width=\"556\" height=\"250\" alt=\"\" \/>\n<\/div>\n<p>Насколько разница между конверсиями A и B больше, чем стандартная ошибка этой разницы? Это соотношение называется <i><b>Z-оценкой.<\/b><\/i> В Excel считается совсем просто:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_04.PNG\" width=\"506\" height=\"271\" alt=\"\" \/>\n<\/div>\n<p>Итак, Z-оценка = 1,7541. На графике нормального распределения это соответствует 96%-му персентилю, то есть, вероятность, что Z-оценка случайно окажется выше 1,7541 составляет порядка 4% (иными словами, 96% площади под колоколом нормального распределения не выходят за пределы +1,7541 стандартных отклонений):<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_05.PNG\" width=\"706\" height=\"304\" alt=\"\" \/>\n<\/div>\n<p>Откуда мы взяли именно 96%? Точное значение вероятности, <i>p-значение,<\/i> вычисляем по формуле:<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=НОРМ.РАСП(1,7541;0;1;ИСТИНА)<\/code><\/pre><div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_06.PNG\" width=\"571\" height=\"94\" alt=\"\" \/>\n<\/div>\n<p>P-значение = 96,03%.<\/p>\n<p>Итак, промежуточный вывод: <b>если на выборке в 1000 звонков в каждом из двух случаев мы обнаружили конверсии (активации промокода) в 6% и 8% звонков, то мы на 96% уверены, что эта разница не случайна.<\/b> (Остается 4% вероятности, что обнаруженная разница — случайность. Тогда, возможно, конверсия вообще одинакова и равна, например, 7%. Сделай мы больше звонков, разница вскоре сошла бы на нет).<\/p>\n<h2>Эксперимент минимального размера<\/h2>\n<p>Однако, вернемся к первоначальной задаче.<\/p>\n<p>Мы не хотели убедиться, что 8% больше, чем 6%, да и цифра 1000 звонков для робота и операторов была выбрана наугад. Мы хотели рассчитать <b>минимальное количество звонков, чтобы с уровнем уверенности 95% зафиксировать статистическую значимость разницы между 8% и 6%.<\/b><\/p>\n<p>1000 звонков нам оказалось точно достаточно. Теперь нам остается уменьшать это число до той поры, пока p-значение не пересечет границу 95%. (По формуле нормального распределения, кстати, это будет соответствовать Z-оценке, равной 1,6449 — попробуйте проверить.)<\/p>\n<p>В теории, наверное, можно было бы вывести большую формулу для расчета такого <i>n,<\/i> при котором p-значение будет равно 0,95. На практике, быстрее окажется вручную подобрать минимальное n. Или, еще лучше, воспользоваться в Excel инструментом <b>Данные — Анализ «что, если» — Подбор параметра:<\/b><\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_07.PNG\" width=\"797\" height=\"186\" alt=\"\" \/>\n<\/div>\n<p>(Убедитесь только, что число звонков робота ровно то же самое, что и число звонков оператора, т. е. вы указали =C6 в ячейке C7).<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_08.PNG\" width=\"817\" height=\"185\" alt=\"\" \/>\n<\/div>\n<h2>Выводы<\/h2>\n<p>Итак, мы вычислили минимальные условия эксперимента для оценки эффективности голосового робота для KupiVIP.<\/p>\n<p><b>Нужно не менее 878 звонков в каждой из двух групп, чтобы с уровнем достоверности 95% подтвердить наличие разницы между 6% активаций промокодов в контрольной группе (реальные сотрудники) и 8% в тестовой группе (голосовой робот).<\/b><\/p>\n<p>(Единственное, ни 6%, ни 8% не дают целого числа активаций на выборке из 878 звонков, и, в реальности, конечно, цифры будут другие, причем число звонков в двух группах вообще может быть различным. Но, на самом деле, это не имеет большого значения, т. к., наверняка, в статье были приведены округленные значения конверсий).<\/p>\n<h2>См. также:<\/h2>\n<p><a href=\"https:\/\/abtestguide.com\/calc\/?ua=1000&ub=1000&ca=60&cb=80\">https:\/\/abtestguide.com\/calc\/?ua=1000&ub=1000&ca=60&cb=80<\/a><\/p>\n",
            "date_published": "2019-07-20T13:18:48+03:00",
            "date_modified": "2019-07-20T14:35:26+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn03.png",
            "_date_published_rfc2822": "Sat, 20 Jul 2019 13:18:48 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "27",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css"
                ],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn03.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_00.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_01.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_02.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn02.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_03.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_04.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_05.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_06.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_07.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_08.PNG"
                ]
            }
        },
        {
            "id": "21",
            "url": "https:\/\/mathandcoffee.ru\/all\/v-kazhdom-pyatom-zvonke-problemy-proveryaem\/",
            "title": "«В каждом пятом» звонке проблемы, проверяем",
            "content_html": "<p>На днях пришел в голову такой пример: предположим, подрядчик жалуется <b>на плохую связь «в каждом пятом» звонке.<\/b><\/p>\n<p>Наша задача проверить, <b>справедлива ли гипотеза, что 20% звонков имеют проблемы со связью.<\/b> Причем, как всегда, мы не просто сделаем 100 тестовых звонков (на это у нас нет ресурсов), а сформулируем нулевую гипотезу, альтернативную гипотезу, и проверим ее с заданным уровнем достоверности.<\/p>\n<h2>Выдвигаем гипотезу и определяем уровень достоверности<\/h2>\n<p><b>Нулевой гипотезой <i>(H<sub>0<\/sub>)<\/i><\/b> пусть будет предположение, что со связью все в порядке, или, по крайней мере, проблемы встречаются реже, чем в 20% звонков.<\/p>\n<p><b>Альтернативной гипотезой <i>(H<sub>1<\/sub>),<\/i><\/b> которую мы будем проверять, пусть будет предположение подрядчика, что в каждом пятом звонке наблюдаются помехи. То есть, по крайней мере, в 20% звонков есть проблемы со связью.<\/p>\n<p><b>Уровень достоверности<\/b> — это наша уверенность в результатах эксперимента. Чем он выше, тем больше придется сделать проверочных звонков, поэтому мы заложим 1% на возможную ошибку, и выберем уровень достоверности в 99% (1%, что, если даже эксперимент не подтвердит проблем со связью, они, в действительности, могут быть).<\/p>\n<h2>Cобираем формулу для расчета выборки<\/h2>\n<p>Предположим, цель эксперимента — <i>опровергнуть<\/i> альтернативную гипотезу H<sub>1<\/sub> («есть проблемы»), подтвердив нулевую гипотезу H<sub>0<\/sub> («все в порядке»). Чтобы сделать это, нам будет достаточно продемонстрировать N подряд успешных звонков без признаков проблем со связью, при этом допуская вероятность, равную или меньше 1%, что нам просто повезет, и, при наличии, в действительности, проблем с оборудованием, они случайно не проявят себя ни в одном из N звонков.<\/p>\n<p>Из предположения подрядчика вытекает, что 80% звонков не имеют проблем. Вероятность отсутствия сбоев в N звонках подряд равна 0,80<sup>N<\/sup>. Нам нужно подобрать минимальное N, при котором вероятность упадет до 1%: 0,80<sup>N<\/sup> = 1%<\/p>\n<p>Получается, нам нужно вычислить логарифм 1% по основанию 80%!<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/every5th01.PNG\" width=\"223\" height=\"36\" alt=\"\" \/>\n<\/div>\n<p>Загружаем в Гугл Таблицы:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/every5th00.PNG\" width=\"366\" height=\"320\" alt=\"\" \/>\n<\/div>\n<p>Формула для ячейки C5 будет выглядеть как<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=LOG(1-C2;1-C3)<\/code><\/pre><div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/every5th02.PNG\" width=\"373\" height=\"262\" alt=\"\" \/>\n<\/div>\n<p>Нужно сделать 20,64 звонка. (Проверяем: 0,80<sup>20,64<\/sup> = 0,9995%, идеально.)<\/p>\n<p>Остается только добавить округление:<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=ОКРУГЛВВЕРХ(C5)<\/code><\/pre><p>или сразу<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=ОКРУГЛВВЕРХ(LOG(1-C2;1-C3))<\/code><\/pre><div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/every5th03.PNG\" width=\"366\" height=\"266\" alt=\"\" \/>\n<\/div>\n<h2>Проверяем гипотезу<\/h2>\n<p>Если альтернативная гипотеза <i>H<sub>1<\/sub><\/i> нашего подрядчика верна, и мы испытываем проблемы со связью в каждом пятом звонке, то, вероятность не заметить проблем в 21 тестовом звонке подряд составляет порядка 1%. Иными словами, либо это крайне редкое совпадение (1%), либо альтернативная гипотеза о проблемах в 20% звонков неверна (99%), и мы оставляем нулевую гипозеу <i>H<sub>0<\/sub><\/i>. <b>С вероятностью 99% мы уверены, что проблем со связью не наблюдается.<\/b><\/p>\n",
            "date_published": "2019-06-09T16:45:58+03:00",
            "date_modified": "2019-06-22T14:49:54+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/every5th01.PNG",
            "_date_published_rfc2822": "Sun, 09 Jun 2019 16:45:58 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "21",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css"
                ],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/every5th01.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/every5th00.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/every5th02.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/every5th03.PNG"
                ]
            }
        },
        {
            "id": "22",
            "url": "https:\/\/mathandcoffee.ru\/all\/skolko-minut-mozhno-sidet-bez-zvonkov\/",
            "title": "Сколько минут возможно просидеть без звонков",
            "content_html": "<p>Или вот еще был случай: разгар рабочего дня в отделе продаж, телефон молчит уже полчаса.<\/p>\n<p>Варианта два: либо технический сбой, либо это просто случайно подзатянувшаяся пауза, и вот-вот поступит очередной звонок от клиента.<\/p>\n<p>Попробуем разобраться, сколько минут можно просидеть в тишине, прежде чем надо начинать беспокоиться.<\/p>\n<h2>Неочевидный параметр телефонного звонка<\/h2>\n<p>Какими вообще параметрами обладает телефонный звонок в отделе продаж или в коллцентре? <i>Дата и время, скорость ответа, длительность, день недели, номер линии, номер клиента<\/i> — вот самые очевидные характеристики, по которым можно анализировать поступающие звонки.<\/p>\n<p>Где-то в тени прячется еще один параметр — а именно, <b>длительность паузы<\/b> (промежутка без звонков), <b>предшествующей очередному звонку.<\/b> Например, звонок поступил в 14:07 13 февраля и продлился 3 мин 52 сек. Это то, что видно в выгрузке, в логах АТС или в CRM. Не менее любопытно, что, если предыдущий звонок был зарегистрирован в 14:01, то пауза в 6 минут является тем самым неочевидным параметром, который тоже можно было бы проанализировать.<\/p>\n<p>Допустим, возьмем звонки в коллцентр в будние дни с 10 до 19 часов. Посчитаем разность в минутах между двумя соседними звонками — «0», если прошло меньше минуты, «1» — от одной до двух минут (от 01:00 до 01:59), и так далее. Проанализировав тысячи звонков, получаем примерно такую таблицу:<\/p>\n<div class=\"e2-text-table\">\n<table cellpadding=\"0\" cellspacing=\"0\" border=\"0\">\n<tr>\n<td><b>Пауза перед звонком, минут<\/b><\/td>\n<td style=\"text-align: right\"><b>Число звонков<\/b><\/td>\n<td style=\"text-align: right\"><b>Доля звонков<\/b><\/td>\n<td style=\"text-align: right\"><b>Доля звонков накопленным итогом<\/b><\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">0<\/td>\n<td style=\"text-align: right\">19 641<\/td>\n<td style=\"text-align: right\">21,3%<\/td>\n<td style=\"text-align: right\">21,3%<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">1<\/td>\n<td style=\"text-align: right\">16 299<\/td>\n<td style=\"text-align: right\">17,7%<\/td>\n<td style=\"text-align: right\">39,0%<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">2<\/td>\n<td style=\"text-align: right\">12 137<\/td>\n<td style=\"text-align: right\">13,2%<\/td>\n<td style=\"text-align: right\">52,2%<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">3<\/td>\n<td style=\"text-align: right\">9 251<\/td>\n<td style=\"text-align: right\">10,0%<\/td>\n<td style=\"text-align: right\">62,1%<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">4<\/td>\n<td style=\"text-align: right\">7 276<\/td>\n<td style=\"text-align: right\">7,9%<\/td>\n<td style=\"text-align: right\">70,1%<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">...<\/td>\n<td style=\"text-align: right\">...<\/td>\n<td style=\"text-align: right\">...<\/td>\n<td style=\"text-align: right\">...<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">23<\/td>\n<td style=\"text-align: right\">139<\/td>\n<td style=\"text-align: right\">0,2%<\/td>\n<td style=\"text-align: right\">99,4%<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">...<\/td>\n<td style=\"text-align: right\">...<\/td>\n<td style=\"text-align: right\">...<\/td>\n<td style=\"text-align: right\">...<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">40<\/td>\n<td style=\"text-align: right\">10<\/td>\n<td style=\"text-align: right\">0,0%<\/td>\n<td style=\"text-align: right\">100,0%<\/td>\n<\/tr>\n<\/table>\n<\/div>\n<p>(Строго говоря, паузы более 40 минут тоже присутствуют, но их доля ничтожно мала, поэтому, округляя до десятых, мы достигаем 100% уже на 40 минутах.)<\/p>\n<h2>Простая идея «аномальных» пауз<\/h2>\n<p>Итого, мы имеем удивительно красивую гистограмму распределения длительности пауз между звонками. Что примечательно, длительности пауз убывают по экспоненте:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/poisson00.png\" width=\"786\" height=\"494\" alt=\"\" \/>\n<\/div>\n<p>Вернемся к тому, что мы вообще хотели посчитать в самом начале.<\/p>\n<p>У нас родилась идея, что рано или поздно, <b>перерыв между звонками в середине рабочего дня становится таким длительным, что это начинает вызывать тревогу у менеджеров.<\/b> Логично предположить, что в каждом отделе продаж или коллцентре тревогу вызывать будут затянувшиеся паузы разной длительности — для больших коллцентров перерыв в 5 минут это уже очень маловероятно, для других — 5 минут это стандартный промежуток между звонками, а вот 55 минут — уже очень подозрительно.<\/p>\n<p>А что если попробовать сформулировать идею «аномально» затянувшейся паузы между звонками таким образом: это такая пауза, которая встречается чрезвычайно редко, например, раз в неделю, или раз в месяц, или раз в полгода. Определим для себя уровень «аномалии», кажущийся нам разумным, и посчитаем, <b>паузы какой длительности встречаются примерно так редко, как мы определили нашу «аномалию».<\/b><\/p>\n<p>Например, пусть аномальной будет считаться пауза, <b>которая, в среднем, встречается раз в неделю.<\/b><\/p>\n<p>Если в нашу таблицу длительностей пауз между звонками попали звонки за прошедший год, логично, что количество «аномальных» («раз в неделю») пауз там будет порядка 52 штук (по числу недель).<\/p>\n<p>Итак, нам нужно отсчитать <b>52 звонка с самыми длительными паузами перед ними.<\/b> В моей таблице нашлось 47 звонков с паузами 38+ минут, затем идут 57 звонков с паузами 37+ и более минут.<\/p>\n<p>Таким образом, можно сделать вывод, что <b>пауза в 37-38 минут между звонками в будний день должна настораживать: либо перед нами еженедельная «аномалия», наблюдаемся порядка 52 раз в год, либо речь идет о том, что мог произойти технический сбой, и звонки перестали поступать.<\/b><\/p>\n",
            "date_published": "2019-06-09T12:10:35+03:00",
            "date_modified": "2019-06-09T12:47:13+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/poisson00.png",
            "_date_published_rfc2822": "Sun, 09 Jun 2019 12:10:35 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "22",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/poisson00.png"
                ]
            }
        },
        {
            "id": "12",
            "url": "https:\/\/mathandcoffee.ru\/all\/kachestvo-zvonkov-skolko-proslushat\/",
            "title": "Качество звонков: сколько нужно прослушать",
            "content_html": "<p>Распространенным инструментом оценки качества работы менеджеров отдела продаж является <b>аудит качества телефонных звонков,<\/b> «прослушка».<\/p>\n<p>Предположим, вы задались целью не просто <b>замерить<\/b> качество телефонных звонков, но <b>зафиксировать <i>рост<\/i> этого качества.<\/b> Например, провели обучение (тренинг) менеджеров, либо предложили новую мотивацию за соблюдение стандартов качества, либо что-то еще.<\/p>\n<p>Логично предположить, что рост качества в первом попавшемся, после тренинга, звонке, не будет однозначно свидетельствовать о росте качества в остальных звонках. Скорее всего, и второй удачный звонок тоже однозначно не подтвердит гипотезу, что качество выросло.<\/p>\n<p>Таким образом, речь будет идти о том, что вам придется прослушать если не все, то, по крайней мере, достаточное число звонков после введенных вами изменений, и число звонков, которые необходимо будет прослушать, на самом деле, <b>можно однозначно рассчитать.<\/b><\/p>\n<h2>Считаем размер выборки<\/h2>\n<p>На 15-й странице работы «<a href=\"https:\/\/people.ucsc.edu\/~dgbonett\/docs\/wrkshp\/LectureNotes.pdf\">Планирование размеров выборки для исследований в бихевиоризме<\/a>» мне попался подходящий пример 2.4 и формула для расчета таких выборок:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/samplesize00.PNG\" width=\"858\" height=\"506\" alt=\"\" \/>\n<\/div>\n<p>В данном примере рассматривается изменение оценки <a href=\"https:\/\/ru.wikipedia.org\/wiki\/ACT\">ACT<\/a>-теста по математике с 24,5 (дисперсия 8,2) до 26,0 баллов при &alpha; = 0,05 и мощности = 0,90.<\/p>\n<p>Для удобства работы, я собрал приведенную формулу в Гугл-таблицах:<br \/>\n<a href=\"https:\/\/docs.google.com\/spreadsheets\/d\/1c1J88P0i0gmDFpOtfDIkPt-C0HKJOWACbSWVZTx2kL8\/edit?usp=sharing\">Калькулятор размера выборки<\/a><\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/samplesize01.PNG\" width=\"865\" height=\"346\" alt=\"\" \/>\n<\/div>\n<p>Вам остается скопировать файл, и можете подставлять нужные вам значения. Достоверность разумно выбирать от 80% до 95%, значение мощности — от 60% до 80%. Указываете средний балл оценки звонков до изменений, стандартное отклонение (SD) оценки звонков «до», и ожидаемый средний балл оценки звонков после изменений.<\/p>\n<h2>Верификация полученных результатов<\/h2>\n<p>Важно понимать, что, даже прослушав требуемое количество звонков «после», все равно необходимо проверять наличие статистически значимых различий через <a href=\"http:\/\/n4d-d.xyz\/all\/a-b-test-maksimalno-prosto\/\">калькулятор А\/Б-тестов<\/a>.<\/p>\n<h2>См. также:<\/h2>\n<p><a href=\"https:\/\/habr.com\/ru\/post\/339798\/\">https:\/\/habr.com\/ru\/post\/339798\/<\/a><br \/>\n<a href=\"https:\/\/people.ucsc.edu\/~dgbonett\/docs\/wrkshp\/LectureNotes.pdf\">https:\/\/people.ucsc.edu\/~dgbonett\/docs\/wrkshp\/LectureNotes.pdf<\/a><\/p>\n",
            "date_published": "2019-05-26T16:46:00+03:00",
            "date_modified": "2026-04-18T14:39:56+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/samplesize00.PNG",
            "_date_published_rfc2822": "Sun, 26 May 2019 16:46:00 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "12",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/samplesize00.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/samplesize01.PNG"
                ]
            }
        },
        {
            "id": "2",
            "url": "https:\/\/mathandcoffee.ru\/all\/skolzyaschee-srednee-ili-kak-sgladit-grafik\/",
            "title": "Скользящее среднее, или как сгладить график",
            "content_html": "<p>Честно говоря, не знаю, как правильно называется эта штука, но пусть у нее будет рабочее название <b>«скользящее среднее».<\/b><\/p>\n<p>Очень часто бывает так, что у нас есть <b>данные с разбивкой по дням.<\/b> Например, заходы на сайт или звонки в отдел продаж. И, в попытке проанализировать <b>динамику<\/b> происходящего, мы строим график, получая примерно следующее:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/mvng_avrg_03.png\" width=\"985\" height=\"750\" alt=\"\" \/>\n<\/div>\n<p>Что здесь не так?<\/p>\n<p>Достаточно очевидно, что, во-первых, график постоянно прыгает вверх-вниз, а, во-вторых, имеет некрасивые <i>экстремумы<\/i> вроде 16 заявок в октябре или 122 заявок в августе. День на день не приходится, и данные слишком сильно колеблются вокруг среднего значения (кстати, среднее тут равно 63).<\/p>\n<p>А там, где что-то так некрасиво прыгает, часто можно что-то сгладить, используя понятие <a href=\"https:\/\/www.google.ru\/search?q=moving+average&newwindow=1&tbm=isch\"><b><i>скользящего среднего<\/i><\/b><\/a>.<\/p>\n<h2>Скользящее среднее. Простой способ.<\/h2>\n<p>Попробуем «сгладить» наш прыгающий график путем расчета <b><i>среднего числа заявок на дату,<\/i><\/b> исходя из предыдущих 6 дней (7-й — текущий день, итого ровно неделя).<\/p>\n<p>Напротив 07.01.2018 напишем формулу<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=СРЗНАЧ(B2:B8)<\/code><\/pre><div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/mvng_avrg_05.png\" width=\"985\" height=\"750\" alt=\"\" \/>\n<\/div>\n<p>Протянув формулу по всему году до самой последней строки, получим <i>среднее число заявок на каждую дату за предыдущую неделю<\/i>. Как будто рамку, шириной в одну неделю, мы двигали по году вдоль с шагом в один день.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/mvng_avrg_06.png\" width=\"985\" height=\"750\" alt=\"\" \/>\n<\/div>\n<p>Визуально ничего не изменилось. Разве что, раньше были целые значения, а теперь, из-за усреднения, вылезли знаки после запятой — 79,9, 84,1. Обновим наш график:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/mvng_avrg_07.png\" width=\"985\" height=\"750\" alt=\"\" \/>\n<\/div>\n<p>На месте прежнего, «прыгающего», графика, теперь более гладкая линия. Исчезли аномальные дни с 16 и 122 звонками в октябре и в августе, зато теперь, на «недельном» масштабе, стал заметнее провал на майские праздники.<\/p>\n<h2>Скользящее среднее. Сложный способ.<\/h2>\n<p>Некоторое время попрактиковавшись с вычислением скользящего среднего, вы обратите внимание, что, чем шире вы будете брать «окно» для расчета среднего на дату, тем сильнее будет сглаживаться ваш график. Теоретически, вы можете взять окно шириной в 365 дней... и получится практически ровная линия. А при окне шириной в 1 день — график не сглаживается вообще.<\/p>\n<p>В этот момент становится понятно, что «7 дней» из первого примера — это просто случайное число, а на самом деле, оно может быть абсолютно любым — все зависит лишь от ваших предпочтений и представлений о том, что вы хотите увидеть и проанализировать.<\/p>\n<p>Попробуем не задавать жестко ширину нашего «окна», а сделать его <i>параметром<\/i> нашего графика. Пусть «окно» в 7 дней, используемое для сглаживания графика, будет зависеть от цифры «7», помещенной в ячейку C1. И пусть, если мы меняем «7» на «5» или «30», Эксель перестраивает наш график.<\/p>\n<p>Итак, настало время для красивой формулы в ячейке C8:<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=СРЗНАЧЕСЛИМН(B$2:B$365;A$2:A$365;&quot;&lt;=&quot;&amp;A8;A$2:A$365;&quot;&gt;=&quot;&amp;(A8-$C$1+1))<\/code><\/pre><p>Функция<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=СРЗНАЧЕСЛИМН()<\/code><\/pre><p>берет и считает среднее значение для тех дат, для которых будут выполняться оба условия:<\/p>\n<ol start=\"1\">\n<li>Дата, которая участвует в расчете среднего, должна быть больше или равна дате, отстоящей от даты, для которой мы рассчитываем среднее, назад на N-1 дней (где N — ширина нашего «окна»).<\/li>\n<li>Дата, которая участвует в расчете среднего, должна быть меньше или равна дате, для которой мы это среднее рассчитываем.<\/li>\n<\/ol>\n<p>Проще говоря, для расчета среднего числа заявок на 18 апреля при N=7 дней, мы возьмем среднее от числа заявок с 12 по 18 апреля (больше или равно 12 апреля и меньше или равно 18 апреля). Для расчета среднего числа заявок на 19 апреля — среднее от числа заявок с 13 по 19 апреля, и так далее.<\/p>\n<p>Выделим ячейку C1 под наш параметр N, тогда формула для 07.01.2018 выглядит так:<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=СРЗНАЧЕСЛИМН(B$2:B$365;A$2:A$365;&quot;&lt;=&quot;&amp;A8;A$2:A$365;&quot;&gt;=&quot;&amp;(A8-$C$1+1))<\/code><\/pre><p>Итого, теперь мы имеем уже знакомый нам «сглаженный» 7-дневный график, но ширину «окна» задали не строго, а привязали ее к параметру, записанному в ячейке C1:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/mvng_avrg_08.png\" width=\"985\" height=\"750\" alt=\"\" \/>\n<\/div>\n<p>Меняя значение параметра в ячейке C1, получаем все более и более ровную линию. Вот, для сравнения, наложенные друг на друга графики при N=1, N=5, N=30:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/mvng_avrg_09.png\" width=\"985\" height=\"750\" alt=\"\" \/>\n<\/div>\n",
            "date_published": "2019-05-26T11:23:27+03:00",
            "date_modified": "2019-05-26T11:23:15+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/mvng_avrg_03.png",
            "_date_published_rfc2822": "Sun, 26 May 2019 11:23:27 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "2",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css"
                ],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/mvng_avrg_03.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/mvng_avrg_05.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/mvng_avrg_06.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/mvng_avrg_07.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/mvng_avrg_08.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/mvng_avrg_09.png"
                ]
            }
        },
        {
            "id": "19",
            "url": "https:\/\/mathandcoffee.ru\/all\/oshibka-konversii\/",
            "title": "Когнитивная ошибка конверсии",
            "content_html": "<p>Любопытная особенность работы с понятием <i>конверсия<\/i> заключается в том, что, строго говоря, <b>конверсия практически никогда не бывает определена точно.<\/b><\/p>\n<p>Вот эти вот «конверсия звонка в продажу 18,4%», «CTR 3,1%», «конверсия в сделки 30%» — это всегда немного упрощенный подход, будто конверсия надежно измерена и, если и изменится, то мы это объясним объективными факторами, не допуская мысли, что изначально никаких «18,4%» и не было, а были только 38 договоров, которые мы сделали на 206 звонках, и это вовсе не значит, что их не могло бы быть больше или меньше.<\/p>\n<p>Примерно, как местоположение электрона вокруг ядра атома не задается точными координатами, а лишь описывается некоторой областью, в которой он, наиболее вероятно, находится, наша конверсия — это тоже не конкретное число, а, в действительности, <b>интервал, в котором она находится.<\/b><\/p>\n<h2>Расчет конверсии и когнитивное искажение<\/h2>\n<p>Рассмотрим вымышленный отдел продаж, в котором с этого года начали продавать новый продукт. Допустим, ммм, <b>лимузины.<\/b> Продукт не пользуется большим спросом, поэтому, пока что, данных для анализа не так много, или, лучше сказать, совсем мало:<\/p>\n<div class=\"e2-text-table\">\n<table cellpadding=\"0\" cellspacing=\"0\" border=\"0\">\n<tr>\n<td><b>месяц<\/b><\/td>\n<td style=\"text-align: right\"><b>Заявки<\/b><\/td>\n<td style=\"text-align: right\"><b>Продажи<\/b><\/td>\n<\/tr>\n<tr>\n<td>август<\/td>\n<td style=\"text-align: right\">48<\/td>\n<td style=\"text-align: right\">1<\/td>\n<\/tr>\n<tr>\n<td>сентябрь<\/td>\n<td style=\"text-align: right\">35<\/td>\n<td style=\"text-align: right\">1<\/td>\n<\/tr>\n<tr>\n<td>октябрь<\/td>\n<td style=\"text-align: right\">24<\/td>\n<td style=\"text-align: right\">0<\/td>\n<\/tr>\n<tr>\n<td>ноябрь<\/td>\n<td style=\"text-align: right\">61<\/td>\n<td style=\"text-align: right\">2<\/td>\n<\/tr>\n<tr>\n<td>декабрь<\/td>\n<td style=\"text-align: right\">32<\/td>\n<td style=\"text-align: right\">0<\/td>\n<\/tr>\n<tr>\n<td><b>ИТОГО:<\/b><\/td>\n<td style=\"text-align: right\"><b>200<\/b><\/td>\n<td style=\"text-align: right\"><b>4<\/b><\/td>\n<\/tr>\n<\/table>\n<\/div>\n<p>Как видно из данных наших продаж, по итогам нескольких месяцев, мы имеем 4 сделки на 200 лидов (заявок), т. е. наша конверсия равна 4 \/ 200 = 2,0%<\/p>\n<p>(Дополнительно, исходя из цифр пяти месяцев работы, мы можем примерно спрогнозировать 480 лидов на следующий год и, соответствнно, 480 * 0,02 = 9,6 сделок.)<\/p>\n<p>В целом, на таких скудных данных ошибиться невозможно, поэтому, безусловно, такой прогноз не будет ошибочным. Однако, он содержит важное когнитивное искажение: 2,0% это не точное значение, а <i>наиболее пока вероятное<\/i> значение конверсии заявок в продажи наших лимузинов.<\/p>\n<p><b>В действительности, конверсия не может быть определена точно. Она лежит в доверительном интервале от 0,4% до 3,6%.<\/b> И в будущем году нужно прогнозировать не 9,6 сделок, а от 5 до 15 проданных лимузинов. К сожалению, определить этот диапазон точнее будет довольно самонадеянным.<\/p>\n<h2>Колокол конверсии<\/h2>\n<p>Исходя из предположения, что наша <i>истинная<\/i> конверсия стабильна, и <i>точно<\/i> равна 2,0%, мы можем прикинуть возможные варианты числа сделок на 480 лидов, ожидаемых в будущем году. Поскольку мы можем отвечать только за стабильность <i>своей<\/i> работы, но не можем учесть фактор случайности (настроение клиентов, форс мажор, случайная продажа другу гендиректора), всегда существует вероятность, что число сделок будет немного отличаться от прогнозируемых 480 * 0,02 = 9,6 сделок подобно тому, как число решек на 480 бросков монеты может немного отличаться от 240, и быть 235, 248, или, возможно, даже 223.<\/p>\n<p>Графически это выглядит как <i>колокол нормального распределения,<\/i> где, чем дальше мы уходим от математического ожидания в 9 сделок в центре колокола, тем ниже становится вероятность сделать сильно меньше или сильно больше сделок:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/oshibka01.png\" width=\"648\" height=\"372\" alt=\"\" \/>\n<\/div>\n<p>Глядя на полученный график, приходится признать, что увидеть меньше 2-х и больше 19-ти сделок практически невероятно.<\/p>\n<p>Но, можно ли сузить наш <i>доверительный интервал?<\/i><\/p>\n<h2>Доверительный интервал конверсии<\/h2>\n<p>Стандартная ошибка (SD) для биномиального распределения считается по формуле:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn-1.png\" width=\"238\" height=\"39\" alt=\"\" \/>\n<\/div>\n<p>где <b><i>n<\/i><\/b> — это число испытаний, <b><i>p<\/i><\/b> — вероятность успеха.<\/p>\n<p>Для наших 200 заявок текущего года имеем:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/oshibka02.png\" width=\"366\" height=\"310\" alt=\"\" \/>\n<\/div>\n<p><b>SD = 1,98 сделок.<\/b> Иными словами, согласно законам нормального распределения (а биномиальное распределение — это частный случай нормального распределения), примерно в 68% случаев, работая с истинной конверсией 2,0%, мы бы попали в доверительный интервал от 2,02 до 5,98 сделок, то есть +\/-1SD.<\/p>\n<p>Для прогнозируемых 480 заявок будущего года получим:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/oshibka03.png\" width=\"372\" height=\"190\" alt=\"\" \/>\n<\/div>\n<p><b>SD = 3,07 сделок.<\/b> По законам биномиального (нормального) распределения, известно, что в 68% случаев продажи будущего года будут лежать в пределах +\/- 1SD от математического ожидания в 9,6 сделок, а в 90% случаев — в пределах +\/- 1,645SD от матожидания. 3,07 сделок * 1,645 = 5,05 сделок, иными словами, в 90% случаев, работай мы весь следующий год с конверсией 2%, мы не выйдем за границы доверительного интервала «от 4,55 до 14,65 сделок». (Примечательно, что, обратно, в 1 случае из 10, мы, все-таки, выйдем за эти границы, по-прежнему, при этом, работая с «истинной» конверсией 2%.)<\/p>\n<p>Любопытно, какой шум поднимет коммерческий директор, если по итогам года мы продадим всего 4 лимузина на 480 заявок, формально показав конверсию 0,83%... и еще более любопытно, что, статистически, это происходит в 1 из 27 отделов продаж. <b>В одном из 27-ми случаев вас увольняют за невыполнение плана продаж, хотя вы по-прежнему работаете с «истинной» конверсией 2%.<\/b><\/p>\n<h2>Три конверсии на границе доверительного интервала<\/h2>\n<p>Как же тогда относится к результатам текущего года, где мы получили 4 сделки на 200 заявок?<\/p>\n<p><b>Первый случай, «2,00%».<\/b> Его мы рассмотрели сразу. 4 \/ 200 = 0,02, т. е. наша конверсия равна 2%. При этом, по законам биномиального распределения, все равно есть вероятность колебаться в 90%-м доверительном интервале «+\/-1,645SD», т. е., в интервале от 0,74 до 7,26 сделок на 200 заявок.<\/p>\n<p>Выглядит это примерно так:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/oshibka04.png\" width=\"658\" height=\"372\" alt=\"\" \/>\n<\/div>\n<p>Наш результат в 4 сделки совпал с математическим ожиданием от конверсии 2,0%, хотя, в общем, он мог и не совпасть, в целом находясь в 90% доверительном интервале от 1 до 7 сделок.<\/p>\n<p><b>Второй случай, «1,22%».<\/b> В этом случае, в реальности, наша «истинная» конверсия, <b>на самом деле, ниже, и равна, например, 1,22%.<\/b> Тогда матожидание числа проданных лимузинов примерно равно 2, и нам <b>повезло<\/b> сделать 4 продажи. Степень нашего везения такова, что сделать <i>более<\/i> 4 продаж мы могли бы только в 10% случаев. Т. е., мы остаемся в поле 90%-й вероятности, хотя и находимся на границе этого поля. Еще чуть-чуть, и нам повезет слишком сильно, а пока что нам везет «в пределах разумного»:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/oshibka05.png\" width=\"648\" height=\"372\" alt=\"\" \/>\n<\/div>\n<p><b>Третий случай, «3,31%».<\/b> Теперь мы предположим, что в текущем году <b>нам не везло,<\/b> хотя весь год наша истинная конверсия была выше 2,0% и <b>равнялась 3,31%.<\/b> Матожидание для 200 заявок тогда равнялось бы примерно 6 проданным лимузинам, а сделать <i>менее<\/i> 4-х продаж было бы возможно лишь в 10% случаев. Тогда мы тоже остаемся в поле 90%-й вероятности, но находимся на левой границе этого поля с нашими невезучими 4 сделками.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/oshibka06.png\" width=\"648\" height=\"372\" alt=\"\" \/>\n<\/div>\n<p><b>Таким образом, приходится признать: мы не знаем наверняка, какая из 3-х конверсий — истинная.<\/b> Нам привычно думать, что речь идет о 1-м случае, и мы делим 4 сделки на 200 заявок, получая конверсию 2,00%. Но никто не знает наверняка, является ли текущий год обычным или необычным, везло ли нам в нем, или не везло. В 90% случаев речь могла идти <b>как о везении,<\/b> и мы работали в действительности с конверсией 1,22%, <b>так и о невезении,<\/b> когда мы работали с конверсией 3,31%. <b>Во всех 3-х случаях вероятность сделать 4 сделки на 200 заявок не выходила за границы 90%.<\/b><\/p>\n<p>К сожалению, у нас пока слишком мало данных, чтобы утверждать что-то можно было более точно.<\/p>\n<h2>Нужно больше данных<\/h2>\n<p>Логично задать вопрос — а сколько нужно накопить данных, чтобы более-менее надежно говорить о конверсии 2,0%? Попробуем постепенно увеличивать размер выборки (число заявок, и, следовательно, продаж), пока не увидим, как 90%-й доверительный интервал сомкнется вокруг значения конверсии в 2,00%:<\/p>\n<div class=\"e2-text-table\">\n<table cellpadding=\"0\" cellspacing=\"0\" border=\"0\">\n<tr>\n<td style=\"text-align: right\"><b>                    Заявки<\/b><\/td>\n<td style=\"text-align: right\"><b>             Сделки<\/b><\/td>\n<td style=\"text-align: right\"><b>Нижняя граница 90% доверительного интервала (-1,645SD)<\/b><\/td>\n<td style=\"text-align: right\"><b>Верхняя граница 90% доверительного интервала (+1,645SD)<\/b><\/td>\n<td style=\"text-align: right\"><b>Нижняя граница конверсии<\/b><\/td>\n<td style=\"text-align: right\"><b>Верхняя граница конверсии<\/b><\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">200<\/td>\n<td style=\"text-align: right\">4<\/td>\n<td style=\"text-align: right\">0,7<\/td>\n<td style=\"text-align: right\">7,3<\/td>\n<td style=\"text-align: right\">0,37%<\/td>\n<td style=\"text-align: right\">3,63%<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">500<\/td>\n<td style=\"text-align: right\">10<\/td>\n<td style=\"text-align: right\">4,9<\/td>\n<td style=\"text-align: right\">15,1<\/td>\n<td style=\"text-align: right\">0,97%<\/td>\n<td style=\"text-align: right\">3,03%<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">1 000<\/td>\n<td style=\"text-align: right\">20<\/td>\n<td style=\"text-align: right\">12,7<\/td>\n<td style=\"text-align: right\">27,3<\/td>\n<td style=\"text-align: right\">1,27%<\/td>\n<td style=\"text-align: right\">2,73%<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">5 000<\/td>\n<td style=\"text-align: right\">100<\/td>\n<td style=\"text-align: right\">83,7<\/td>\n<td style=\"text-align: right\">116,3<\/td>\n<td style=\"text-align: right\">1,67%<\/td>\n<td style=\"text-align: right\">2,33%<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">10 000<\/td>\n<td style=\"text-align: right\">200<\/td>\n<td style=\"text-align: right\">177,0<\/td>\n<td style=\"text-align: right\">223,0<\/td>\n<td style=\"text-align: right\">1,77%<\/td>\n<td style=\"text-align: right\">2,23%<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">50 000<\/td>\n<td style=\"text-align: right\">1 000<\/td>\n<td style=\"text-align: right\">948,5<\/td>\n<td style=\"text-align: right\">1 051,5<\/td>\n<td style=\"text-align: right\">1,90%<\/td>\n<td style=\"text-align: right\">2,10%<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">100 000<\/td>\n<td style=\"text-align: right\">2 000<\/td>\n<td style=\"text-align: right\">1 927,2<\/td>\n<td style=\"text-align: right\">2 072,8<\/td>\n<td style=\"text-align: right\">1,93%<\/td>\n<td style=\"text-align: right\">2,07%<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">500 000<\/td>\n<td style=\"text-align: right\">10 000<\/td>\n<td style=\"text-align: right\">9 837,2<\/td>\n<td style=\"text-align: right\">10 162,8<\/td>\n<td style=\"text-align: right\">1,97%<\/td>\n<td style=\"text-align: right\">2,03%<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">1 000 000<\/td>\n<td style=\"text-align: right\">20 000<\/td>\n<td style=\"text-align: right\">19 769,7<\/td>\n<td style=\"text-align: right\">20 230,3<\/td>\n<td style=\"text-align: right\">1,98%<\/td>\n<td style=\"text-align: right\">2,02%<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">10 000 000<\/td>\n<td style=\"text-align: right\">200 000<\/td>\n<td style=\"text-align: right\">199 271,7<\/td>\n<td style=\"text-align: right\">200 728,3<\/td>\n<td style=\"text-align: right\">1,99%<\/td>\n<td style=\"text-align: right\">2,01%<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">25 000 000<\/td>\n<td style=\"text-align: right\">500 000<\/td>\n<td style=\"text-align: right\">498 848,5<\/td>\n<td style=\"text-align: right\">501 151,5<\/td>\n<td style=\"text-align: right\">2,00%<\/td>\n<td style=\"text-align: right\">2,00%<\/td>\n<\/tr>\n<\/table>\n<\/div>\n<p>Надо ли говорить, что получить более нескольких десятков тысяч заявок-лидов может мало какой из отделов продаж. <b>Поэтому, приходится признать, что ставить планы продаж и принимать кадровые решения относительно сотрудников, работающих с уровнями конверсии 1-5% — это безумие, и на таких маленьких числах математика в продажах не работает.<\/b><\/p>\n<h2>См. также:<\/h2>\n<p><a href=\"http:\/\/italylov.ru\/blog\/all\/ctatisticheskaya-dostovernost-koltrekinga\/\">http:\/\/italylov.ru\/blog\/all\/ctatisticheskaya-dostovernost-koltrekinga\/<\/a><\/p>\n",
            "date_published": "2019-05-07T12:39:07+03:00",
            "date_modified": "2019-05-07T13:46:21+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/oshibka01.png",
            "_date_published_rfc2822": "Tue, 07 May 2019 12:39:07 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "19",
            "_e2_data": {
                "is_favourite": true,
                "links_required": [],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/oshibka01.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn-1.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/oshibka02.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/oshibka03.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/oshibka04.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/oshibka05.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/oshibka06.png"
                ]
            }
        },
        {
            "id": "5",
            "url": "https:\/\/mathandcoffee.ru\/all\/t-kriteriy-styudenta\/",
            "title": "t-Критерий Стьюдента",
            "content_html": "<p>Если однажды перед вами оказывались два набора похожих данных, вам, вероятно, приходило в голову задаться вопросом: насколько эти данные различаются между собой? Или, что еще более важно, наблюдаются ли <i>статистически значимые<\/i> различия между этими выборками?<\/p>\n<p>Поясню, о чем идет речь.<\/p>\n<p>Допустим, вы проанализировали звонки за прошедший год и обратили внимание, что <b>среднее время звонка в первой половине дня — 2 мин 45 сек, а во второй половине дня — 2 мин 57 сек.<\/b> Следует ли из этого, что звонки после обеда в среднем длятся дольше? Или это простое совпадение, и, возьми вы звонки за год до этого, вы бы увидели другую картину?<\/p>\n<p>Или, например, вы замеряли уровень гемоглобина у контрольной группы до начала исследований нового лекарства, и после. Предположим, <b>средний уровень вырос с 142,5 г\/л до 147,1 г\/л.<\/b> Достаточно ли опираться на увеличение среднего, чтобы сделать заключение об эффективности лекарства? Или, возможно, исследование нужно повторить? Увеличив размер контрольной группы, например?<\/p>\n<p>Уже из постановки вопроса очевидно, что <b>одной разницы между средними в двух выборках недостаточно, чтобы научно подтвердить их различие.<\/b><\/p>\n<p>Вот почему мы обратимся к <b>формуле расчета<\/b> и <b>таблице значений t-критериев Стьюдента,<\/b> чтобы научиться делать <i>математически корректные<\/i> выводы о <i>статистически значимых<\/i> различиях между двумя выборками. Или, другими словами, научиться видеть разницу, когда она не заметна, или игнорировать ее, даже если кажется, что она есть.<\/p>\n<p>Рассмотрим вопрос на примере.<\/p>\n<h2>Анализ длительности звонков Асланян и Евтушенко<\/h2>\n<p>В вашем отделе продаж работают 2 менеджера — Ольга Асланян и Кирилл Евтушенко. Вы получили данные по длительности их разговоров с покупателями и хотите проверить гипотезу, что разговоры Асланян в среднем длятся дольше разговоров Евтушенко.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/student01.PNG\" width=\"694\" height=\"474\" alt=\"\" \/>\n<\/div>\n<p>Посчитаем среднюю длительность звонка, стандартное отклонение и число звонков, которые попали в выборке.<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=СРЗНАЧ(B2:B999)<\/code><\/pre><pre class=\"e2-text-code\"><code class=\"\">=СТАНДОТКЛОН(B2:B999)<\/code><\/pre><pre class=\"e2-text-code\"><code class=\"\">=СЧЁТ(B2:B999)<\/code><\/pre><div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/student02.PNG\" width=\"696\" height=\"403\" alt=\"\" \/>\n<\/div>\n<p>В среднем, звонки Асланян длятся на 34,5 сек дольше звонков Евтушенко. (Кроме того, разброс длительности ее звонков больше, т. к. больше стандартное отклонение. Грубо говоря, короткие и длинные звонки у Асланян найти проще, чем у Евтушенко).<\/p>\n<p>Достаточно ли полученных данных, чтобы сделать вывод о правильности гипотезы, что Асланян в среднем дольше общается с клиентами, чем Евтушенко? На самом деле, нет. Всегда существует вероятность, что в выборку Асланян случайно попали более длинные звонки, а в выборку Евтушенко — более короткие. Чем больше звонков доступно для анализа (а нам достались 242 и 209 звонков, что не так уж и мало), тем более надежен результат, но он никогда не надежен на 100%.<\/p>\n<p>Впрочем, надежность 100% нам и не нужна. Не ракету к Марсу запускаем. Даже если нам удастся проверить нашу гипотезу с вероятностью 90-95%, этого будет вполне достаточно для большинства случаев. Пускай мы оставим себе шанс ошибиться в 5-10% случаев, зато нам не нужно будет ждать несколько лет, чтобы накопить достаточно данных для анализа, и управленческие решения (разбор звонков с менеджером, анализ продаж, корректировки скриптов) мы сможем принять уже сейчас.<\/p>\n<p>Рассмотрим два способа, как нам проверить, случайность ли, что звонки Асланян в среднем длиннее звонков Евтушенко.<\/p>\n<h2>Проверка гипотезы о равенстве среднего. Простой способ<\/h2>\n<p>И в Google Таблицах, и в Microsoft Excel, есть <b>функция ТТЕСТ.<\/b> Воспользуемся ей для анализа наших выборок.<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=ТТЕСТ(B2:B999;C2:C999;2;3)<\/code><\/pre><p>У функции 4 атрибута, идущие через точку с запятой.<\/p>\n<ol start=\"1\">\n<li>Диапазон ячеек, содержащих первую выборку.<\/li>\n<li>Диапазон ячеек, содержащих вторую выборку.<\/li>\n<li>Количество хвостов распределения. Выбираем «2», чтобы проверить наличие различий вообще, и «1», чтобы проверить, звонки Асланян длиннее, а не наоборот.<\/li>\n<li>Тип применения t-критерия. По умолчанию выбираем «3». («2» выбираем если стандартные отклонения очень близки, «1» — если, например, вы сравниваете средний балл <i>одних и тех же учеников<\/i> на начало и конец года попарно.)<\/li>\n<\/ol>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/student03.PNG\" width=\"694\" height=\"429\" alt=\"\" \/>\n<\/div>\n<p>Итак, Т-тест дал вероятность 0,04595, или, округленно, 4,6%.<\/p>\n<p>Что же это за вероятность? В нашем примере это вероятность того, <b>что статистически значимые различия между звонками Асланян и Евтушенко отсутствуют.<\/b> Технически, это вероятность, что наша «нулевая гипотеза» («нет разницы между выборками») была верна, а «альтернативная» («Асланян общается с покупателями дольше Евтушенко») — неверна.<\/p>\n<p>Оставшиеся 95,4% составляют вероятность того, что между выборками есть статистические различия, и «альтернативная гипотеза» о различиях между выборками верна.<\/p>\n<p><b>Вывод: с вероятностью 95,4% Асланян, действительно, в среднем общается с клиентами дольше Евтушенко. (С вероятностью 4,6% статистически значих различий между их звонками нет).<\/b><\/p>\n<h2>Проверка гипотезы о равенстве среднего. Сложный способ<\/h2>\n<p>Сложный способ будет состоит из двух этапов: расчет t-критерия Стьюдента и сравнение полученного значения t-критерия с контрольным.<\/p>\n<p>На первом этапе рассчитаем t-критерий Стьюдента по следующей формуле:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/kriteriy_styudenta.jpg\" width=\"247\" height=\"157\" alt=\"\" \/>\n<\/div>\n<p>X<sub>1<\/sub> и X<sub>2<\/sub> — средняя длина звонков в первой и второй выборке (238,6 сек и 204,1 сек)<br \/>\ns<sub>1<\/sub> и s<sub>2<\/sub> — стандартные отклонения первой и второй выборок в квадрате (их дисперсии, другими словами) (201,2<sup>2<\/sup> и 164,7<sup>2<\/sup> для наших выборок)<br \/>\nn<sub>1<\/sub> и n<sub>2<\/sub> — число звонков в первой и второй выборках (242 и 209 звонков)<\/p>\n<p>Воспользуемся листочком бумаги и калькулятором, или же посчитаем все прямо в Google Таблицах:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/student04.PNG\" width=\"751\" height=\"372\" alt=\"\" \/>\n<\/div>\n<pre class=\"e2-text-code\"><code class=\"\">=(F2-G2)\/КОРЕНЬ(F3^2\/F4+G3^2\/G4)<\/code><\/pre><p>t-Критерий равен 2,0014.<\/p>\n<p>Осталось разобраться, что делать с вычисленным значением нашего t-критерия.<\/p>\n<p>Но перед этим посчитаем число степеней свободы по формуле n<sub>1<\/sub>+n<sub>2<\/sub>-2:<\/p>\n<p>242 + 209 — 2 = 449 степеней свободы<\/p>\n<p>Воспользуемся теперь <a href=\"https:\/\/ru.wikipedia.org\/wiki\/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D0%B8_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0\">таблицей коэффициентов Стьюдента<\/a> из Википедии, найдя строку, соответствующую нашим 449 степеням свободы.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/student05.PNG\" width=\"1302\" height=\"88\" alt=\"\" \/>\n<\/div>\n<p>В нашем случае, строки именно для числа 449 нет, зато несложно заметить, что значения для 100 и 1000 — ближайших подходящих строк — отличаются на сотые доли, поэтому для большого числа степеней свободны подойдет любая строка.<\/p>\n<p>Наше значение 2,0014 находится между 1,9623 и 2,3301: 1,9623 < 2,0014 < 2,3301<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/student05.PNG\" width=\"1302\" height=\"88\" alt=\"\" \/>\n<\/div>\n<p>В шапке таблицы это соответствует 95%-му и 98%-му квантилю распределения Стьюдента, т. е. мы захватили 95%-й квантиль, но не захватили 98%-й:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/student06.PNG\" width=\"1303\" height=\"90\" alt=\"\" \/>\n<\/div>\n<p><b>Если расчетное значение t-критерия Стьюдента больше контрольного, значит, «альтернативная гипотеза» верна с соответствующей вероятностью (95%), и выборки статистически различаются.<\/b><\/p>\n<p>Если бы мы получили значение t-критерия больше, чем 2,3301 (98%), мы бы могли говорить по правильности «альтернативной гипотезы» уже с 98%-й вероятностью. Аналогично, если бы мы получили значение t-критерия меньше, чем 1,9623 (95%), но больше 1,6464 (90%), мы бы говорили о правильности гипотезы на 90%.<\/p>\n<p><b>Вывод: расчетное значение t-критерия Стьюдента 2,0014 соответствует, по меньшей мере, 95% уверенности в том, что между выборками есть статистически значимые различия, и звонки Асланян, действительно, в среднем длиннее звонков Евтушенко.<\/b><\/p>\n<p>Наша «альтернативная гипотеза» получила 95%-ое подтверждение, мы можем быть уверены в результате и принимать решение о дальнейшей работе с полученный информацией.<\/p>\n<h2>Полезные ссылки<\/h2>\n<p><a href=\"http:\/\/www.evanmiller.org\/ab-testing\/t-test.html\">http:\/\/www.evanmiller.org\/ab-testing\/t-test.html<\/a><\/p>\n",
            "date_published": "2019-04-15T11:44:02+03:00",
            "date_modified": "2019-06-15T13:52:59+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/student01.PNG",
            "_date_published_rfc2822": "Mon, 15 Apr 2019 11:44:02 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "5",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css"
                ],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/student01.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/student02.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/student03.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/kriteriy_styudenta.jpg",
                    "https:\/\/mathandcoffee.ru\/pictures\/student04.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/student05.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/student06.PNG"
                ]
            }
        },
        {
            "id": "11",
            "url": "https:\/\/mathandcoffee.ru\/all\/kadrovye-resheniya-ili-povysit-nelzya-uvolit\/",
            "title": "Кадровые решения, или Повысить нельзя уволить",
            "content_html": "<p>Проблему, которую помогает решить использование матстатистики, я бы обозначил как «Повысить нельзя уволить» — вот перед нами результаты работы нашего отдела продаж, и назревают вопросы по нашему новому менеджеру Сухонцеву.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/voronka01.PNG\" width=\"476\" height=\"378\" alt=\"\" \/>\n<\/div>\n<p>У сотрудника подходит к концу испытательный срок, план по сделкам ему был выставлен как «16 сделок на 100 звонков», поскольку исторически коммерческий директор видел конверсию звонков в сделки на уровне 16,1%.<\/p>\n<p>Сухонцев, хорошо зарекомендовав себя за прошедшие 2,5 месяца работы, имеет 89 звонков и всего 9 сделок, что дает конверсию 10,1%.<\/p>\n<p>«Увольнять,» — решает коммерческий директор.<\/p>\n<p><b>Внимание, вопрос: справедливо ли решение коммерческого директора?<\/b> Достаточно ли прошло времени (накоплено данных), чтобы принимать такое кадровое решение? Учтен ли фактор «невезения», и не может ли быть так, что Сухонцев работает <b>не хуже<\/b> остальных менеджеров, имея, в действительности, конверсию порядка требуемых 16%, но стабильно сталкиваясь с форс-мажорами у клиентов (5 клиентов «отвалились»), «черной полосой» в своей жизни и неудачно вставшей Луной в третьем доме Тельца?<\/p>\n<h2>Бросаем игральные кости<\/h2>\n<p>Вспоминая пример с бросками монетки, для разнообразия, в этот раз будем бросать игральную кость с 6-ю гранями. Вероятность выкинуть «1» составляет 1\/6, или примерно 16,7%.<\/p>\n<p>Математическое ожидание для 89 бросков игральной кости составляет 89 * 1\/6 = 14,8 «единичек» (и по столько же «двоек», «троек» и т. д.), но, очевидно, их может быть не только 14-15, но и 12, 17, или, даже, 20. А вот <i>совсем их не быть<\/i> практически не может (хотя, теоретически, вероятность этого не нулевая).<\/p>\n<p>Работу Сухонцева можно представить как броски игральной кости, где требуемый результат — «единичка»-сделка —  выпадает примерно на каждый шестой бросок. <i>Примерно,<\/i> потому что исторически наблюдаемся конверсия в сделки составляет (без учета работы Сухонцева) 380 сделок на 2361 звонков, или 380\/2361 = 16,1%. Математическое ожидание от его 89 «бросков» (звонков) составляет 89 * 0,161 = 14,3 «единичек» (сделок), но, интуитивно понятно, что их может быть чуть больше или чуть меньше.<\/p>\n<p>Если рассчитать (позже узнаем, как) точные вероятности «выпадения» определенного числа сделок на 89 звонков и вывести их на графике, то наиболее вероятное событие <i>(«математическое ожидание»)<\/i> в 14 сделок окажется в середине графика, остальные возможные варианты (13 и 15 сделок, 12 и 16 сделок, и т. п.) каждый раз становятся все менее и менее вероятны, из-за чего график приобретает форму колокола:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/voronka02.PNG\" width=\"740\" height=\"220\" alt=\"\" \/>\n<\/div>\n<p>Сказать, что результат в 9 сделок <i>совсем<\/i> невероятен не получается — какой-никакой, но этот столбик тоже заметен, и даже имеет вероятность в 0,037. Т. е., в 1 случае из 27 он случается, что, может, и маловероятно, но не <i>крайне<\/i> маловероятно.<\/p>\n<p>Осталось разобраться, как мы получили вероятность «в 1 случае из 27», и как это связать с кадровыми решениями в отделе продаж.<\/p>\n<h2>Считаем биномиальное распределение<\/h2>\n<p>И в Excel, и в Google Таблицах есть встроенная <b>функция биномиального распределения.<\/b> Она-то и даст нам ответ на вопрос, пора ли увольнять невезучего Сухонцева.<\/p>\n<p>В ячейке напротив его конверсии в 10,1% посчитаем функцию:<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=БИНОМРАСП(D7;C7;$E$11;1)<\/code><\/pre><div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/voronka03.PNG\" width=\"682\" height=\"376\" alt=\"\" \/>\n<\/div>\n<p>В данной функции указываем по порядку: значение числа успехов (сделок), значение числа попыток (звонков), значение вероятности успеха (конверсия 16,1%). Последний, 4-й параметр, указываем «1».<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/voronka04.PNG\" width=\"577\" height=\"351\" alt=\"\" \/>\n<\/div>\n<p>Что за 0,0763 мы получили? <b>0,0763 — это вероятность получить не более 9 сделок на 89 звонков при вероятности сделки 16,1%.<\/b> Таким образом, это вероятность получить от 0 до 9 сделок <i>включительно<\/i> при данных параметрах. Обратно, 1-0,0763 = 0,9237 — это вероятность получить <i>10 и более<\/i> сделок.<\/p>\n<p>(Кстати, если 4-й параметр в функции поменять на «0», мы получим вероятность получить <b>ровно<\/b> 9 сделок).<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/voronka05.PNG\" width=\"742\" height=\"223\" alt=\"\" \/>\n<\/div>\n<p>Можно сказать, что, принимая сумму всех столбиков на графике за 1, сумма столбиков «0»-«9» равна 0,0763, или 7,63%. Как видим, гораздо более вероятно попасть в синюю часть колокола нормального распределения, чем в красную (92,37% против 7,63%).<\/p>\n<p><b>Вывод: вероятность Сухонцеву, работая в действительности с конверсией 16,1%, случайно (возможна «черная полоса», помните?) получить не более 9 сделок из 89 звонков, равна 7,63%.<\/b> Обратно, 92,37% вероятность того, что Сухонцев получил бы 10 и более сделок. Грубо говоря, 7,63% за то, что ему не повезло, а 92,37% за то, что одним невезением тут не обошлось, и, скорее всего, он работает с конверсией ниже 16,1%.<\/p>\n<p>Таким образом, если для коммерческого директора уровня 90% уверенности достаточно, то Сухонцева можно увольнять с испытательного срока — менеджер, действительно, не выполняет план. Если же нужен уровень 95% уверенности, то данных пока недостаточно, и желательно понаблюдать чуть дальше.<\/p>\n<p>Какой же уровень уверенности выбрать? Правильного ответа здесь не существует.<\/p>\n<p>Если его выбрать слишком низким, то мы можем случайно уволить хороших менеджеров, зато не придется терять сделки, продолжая работать с плохими.<\/p>\n<p>Если выбрать его слишком высоким, то слишком долго придется копить данные для принятия математически обоснованного решения об увольнении плохого менеджера, зато и меньше вероятность случайно уволить хорошего. По моему мнению, уровень 90% для описанного кейса оптимален. Сухонцева можно увольнять.<\/p>\n<h2>Постойте, а что с 19,7% Беляева?<\/h2>\n<p>Действительно, если существуют «плохие» менеджеры, для которых с вероятностью 92,37% конверсия ниже требуемых 16,1%, то, логично, могут существовать и «хорошие».<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/voronka06.PNG\" width=\"682\" height=\"367\" alt=\"\" \/>\n<\/div>\n<p>Наше внимание обратили на себя 19,7% конверсии Беляева. За полгода работы он сделал 56 сделок на 284 звонка, при прогнозируемых 0,161*284 = 46 сделках. Могло ли ему везти эти полгода? Могло ли быть так, что, работая в действительности как все, с конверсией 16,1%, он случайно получил больше сделок, чем прогнозировал коммерческий директор?<\/p>\n<p>Функция биномиального распределения дает результат в 0,9563 — то есть, с вероятностью 95,63%, работая как все, он бы получил не более 56 сделок... но он и не сделал <i>более<\/i> 56 сделок! Он сделал <i>ровно<\/i> 56!<\/p>\n<p>Доработаем функцию, пересчитав ее для 56-1 = 55 сделок:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/voronka07.PNG\" width=\"712\" height=\"358\" alt=\"\" \/>\n<\/div>\n<p>Для 55 сделок результат получился 0,9402. То есть, с вероятностью 94,02% Беляев (работая с конверсией 16,1%) получил бы <i>не более<\/i> 55 сделок. Получается, вероятность получить <i>более<\/i> 55 сделок равна оставшимся 5,98%! Получается, наш Беляев попал в кусочек своего колокола распределения, только с другого конца, и вероятность попасть туда составляет всего около 6%.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/voronka08.PNG\" width=\"742\" height=\"217\" alt=\"\" \/>\n<\/div>\n<p>Коммерческий директор уже решил, что, прежде чем принимать кадровые решения, он хочет быть уверен в результатах на 90%. Но в результатах Беляева он уверен на 94,02%! Значит, остается всего 5,98% на то, что Беляеву повезло.<\/p>\n<p>Значит, либо ему так повезло, хотя он, в действительности, работает как все (с конверсией 16,1%) и недостоин большей зарплаты, либо, он работает с конверсией выше 16,1% и будет справедливо вознаградить его.<\/p>\n<p>6% явно проигрывают 94%, поэтому, Беляев получает повышение.<\/p>\n",
            "date_published": "2019-03-29T18:03:34+03:00",
            "date_modified": "2019-04-15T13:07:08+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/voronka01.PNG",
            "_date_published_rfc2822": "Fri, 29 Mar 2019 18:03:34 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "11",
            "_e2_data": {
                "is_favourite": true,
                "links_required": [
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css"
                ],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/voronka01.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/voronka02.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/voronka03.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/voronka04.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/voronka05.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/voronka06.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/voronka07.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/voronka08.PNG"
                ]
            }
        }
    ],
    "_e2_version": 3565,
    "_e2_ua_string": "E2 (v3565; Aegea)"
}