{ "version": "https:\/\/jsonfeed.org\/version\/1", "title": "Математика и кофе: заметки с тегом статистика", "_rss_description": "Отделы продаж, коллцентры, аналитика, цифры и данные, воронки продаж, матстатистика..", "_rss_language": "ru", "_itunes_email": "", "_itunes_categories_xml": "", "_itunes_image": "", "_itunes_explicit": "", "home_page_url": "https:\/\/mathandcoffee.ru\/tags\/statistika\/", "feed_url": "https:\/\/mathandcoffee.ru\/tags\/statistika\/json\/", "icon": "https:\/\/mathandcoffee.ru\/user\/userpic@2x.jpg?1559386410", "author": { "name": "Иван Балдин", "url": "https:\/\/mathandcoffee.ru\/", "avatar": "https:\/\/mathandcoffee.ru\/user\/userpic@2x.jpg?1559386410" }, "items": [ { "id": "45", "url": "https:\/\/mathandcoffee.ru\/all\/grafik-konversii-s-doveritelnym-intervalom\/", "title": "График конверсии с доверительным интервалом", "content_html": "

Некоторое время с удовольствием использую более свежую визуализацию конверсии, добавляя к своим диаграммам границы доверительного интервала.<\/b><\/p>\n

Конверсия офисов продаж<\/h2>\n
Итак, например, мы оцениваем эффективность работы территориальных офисов продаж. Под эффективностью<\/i><\/b> понимаем отношение числа совершенных продаж к числу заявок (конверсию заявок в продажи, или просто «конверсию»).<\/i><\/b> То есть, если в офисе «Сокольники» за квартал было 19 продаж на 33 заявки, их эффективность будем считать равной 19\/33 = 57,6%.<\/p>\n
\n $\"\"$ \n<\/div>\n
\n $\"\"$ \n<\/div>\n
Очевидно, что одни офисы работают эффективнее других: конверсия по офисам меняется от 57,6% до 17,6%. Заметно также, что и число заявок в офисах различно: от 33 заявок в «Сокольниках» до 706 заявок в «Лианозово».<\/p>\n
Обычно на этом этапе многие останавливаются, но есть несложный способ воспользоваться понятием «доверительного интервала» или «стандартного отклонения (SD)», чтобы показать то, что, на первый взгляд, не так заметно.<\/p>\n
Оцениваем размер выборки и величину SD<\/h2>\n
Как нетрудно заметить, из-за неравного числа заявок по разным офисам («Сокольники» отличаются в этом смысле от «Лианозово» почти в 22 раза), уверенность в надежности рассчитанной конверсии будет не одинакова. Так, для «Лианозово» результат в 36,1% достигнут на выборке из 706 заявок и может считаться вполне надежным; в «Сокольниках» мы получили результат 57,6% на небольшой выборке в 33 заявки, из-за чего нет уверенности, что, получи со временем последние свои 706 заявок, они бы удержали результат на том же уровне.<\/p>\n
Разумеется, необходимо прикинуть размер доверительного интервала для каждого офиса продаж, исходя из числа заявок, то есть, размера выборки.<\/p>\n
Уже знакомая нам формула стандартного отклонения (SD), или σ<\/i>:<\/p>\n
\n $\"\"$ \n<\/div>\n
где p<\/i> — величина конверсии, n<\/i> — число заявок.<\/p>\n
Считаем в колонке E:<\/p>\n
\n $\"\"$ \n<\/div>\n
Полученная величина стандартного отклонения (SD) показывает погрешность при расчете конверсии, и, очевидно, оказалась выше там, где была меньше выборка. Чем меньше данных, тем менее надежен рассчитанный результат, и тем меньше мы уверены в нашей оценке эффективности соответствующего офиса продаж.<\/p>\n
Считаем границы 90%-го доверительного интервала<\/h2>\n
Дополним нашу таблицу рассчитанными нижней и верхней границей 90%-го доверительного интервала. Другими словами, оценим разброс конверсий по каждому из офисов продаж, так, что с вероятностью 90% мы будем уверены, что истинная<\/i> конверсия лежит в пределах этого диапазона.<\/p>\n
\n $\"\"$ \n<\/div>\n
Зная о том, что границы 90%-го доверительного интервала лежат в пределах ±1,645SD, вычитаем и прибавляем 1,645SD для нижней и верхней границ, соответственно. Для «Лианозово» получаем, что их истинная<\/i> конверсия лежит в пределах от 33,1% до 39,1%. (По-прежнему, в 1 случае из 10 она выходит за границы нашего интервала, но зато в 9 случаях из 10 мы не ошиблись).<\/p>\n
Дополняем график, рисуя «свечи»<\/h2>\n
В Excel 2013 воспользуемся «биржевой диаграммой»,<\/b> указав вместо самого высокого<\/i><\/b> и самого низкого курсов<\/i><\/b> верхнюю и нижнюю границу наших доверительных интервалов, а вместо курса закрытия<\/i><\/b> — рассчитанную вначале конверсию:<\/p>\n
\n $\"\"$ \n<\/div>\n
\n $\"\"$ \n<\/div>\n
Доработанная подобным образом диаграмма не меняет выводов, полученных в самом начале. Однако, для наблюдательного руководителя она ненавязчиво напоминает, что полученные значения конверсий офисов продаж не конечны,<\/b> и особенно «не конечны» там, где оказались шире границы разброса конверсии.<\/p>\n
«Сокольники», предварительно, обогнали «Беговой», однако, если хороший результат «Бегового» надежен за счет узкого интервала, то результат «Сокольников» очень приблизителен, поэтому уверенные выводы возможно делать лишь о части офисов продаж, для остальных — нужно больше данных, а до тех пор их позиции в рейтинге можно считать лишь предварительными, или, как было сказано выше, не конечными.<\/p>\n
См. также:<\/h2>\n
http:\/\/italylov.ru\/blog\/all\/ctatisticheskaya-dostovernost-koltrekinga\/<\/a><\/p>\n", "date_published": "2021-05-25T01:13:50+03:00", "date_modified": "2021-05-25T01:17:18+03:00", "image": "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-00.png", "_date_published_rfc2822": "Tue, 25 May 2021 01:13:50 +0300", "_rss_guid_is_permalink": "false", "_rss_guid": "45", "_e2_data": { "is_favourite": false, "links_required": [], "og_images": [ "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-00.png", "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-01.png", "https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn.png", "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-02.png", "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-03.png", "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-04.png", "https:\/\/mathandcoffee.ru\/pictures\/candles-sd-05.png" ] } }, { "id": "41", "url": "https:\/\/mathandcoffee.ru\/all\/normalnoe-raspredelenie\/", "title": "Нормальное распределение", "content_html": "
Нормальное распределение<\/h2>\n
\n $\"\"$ \n<\/div>\n
\n\n\n\n\n
Количество SD<\/b><\/td>\n -3,000<\/b><\/td>\n -2,576<\/b><\/td>\n -2,000<\/b><\/td>\n -1,960<\/b><\/td>\n -1,645<\/b><\/td>\n -1,282<\/b><\/td>\n 1,282<\/b><\/td>\n 1,645<\/b><\/td>\n 1,960<\/b><\/td>\n 2,000<\/b><\/td>\n 2,576<\/b><\/td>\n 3,000<\/b><\/td>\n<\/tr>\n
Вероятность накопленным итогом<\/b><\/td>\n 0,0013<\/td>\n 0,0050<\/td>\n 0,0228<\/td>\n 0,0250<\/td>\n 0,0500<\/td>\n 0,1000<\/td>\n 0,9000<\/td>\n 0,9500<\/td>\n 0,9750<\/td>\n 0,9772<\/td>\n 0,9950<\/td>\n 0,9987<\/td>\n<\/tr>\n
Вероятность в границах +\/- стольких SD<\/b><\/td>\n -0,9973<\/td>\n -0,9900<\/td>\n -0,9545<\/td>\n -0,9500<\/td>\n -0,9000<\/td>\n -0,8000<\/td>\n 0,8000<\/td>\n 0,9000<\/td>\n 0,9500<\/td>\n 0,9545<\/td>\n 0,9900<\/td>\n 0,9973<\/td>\n<\/tr>\n<\/table>\n<\/div>\n
График и данные<\/a> в Google Таблицах<\/p>\n", "date_published": "2020-04-05T15:06:07+03:00", "date_modified": "2020-04-05T14:13:50+03:00", "image": "https:\/\/mathandcoffee.ru\/pictures\/normal00.png", "_date_published_rfc2822": "Sun, 05 Apr 2020 15:06:07 +0300", "_rss_guid_is_permalink": "false", "_rss_guid": "41", "_e2_data": { "is_favourite": true, "links_required": [], "og_images": [ "https:\/\/mathandcoffee.ru\/pictures\/normal00.png" ] } }, { "id": "40", "url": "https:\/\/mathandcoffee.ru\/all\/doveritelny-interval-binomialnogo-raspredeleniya-po-metodu-uilso\/", "title": "Доверительный интервал биномиального распределения по методу Уилсона", "content_html": "
В процессе изучения биномиального распределения, обратил внимание, что стандартный способ определения доверительного интервала через ±1,645SD<\/i> не всегда точен. Грубо говоря, если «решка» выпала меньше, чем в 10 бросках, то, скорее всего, либо вы сделали мало бросков, либо у вас вероятность выпадения «решки» в «заколдованной монетке» сильно невелика; если np<\/i> < 10, лучше воспользоваться более сложными формулами, дающими более точные оценки при маленьких p<\/i> или n:<\/i><\/p>\n
По мнению многих статистиков, наиболее оптимальную оценку доверительных интервалов для частот осуществляет метод Уилсона (Wilson),<\/b> предложенный еще в 1927 году <...>. Данный метод не только позволяет оценить доверительные интервалы для очень малых и очень больших частот, но и применим для малого числа наблюдений.<\/i><\/p>\n
Звучит заманчиво. Попробуем разобраться.<\/p>\n
Метод Уилсона<\/h2>\n
Нижняя и верхняя граница доверительного интервала p = 1—α\/2<\/i> вычисляются следующими формулами:<\/p>\n
\n
\n $\"\"$ \n $\"\"$ \n<\/div>\n
Формула расчета нижней и верхней границ, соответственно.<\/div>\n<\/div>\n
где p<\/b><\/i> — наблюдаемая вероятность «выпадения решки», N<\/b><\/i> — число измерений («бросков»), z<\/b><\/i> — z-<\/i>оценка (например, 1,960 для 95%-го доверительного интервала, или 1,645 для 90%-го).<\/p>\n
Пример и калькулятор для расчета<\/h2>\n
Предположим, нам удалось прослушать 10 рандомных звонков колл-центра, и в 4 из них оператор забыл или поленился уточнить у клиента источник рекламы. Скорее всего, исходя из данной информации, операторы не уточняют источники рекламы в 40% звонков.<\/p>\n
Однако, это очень смелое утверждение, ведь наша выборка (10 звонков) откровенно мала: для получения более точной оценки качества работы коллцентра, хорошо бы прослушать больше рандомных звонков (прослушать все звонки, очевидно, невозможно).<\/p>\n
Но даже для выборки из 10 звонков, можно рассчитать SD биномиального распределения:<\/p>\n
\n $\"\"$ \n<\/div>\n
Имеем, SD = 15,49%. С вероятностью 90%, точная оценка качества работы коллцентра (доля звонков, где не выявлен источник рекламы) лежит в диапазоне 40%±1,645SD, или от 14,52% до 65,48%.<\/p>\n
Применяя же формулу Уилсона (что уместно, так как np<\/i> = 4 < 10), границы доверительного интервала уточняются: с вероятностью 90%, истинная доля звонков, где не выявляется источник рекламы, лежит в границах от 19,42% до 64,84%. SD, получается, равно 13,80%.<\/p>\n
Калькулятор<\/b><\/a> в Google Таблицах (меню «Файл» — «Создать копию»).<\/p>\n
См. также:<\/h2>\n«Доверительные интервалы для частот и долей<\/a>», А.М. Гржибовский, 2008 (стр. 58-59)
\n Онлайн-калькулятор<\/a> для 95%-го доверительного интервала
\n Калькулятор<\/a> на WolframAlpha.com
\n Binomial confidence intervals and contingency tests<\/a> (стр.4-5)
\n https:\/\/influentialpoints.com\/Training\/confidence_intervals_of_proportions.htm#wils<\/a>
\n Wilson score interval<\/a> на Википедии<\/p>\n", "date_published": "2020-04-01T16:54:50+03:00", "date_modified": "2020-04-01T16:55:04+03:00", "image": "https:\/\/mathandcoffee.ru\/pictures\/wilson01.PNG", "_date_published_rfc2822": "Wed, 01 Apr 2020 16:54:50 +0300", "_rss_guid_is_permalink": "false", "_rss_guid": "40", "_e2_data": { "is_favourite": false, "links_required": [ "system\/library\/jquery\/jquery.js", "system\/library\/fotorama\/fotorama.css", "system\/library\/fotorama\/fotorama.js" ], "og_images": [ "https:\/\/mathandcoffee.ru\/pictures\/wilson01.PNG", "https:\/\/mathandcoffee.ru\/pictures\/wilson02.PNG", "https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn.png" ] } }, { "id": "36", "url": "https:\/\/mathandcoffee.ru\/all\/tri-urovnya-ponimaniya-vyborki\/", "title": "Три уровня понимания выборки", "content_html": "
В последнее время много размышлял о том, как, с точки зрения статистики, можно кратко оценить или описать любую совокупность или выборку. Пришел к выводу, что, глобально, существует 3 уровня понимания выборки.<\/b><\/p>\n
Пруд с золотыми рыбками<\/h2>\n
Для примера, возьмем мой любимый пруд с золотыми рыбками. Вот такой:<\/p>\n
\n $\"\"$ \n
100 золотых рыбок. (На самом деле, рыбок-клоунов, но не важно.)<\/div>\n<\/div>\n
Предположим, мы знаем вес каждой рыбки в граммах (или длину в миллиметрах, не имеет значения в данном случае):<\/p>\n
\n\n\n\n\n\n\n\n\n\n\n\n
96,83<\/td>\n 100,84<\/td>\n 97,59<\/td>\n 135,46<\/td>\n 89,32<\/td>\n 25,72<\/td>\n 71,5<\/td>\n 28,7<\/td>\n 100,47<\/td>\n 96,08<\/td>\n<\/tr>\n
75,74<\/td>\n 90,22<\/td>\n 64,58<\/td>\n 101,55<\/td>\n 43,38<\/td>\n 109,91<\/td>\n 83,22<\/td>\n 115,43<\/td>\n 118,84<\/td>\n 56,39<\/td>\n<\/tr>\n
99,43<\/td>\n 67,46<\/td>\n 99,19<\/td>\n 86,85<\/td>\n 53,01<\/td>\n 123,29<\/td>\n 95,37<\/td>\n 67,57<\/td>\n 123,89<\/td>\n 98,91<\/td>\n<\/tr>\n
101,96<\/td>\n 157,56<\/td>\n 139,5<\/td>\n 89,64<\/td>\n 92,31<\/td>\n 175,05<\/td>\n 92,29<\/td>\n 124,63<\/td>\n 81,35<\/td>\n 107,43<\/td>\n<\/tr>\n
86,47<\/td>\n 110,03<\/td>\n 144,89<\/td>\n 105,25<\/td>\n 137,14<\/td>\n 76,28<\/td>\n 102,96<\/td>\n 101,95<\/td>\n 90,88<\/td>\n 69,02<\/td>\n<\/tr>\n
96,76<\/td>\n 110,17<\/td>\n 118,66<\/td>\n 100,5<\/td>\n 109,23<\/td>\n 40,66<\/td>\n 104,43<\/td>\n 113,17<\/td>\n 101,9<\/td>\n 66,76<\/td>\n<\/tr>\n
107,59<\/td>\n 141,11<\/td>\n 71,43<\/td>\n 95,73<\/td>\n 52,26<\/td>\n 70,67<\/td>\n 70,97<\/td>\n 103,66<\/td>\n 135,65<\/td>\n 144,62<\/td>\n<\/tr>\n
150,26<\/td>\n 130,69<\/td>\n 81,31<\/td>\n 163,39<\/td>\n 74,22<\/td>\n 83,43<\/td>\n 122,14<\/td>\n 122,61<\/td>\n 137,46<\/td>\n 53,94<\/td>\n<\/tr>\n
29,25<\/td>\n 90,83<\/td>\n 119,56<\/td>\n 99,3<\/td>\n 34,53<\/td>\n 74,02<\/td>\n 120,04<\/td>\n 129,32<\/td>\n 124,2<\/td>\n 83,37<\/td>\n<\/tr>\n
109,94<\/td>\n 70,41<\/td>\n 107,63<\/td>\n 107,79<\/td>\n 52,74<\/td>\n 79,36<\/td>\n 80,28<\/td>\n 72,16<\/td>\n 142,41<\/td>\n 64,53<\/td>\n<\/tr>\n<\/table>\n<\/div>\n
Имея такую выборку, что мы можем сказать о наших рыбках в общем? Как кратко описать множество этих рыбок так, чтобы стало немного понятнее, с чем мы имеем дело с точки зрения статистки?<\/b><\/p>\n
1-й уровень понимания. Среднее значение.<\/h2>\n
Проще всего было бы рассчитать среднее значение<\/i><\/b> веса рыбок — в нашем случае получилось бы 96,70 г. Тогда, на первом, самом базовом уровне понимания, мы бы сказали:<\/p>\n
— В нашем пруду водятся золотые рыбки. Их средний вес равен 96,70 г.<\/i><\/b><\/p>\n
Верное ли утверждение? Верное. Действительно, несмотря на то, что попадаются и рыбки весом 26 г, и рыбки весом 175 г, средний вес рыбок равен 96,7 г.<\/p>\n
Достаточно ли данной информации? Как минимум, ее достаточно, чтобы представить множество из ста рыбок по 96,7 г каждая, и, приблизительно, это дает понимание о качестве рыбок в нашем пруду. Вооружившись удочкой, мы бы шли ловить таких рыбок.<\/p>\n
Однако, этого будет недостаточно, чтобы понять, например, как сильно рыбки различаются между собой. Потому что случайно выловленная рыбка может весить гораздо меньше, чем 96,7 г. И тут мы подошли бы к следующему, более углубленному, уровню понимания.<\/p>\n
2-й уровень понимания. Стандартное отклонение.<\/h2>\n
Чуть более образованный человек не удовлетворился бы информацией о том, что средний вес рыбок равен 96,7 г. Он обязательно пошутил бы про «среднюю температуру по больнице» и уточнил бы, а как сильно различаются рыбки по размеру между собой?<\/b><\/p>\n
Такое различие называлось бы стандартным отклонением<\/i><\/b> (или дисперсией). Оно описывало бы величину отклонения веса случайной рыбки от среднего веса всех рыбок.<\/p>\n
Проведя несложные вычисления, мы бы узнали, что, в среднем, вес случайной рыбки отклоняется от веса средней рыбки на 30,4 г. Стандартное отклонение (SD) равно 30,4 г.<\/p>\n
И здесь, мы бы уточнили свое первоначальное утверждение:<\/p>\n
— В нашем пруду водятся золотые рыбки. Их средний размер (вес) равен 96,70 г, SD=30,4 г.<\/i><\/b><\/p>\n
Теперь случайный рыбак не просто идет ловить рыбок весом 96,7 г, а отдает себе отчет в том, что, в среднем, вес выловленных рыбок будет на 30,4 г больше или меньше среднего веса. Наш рыбак теперь морально готов к тому, что ему может попасться как маленькая, так и большая рыбка.<\/p>\n
А, если наш рыбак еще и математик, то он прикинет, что, предполагая, что вес рыбок подчиняется закону нормального распределения (а огромное число вещей и явлений в природе и мире распределены нормально<\/i>), он будет ожидать, что 68% выловленных рыбок будет иметь вес плюс-минус 30,4 г от среднего 96,7 г, или от 66,3 г до 127,1 г.<\/p>\n
И, если наш рыбак-математик с первой попытки поймает рыбку весом, например, 146,7 г (что будет отличаться от среднего веса на 50,0 г, или 1,645SD), он будет знать, что так везет лишь одному рыбаку из двадцати, потому что лишь 5% рыбок в пруду имеют вес более 146,7 г, согласно закону нормального распределения.<\/p>\n
Единственная проблема заключается в том, что далеко не все в жизни сводится к примеру с рыбками, или к нормальному распределению. Так как речь может идти о генеральных совокупностях, распределенных не нормально,<\/i> а как-то иначе.<\/p>\n
И тут нам придется нырнуть, вслед за рыбками, к третьему, самому глубокому, уровню понимания.<\/p>\n
3-й уровень понимания. Гистограмма распределения.<\/h2>\n
Чтобы понять, как распределена совокупность наших рыбок, лучше всего было бы «увидеть» всю картину в виде гистограммы распределения.<\/b><\/i> Поскольку далеко не всегда мы будем иметь дело с нормальным распределением, одно лишь знание о размере стандартного отклонения и степени разброса значений в нашей выборке не даст нам полного понимания и осознания нашей совокупности.<\/p>\n
Распределив имеющиеся 100 значений веса рыбок по диапазонам от 20 до 180 г с шагом в 20 г, мы бы увидели следующую картину:<\/p>\n
\n $\"\"$ \n<\/div>\n
Только теперь мы получили полную картину того, какие рыбки плавают в нашем пруду. Мы словно разом прочувстовали, с чем имеем дело, увидели, насколько маловероятно выловить рыбку весом, например, больше 160 г, убедились, что вероятности встретить больших или маленьких рыбок одинаковы, а узнаваемая колоколообразная форма графика однозначно подсказала, что вес рыбок подчиняется нормальному распределению.<\/p>\n
How much is the fish?<\/h2>\n
Мы идем на рыбалку, вооружившись полной картиной того, с чем имеем дело.<\/p>\n
На первом уровне, уточнили средний вес рыбок.
\nНа втором уровне, уточнили средний вес и его стандартное отклонение.
\nНа третьем уровне, нарисовали гистограмму веса рыбок, чтобы разом увидеть портрет всех рыбок в пруду.<\/p>\n", "date_published": "2020-01-26T12:54:32+03:00", "date_modified": "2020-01-26T12:54:27+03:00", "image": "https:\/\/mathandcoffee.ru\/pictures\/100_fish.png", "_date_published_rfc2822": "Sun, 26 Jan 2020 12:54:32 +0300", "_rss_guid_is_permalink": "false", "_rss_guid": "36", "_e2_data": { "is_favourite": false, "links_required": [], "og_images": [ "https:\/\/mathandcoffee.ru\/pictures\/100_fish.png", "https:\/\/mathandcoffee.ru\/pictures\/3_levels_fish_02.png" ] } }, { "id": "16", "url": "https:\/\/mathandcoffee.ru\/all\/prodvinuty-sposob-rascheta-reytingov\/", "title": "Продвинутый способ расчета рейтингов", "content_html": "
Крайне любопытная статья на сайте EvanMiller.org, «Ranking Items With Star Ratings<\/u>»<\/a>, предлагает продвинутый способ расчета рейтингов,<\/b> например, по пятибалльной шкале.<\/p>\n
(Вообще, судя по интонации автора, история с рейтингами и методиками их расчета не так проста, как может показаться, и он неоднократно к ней возвращается<\/a>.)<\/p>\n
Из того, что удалось понять: во-первых, расчет среднего рейтинга<\/b> не всегда позволяет однозначно определить место объекта относительно остальных объектов — например, средние рейтинги могут, банально, совпадать. Во-вторых, средний рейтинг не учитывает количество голосов, ведь по идее, чем больше голосов участвует в расчете рейтинга, тем надежнее этот рейтинг.<\/p>\n
Простой пример — оценки двух сотрудников:<\/p>\n
Осипов — 5, 5, 5, 5, 5, 2, 2, 2, 2, 2. Среднее = 3,50.<\/b>
\nСухонцев — 4, 4, 3, 3. Среднее = 3,50.<\/b><\/p>\n
Неразрешимая, на первый взгляд, ситуация решается методами байесовской статистики<\/a> (что бы конкретно это здесь ни значило), вуаля:<\/p>\n
Осипов — 2,72.<\/b>
\nСухонцев — 2,63.<\/b><\/p>\n
Чудесным образом то ли меньшее среднеквадратичное отклонение (0,58 против 1,58), то ли меньшее количество оценок (4 против 10), то ли все они вместе уточнили<\/b> средний рейтинг Сухонцева, отдав ему предпочтение в несколько сотых.<\/p>\n
Формула продвинутого расчета среднего рейтинга<\/h2>\n
Приготовьтесь, будет немного больно.<\/p>\n
Итак, предполагается<\/a>, что у нас есть K<\/b><\/i> возможных оценок, считаемых по k,<\/b><\/i> каждая оценка стоит s_{k<\/sub><\/b><\/i> баллов («1» — это 1 балл, «2» — это 2 балла и т. д.). Имея N<\/b><\/i> полученных оценок для каждого объекта, по n_{k<\/sub><\/b><\/i> оценок для каждого k,<\/b><\/i> можно посчитать рейтинг каждого объекта по формуле:<\/p>\n}}
\n $\"\"$ \n<\/div>\n
Где z_{α\/2<\/sub><\/b><\/i> это 1−α\/2<\/b><\/i> квантиль нормального распределения. Посчитанный рейтинг является нижней границей нормальной аппроксимации байесова доверительного интервала для среднего рейтинга. Принимая, например, α=0,10 (z=1,65), рассчитанный рейтинг S<\/b><\/i> будет означать, что в 95% случаев средний рейтинг объекта будет выше S<\/b><\/i>.<\/p>\n}
Упрощая, «продвинутый» расчет среднего рейтинга позволяет дать прогноз возможной средней оценки, рассчитываемой традиционным путем. Ну и, следовательно, как показано выше, ранжировать объекты даже при формально одинаковой средней оценке.<\/p>\n
Пример расчета продвинутого среднего рейтинга<\/h2>\n
Вооружившись 2000 оценок по пятибалльной шкале условных территориальных офисов продаж, я посчитал средний рейтинг каждого офиса обычным и «продвинутым» способом.<\/p>\n
\n
\n $\"\"$ \n $\"\"$ \n<\/div>\n
Среднее 1.0 — средний рейтинг обычный, Среднее 2.0 — средний рейтинг продвинутый.<\/div>\n<\/div>\n
«Таганский» упал со 2-го на 4-е место по всей видимости, из-за того, что выборка в 66 оценок не дает достаточной уверенности в том, что его средний рейтинг действительно настолько высок, и в 90% случаев его рейтинг прогнозируется выше всего лишь 4,55, что примерно соответствует 4-му месту.<\/p>\n
«Академический» формально был на 13-м месте, но, благодаря надежным 249 оценкам, для него прогнозируется, в 90% случаев, средний рейтинг не ниже 4,4, что поднимает его до 10-го места.<\/p>\n
У меня сложилось ощущение, что формула более убедительно работает для коротких шкал оценок, как «от 1 до 5» в приведенном примере.<\/p>\n
В любом случае, делюсь файлом в Google Таблицах<\/a> — по идее, он считает рейтинги для всех шкал «длиной» до 100 оценок включительно, позволяет импортировать до 10 000 строк с оценками и корректировать уровень достоверности (90% в нашем примере).<\/p>\n
Cм. также<\/h2>\n
https:\/\/www.evanmiller.org\/ranking-items-with-star-ratings.html<\/a><\/p>\n
Продвинутый способ расчета рейтинга<\/a> в Google Таблицах<\/p>\n", "date_published": "2019-09-21T15:59:00+03:00", "date_modified": "2019-09-21T16:01:59+03:00", "image": "https:\/\/mathandcoffee.ru\/pictures\/ratings00.PNG", "_date_published_rfc2822": "Sat, 21 Sep 2019 15:59:00 +0300", "_rss_guid_is_permalink": "false", "_rss_guid": "16", "_e2_data": { "is_favourite": false, "links_required": [ "system\/library\/jquery\/jquery.js", "system\/library\/fotorama\/fotorama.css", "system\/library\/fotorama\/fotorama.js" ], "og_images": [ "https:\/\/mathandcoffee.ru\/pictures\/ratings00.PNG", "https:\/\/mathandcoffee.ru\/pictures\/ratings01.PNG", "https:\/\/mathandcoffee.ru\/pictures\/ratings02.PNG" ] } }, { "id": "31", "url": "https:\/\/mathandcoffee.ru\/all\/4-smski-za-4-smski-protiv\/", "title": "4 смски «за», 4 смски «против»", "content_html": "
Недавно слушал «Вести ФМ», где обсуждались итоги единого дня голосования 8 сентября<\/a>.<\/p>\n
\n $\"\"$ \n<\/div>\n
Меня заинтересовала следующая реплика ведущего, с 01:45:05<\/a>:<\/p>\n
\n
Кстати, вот, слушатели из того же Хабаровского края пишут и, примерно, по количеству смсок делятся «50 на 50». 50% считают, что они позитивный выбор совершили, а 50% считают, что стало хуже, и это был негативный выбор. Это, понятно, не социологическое исследование. Ну, вот, просто я вижу десяток, восемь, где-то, смсок, и они примерно пополам делятся. Тоже любопытно.<\/i><\/p>\n<\/blockquote>\n
К чести ведущего, абсолютно корректное замечание-«дисклеймер», что это не «социологическое исследование». И все же, что можно сказать о том, как, в реальности,<\/i> делятся голоса, если у вас в наличии только 4 смски «за» и 4 смски «против»? Насколько соотношение «50 на 50», полученное на выборке в 8 смсок, подтверждает ровно то же самое распределение голосов в генеральной совокупности?<\/i><\/p>\n
Считаем в Гугл Таблицах<\/h2>\n
Быстро воспроизводим эксперимент в Гугл Таблицах:<\/p>\n
\n $\"\"$ \n<\/div>\n
Итак, в тот день 4 человека прислали смски «за», 4 человека прислали смски «против». Логично предположить, что день на день не приходится, и сегодня это были одни слушатели, завтра смски будут присылать другие слушатели, и соотношение сил может быть «3 к 5», «5 к 3», «2 к 6» или «7 к 1» — любое сочетание теоретически возможно. Однако, если мы предполагаем, что взгляды аудитории делятся поровну, то чуть более вероятны сценарии «4 к 4», «3 к 5» или «5 к 3», а сценарии «8 к 0» или «1 к 7», например, менее вероятны.<\/p>\n
Технически, мы имеем дело с биномиальным распределением<\/i> — из 8 смсок мы ожидаем<\/i> получить 4 смски «за», но не знаем наверняка, сколько их будет. Вероятность получить смску «за» равна 50% (допустим, что ровно 50% аудитории — «за»), в этом случае стандартная ошибка (SD,<\/i><\/b> или σ)<\/i><\/b> биномиального распределения рассчитывалась бы по формуле:<\/p>\n
\n $\"\"$ \n<\/div>\n
где p<\/i><\/b> = 50%, а n<\/i><\/b> = 8.<\/p>\n
Считаем:<\/p>\n
\n $\"\"$ \n<\/div>\n
Получается, если вероятность получить смску «за» равняется 50%, то стандартное отклонение при выборке в 8 смсок равняется 17,68%!<\/b><\/p>\n
Что же это означает на практике?<\/p>\n
Это означает, что, поскольку имеющаяся выборка (8 смсок) крайне мала, доля случайности в нашем результате «4 „за“, 4 „против“», наоборот, крайне велика, и мы не можем уверенно говорить о строгом распределении голосов «50 на 50» среди всей аудитории «Вести ФМ». Единственное, что мы можем утверждать более-менее точно, это то, что истинная доля голосов «за» лежит в некотором интервале<\/i><\/b> вокруг 50%. И величина этого интервала будет тем шире, чем больше мы захотим быть уверены в его надежности.<\/p>\n
Предположим, мы хотим быть уверены в нашем доверительном интервале на 90%. (Оставляем себе право на ошибку в 10% случаев, другими словами). Согласно законам нормального распределения<\/i> (а биномиальное распределение — это частный случай нормального), данный интервал определяется как 50%±1,645SD.<\/b><\/p>\n
Такое несложно рассчитать в Гугл Таблицах:<\/p>\n
\n $\"\"$ \n<\/div>\n
Получается, что истинная доля голосов «за» лежит в интервале 50%±29,08%, т. е. от 20,92% до 79,08%.<\/b> Примерно вот так это выглядит:<\/p>\n
\n $\"\"$ \n<\/div>\n
Значит, мы и близко не можем говорить о том, что «слушатели ... примерно ... делятся 50 на 50»! В лучшем случае (даже оставляя 10% на то, что мы ошибемся), мы можем говорить лишь об интервале от 21% до 79%.<\/b><\/p>\n
Уточнение расчетов<\/h2>\n
Однако, интервал p<\/i>±1,645SD<\/i><\/b> тоже является достаточно грубой оценкой. Существуют более сложные, и немного более точные, способы оценить границы интервалов.<\/p>\n
Воспользовавшись калькулятором Wolfram Alpha<\/a>, можно получить следующие границы интервала:<\/p>\n
\n\n\n\n\n\n\n\n
Clopper-Pearson confidence interval for a binomial parameter<\/td>\n 0,1929<\/td>\n 0,8071<\/td>\n<\/tr>\n
Wilson score confidence interval for a binomial parameter with continuity correction<\/td>\n 0,2034<\/td>\n 0,7966<\/td>\n<\/tr>\n
standard confidence interval for a binomial parameter<\/td>\n 0,2092<\/td>\n 0,7908<\/td>\n<\/tr>\n
Jeffreys confidence interval for a binomial parameter<\/td>\n 0,2393<\/td>\n 0,7607<\/td>\n<\/tr>\n
Wilson score confidence interval for a binomial parameter<\/td>\n 0,2486<\/td>\n 0,7514<\/td>\n<\/tr>\n
Agresti-Coull confidence interval for a binomial parameter<\/td>\n 0,2486<\/td>\n 0,7514<\/td>\n<\/tr>\n<\/table>\n<\/div>\n
Ну а если хотим, хотя бы, 45-55% получить?<\/h2>\n
Вот еще интересно: на какого размера выборке, если голоса в ней по-прежнему делятся строго «50 на 50», мы сможем говорить о доверительном интервале, суженном хотя бы до 45-55%?<\/p>\n
Рассчитать такое несложно. Если речь идет об интервале 50%±5%, (и мы продолжаем придерживаться уровня уверенности в результате, равном нашим любимым 90%), то 5% должны составлять 1,645 стандартных отклонений (SD). Отсюда, SD = 3,04%. По формуле стандартного отклонения:<\/p>\n
\n $\"\"$ \n<\/div>\n
откуда несложно найти n = 270,6. Получается, нужно 270-272 смски с распределением голосов строго пополам, чтобы говорить об интервале от 45% до 55% с уровнем уверенности 90%.<\/p>\n
См. также<\/h2>\n
https:\/\/en.wikipedia.org\/wiki\/Binomial_proportion_confidence_interval<\/a>
\n Калькулятор на WolframAlpha.com<\/a>
\n https:\/\/cyberleninka.ru\/article\/n\/doveritelnye-intervaly-dlya-chastot-i-doley.pdf<\/a>
\n Cтатистическая достоверность для застройщиков<\/a><\/p>\n", "date_published": "2019-09-16T20:03:11+03:00", "date_modified": "2019-09-16T20:37:32+03:00", "image": "https:\/\/mathandcoffee.ru\/pictures\/4smski05.JPG", "_date_published_rfc2822": "Mon, 16 Sep 2019 20:03:11 +0300", "_rss_guid_is_permalink": "false", "_rss_guid": "31", "_e2_data": { "is_favourite": false, "links_required": [], "og_images": [ "https:\/\/mathandcoffee.ru\/pictures\/4smski05.JPG", "https:\/\/mathandcoffee.ru\/pictures\/4smski00.PNG", "https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn.png", "https:\/\/mathandcoffee.ru\/pictures\/4smski01.PNG", "https:\/\/mathandcoffee.ru\/pictures\/4smski03.PNG", "https:\/\/mathandcoffee.ru\/pictures\/4smski02.PNG", "https:\/\/mathandcoffee.ru\/pictures\/4smski04.png" ] } }, { "id": "30", "url": "https:\/\/mathandcoffee.ru\/all\/ischem-anomalii\/", "title": "Ищем «аномалии», включаем красные и зеленые «лампочки»", "content_html": "
Переписываясь на днях с коллегой в Телеграме, в очередной раз увидел примерно вот такой отчет (сейчас просто нарисовал похожий) — сверху недели, сбоку, допустим, территориальные офисы продаж (там были месяцы и продажи по типам продукта, но для целей этой заметки это совершенно не имеет значения):<\/p>\n
\n $\"\"$ \n<\/div>\n
Воспользовавшись «Условным форматированием» в Экселе, замечаем, что на 6-й неделе в офисе «Академический» было 503 продажи. В общем, до этого момента ничего необычного, и так выжали 90% из данных, можно работать с отчетом и анализировать, что душе угодно.<\/p>\n
Однако, есть несложная доработка, позволяющая выжать из данных еще лишние 5%.<\/p>\n
Что, собственно, ищем<\/h2>\n
На картинке особо не видно, но чем ниже по списку, тем меньше в среднем продаж в каждом следующем офисе. То есть, будем считать, что офисы продаж все очень разные, и некорректно сравнивать «Академический» с «Якиманкой» — нехитрым вычислением получается, что «Академический» в среднем делал 242 продажи в неделю, а «Якиманка» — всего 13. Предположим, что тому есть объективные причины, и никто и не требовал от всех офисов показывать одинаковые результаты.<\/p>\n
И тогда можно задать себе вопрос: достаточно ли просто анализировать абсолютные показатели по нашим офисам? И не будет ли правильнее копнуть вглубь, и попробовать найти такие показатели, которые выбиваются из общей картины?<\/b> Такие недели, которые были аномальными<\/i><\/b> для данного офиса продаж.<\/p>\n
Здесь и далее под «аномалией»<\/i> я буду понимать такое значение продаж, которое слишком отличается от среднего по данном офису.<\/b> Как в большую (и надо разобраться, как повторить этот результат) или в меньшую (проанализировать, как избежать неудачи в будущем) сторону.<\/p>\n
Распределяем результаты офиса «Академический»<\/h2>\n
Изучив результаты продаж офиса «Академический» за прошедшие 43 недели, мы рассчитали, что в среднем они делают 241,5 продаж в неделю, при этом стандартное отклонение (SD) равно 86,3.<\/p>\n
Напомню формулы:<\/p>\n
`=СРЗНАЧ(B2:AR2)<\/code><\/pre>`
=СТАНДОТКЛОН.В(B2:AR2)<\/code><\/pre>Можно, гипотетически, представить, что мы имеем возможность наблюдать за результатами офиса «Академический» 200 (sic!) лет, при условии, что все это время среднее и стандартное отклонение не меняются, т. е., грубо говоря, они работают, как работали. В этом случае, мы увидели бы распределение результатов продаж, близкое к нормальному:<\/i><\/p>\n
\n $\"\"$ \n<\/div>\n
Давайте даже еще раз перерисуем картинку. 2 290 недель из 10 000 они бы делали от 200 до 249 продаж в неделю:<\/p>\n
\n $\"\"$ \n<\/div>\n
Понимаете, к чему я клоню?<\/p>\n
Если только допустить, что результаты продаж подчиняются законам нормального распределения<\/i> (грубо говоря, равновероятно продать как чуть больше, так и чуть меньше среднего), существует некоторое разумное отклонение от среднего, в пределах которого было бы глупо всерьез говорить о «спаде продаж» или «невероятном успехе». Иными словами, бессмысленно считать «аномалией» то, что лежит в пределах разумного отклонения от среднего.<\/p>\n
Остается сформулировать критерии «разумности» и научить отчет сигнализировать об «аномалиях».<\/p>\n
Вспоминаем теорию<\/h2>\n
Если вкратце, то, допустив на минутку, что мы имеем дело с нормальным распределением,<\/i> вычислив среднее значение<\/i> и стандартное отклонение (SD),<\/i> мы можем уверенно говорить о том, что 90% данных в отчете не будут выходить за границы ±1,645SD от среднего.<\/b><\/p>\n
Применительно к офису «Академический» речь идет о том, что для 90% времени результаты их продаж будут лежать в диапазоне от 100 до 383, или 241,5±142,0. Поэтому до тех пор, пока цифры не вышли за пределы этих границ, мы не наблюдаем ничего необычного.<\/p>\n
Сразу оговоримся: конечно, степень «необычности», или «аномалии», каждый определяет для себя сам. Для одних, подозрение могут вызывать показатели, выбивающиеся за рамки 80%-ной вероятности (±1,28SD), для других — терпимым будет отклонение в ±1,96SD, что соответствует 95%-й вероятности. Тогда, первые будут бить искать причины «аномалии» в 20% случаев, вторые — в 5%. Каждую пятую неделю но отчете у коммерческого директора первые будут объяснять, что произошло, и почему, тогда как вторые будут делать это раз в 4-5 месяцев.<\/p>\n
Допущение о том, что продажи в территориальных офисах, число посетителей на сайте, количество рекламных звонков, клики по баннеру распределяются по закону нормального распределения, дало нам потрясающую возможность оценивать вероятность наступления «аномалии» — слишком сильного отклонения от среднего значения. Обратно, оно учит нас не бить тревогу там, где отклонение, хотя и есть, не является достаточно сильным, и делает, отчасти, бессмысленным анализ и разбор ситуаций, когда показатель отклоняется в пределах разумного.<\/p>\n
Перекрашиваем отчет, включаем зеленые и красные «лампочки»<\/h2>\n
Теперь мы хотим переделать отчет о продажах в территориальных офисах таким образом, чтобы напротив подозрительно больших или подозрительно маленьких значений загорались бы зеленые и красные «лампочки».<\/p>\n
Нам необходимо научить отчет «включать» наши «лампочки», если значение в ячейке становится больше или меньше границ 90%-го диапазона, т. е. в примерно 90% случаев ни одна из «лампочек» «загораться» не будет, в примерно 5% случаев будет «загораться» красная «лампочка», и еще в примерно 5% — зеленая.<\/p>\n
Применительно к «Академическому», мы хотим выделять красным значения, меньшие чем 241,5-1,64586,3, т. е., меньшие, чем 100, и мы ходим выделять зеленым значения, большие, чем 241,5+1,64586,3, т. е., большие, чем 383.<\/p>\n
Нам остается рассчитать границы включения «лампочек» по каждому из офисов продаж, рассчитав последовательно: среднее значение продаж, стандартное отклонение (SD), нижнюю границу 90%-го диапазона, верхнюю границу 90%-го диапазона.<\/p>\n
\n $\"\"$ \n<\/div>\n
Используемые формулы:<\/p>\n
=СРЗНАЧ(B2:AR2)<\/code><\/pre>=СТАНДОТКЛОН.В(B2:AR2)<\/code><\/pre>=B2-1,645C2<\/code><\/pre>=B2+1,645C2<\/code><\/pre>У нас получилась следующая таблица, содержащая расчеты по нижним и верхним границам того, что мы далее будем считать «аномалией»:<\/p>\n \n\n<\/div>\nТеперь, используя инструмент «Условное форматирование» — «Правило выделения ячеек» — «Меньше...»\/«Больше...», последовательно для каждого из 17-ти офисов продаж настраиваем правила подсветки ячеек красным и зеленым, в зависимости от того, будет ли значение ниже нижней границы 90%-го диапазона, или выше верхней границы:<\/p>\n \n\n\n\n<\/div>\n<\/div>\nДополнительно выставляем светло-серый цвет текста, чтобы подсвеченные «аномалии» были еще более заметны. Добавляем градиент от белого к светло-серому, чтобы сохранить первоначальную идею выделять большие значения более темной заливкой. Законченная таблица приобретает следующий вид:<\/p>\n \n\n<\/div>\nВыводы<\/h2>\nИспользуя идею о разбросе значений вокруг среднего в нормальном распределении, нам удалось доработать наш отчет о территориальных офисах таким образом, что мы не просто видим результаты, но и теперь отдельно включаем красные и зеленые «лампочки» для тех результатов, которые представляют интерес, как «аномалии» — маловероятно маленькие или маловероятно большие значения, определив уровень «аномалии» как все, что выходит за пределы 90% вероятности.<\/p>\n", "date_published": "2019-09-12T15:27:33+03:00", "date_modified": "2019-09-12T17:41:05+03:00", "image": "https:\/\/mathandcoffee.ru\/pictures\/anomalii00.PNG", "_date_published_rfc2822": "Thu, 12 Sep 2019 15:27:33 +0300", "_rss_guid_is_permalink": "false", "_rss_guid": "30", "_e2_data": { "is_favourite": false, "links_required": [ "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/jquery\/jquery.js", "system\/library\/fotorama\/fotorama.css", "system\/library\/fotorama\/fotorama.js" ], "og_images": [ "https:\/\/mathandcoffee.ru\/pictures\/anomalii00.PNG", "https:\/\/mathandcoffee.ru\/pictures\/anomalii01.PNG", "https:\/\/mathandcoffee.ru\/pictures\/anomalii02.PNG", "https:\/\/mathandcoffee.ru\/pictures\/anomalii03.PNG", "https:\/\/mathandcoffee.ru\/pictures\/anomalii04.PNG", "https:\/\/mathandcoffee.ru\/pictures\/anomalii05.PNG", "https:\/\/mathandcoffee.ru\/pictures\/anomalii06.PNG", "https:\/\/mathandcoffee.ru\/pictures\/anomalii07.PNG" ] } }, { "id": "27", "url": "https:\/\/mathandcoffee.ru\/all\/golosovoy-robot-kupivip-ugadyvaem-razmer-vyborki\/", "title": "Голосовой робот KupiVIP, угадываем размер выборки", "content_html": " В статье «Кейс: заменили на Black Friday колл-центр KupiVIP роботом, и только 5 человек из 5000 поняли, что общаются с нейросетью<\/a>» на vc.ru меня, среди прочего, не могла не заинтересовать фраза, где автор рассказывает о росте конверсии с 6% до 8%:<\/p>\n \n\n<\/div>\nЕстественно, я задумался, на каком же объеме звонков был зафиксирован данный рост конверсии, и достаточен ли был этот объем, чтобы можно было достоверно утверждать, что голосовой робот эффективнее живых операторов колл-центра.<\/p>\n Точно вопрос можно было бы сформулировать, например, следующим образом: какой минимальный объем звонков требуется сделать, чтобы с уровнем достоверности, например, 95% зафиксировать рост конверсии с 6% до 8%?<\/b><\/p>\nСтроим эксперимент в Excel<\/h2>\nПопробуем выписать имеющиеся данные в Excel. Для дальнейших расчетов нам понадобится параметр «число звонков»<\/i> — предположим пока, что и робот, и операторы сделали по 1000 звонков, прежде чем были получены конверсии 6% и 8%:<\/p>\n\n\n<\/div>\nВообще, налицо обычный А\/Б сплит-тест, и далее нам нужно будет пройтись по его алгоритму для получения Z-оценки<\/i> и расчета p-значения<\/i>.<\/p>\n Рассчитаем стандартные ошибки (SD, или σ) для обеих конверсий и стандартную ошибку разницы этих конверсий. Формула для расчета стандартной ошибки конверсии:<\/p>\n\n\n<\/div>\nгде p<\/i> — конверсия (6%, например), n<\/i> — размер выборки (1000 звонков). Считаем в Excel:<\/p>\n\n\n<\/div>\nСтандартная ошибка разницы конверсий — считаем по формуле:<\/p>\n\n\n<\/div>\nгде σ — это стандартная ошибка каждой из конверсий A и B (оператор и робот). В Excel посчитаем ее чуть ниже:<\/p>\n\n\n<\/div>\nНасколько разница между конверсиями A и B больше, чем стандартная ошибка этой разницы? Это соотношение называется Z-оценкой.<\/b><\/i> В Excel считается совсем просто:<\/p>\n\n\n<\/div>\nИтак, Z-оценка = 1,7541. На графике нормального распределения это соответствует 96%-му персентилю, то есть, вероятность, что Z-оценка случайно окажется выше 1,7541 составляет порядка 4% (иными словами, 96% площади под колоколом нормального распределения не выходят за пределы +1,7541 стандартных отклонений):<\/p>\n\n\n<\/div>\nОткуда мы взяли именно 96%? Точное значение вероятности, p-значение,<\/i> вычисляем по формуле:<\/p>\n =НОРМ.РАСП(1,7541;0;1;ИСТИНА)<\/code><\/pre>\n\n<\/div>\nP-значение = 96,03%.<\/p>\n Итак, промежуточный вывод: если на выборке в 1000 звонков в каждом из двух случаев мы обнаружили конверсии (активации промокода) в 6% и 8% звонков, то мы на 96% уверены, что эта разница не случайна.<\/b> (Остается 4% вероятности, что обнаруженная разница — случайность. Тогда, возможно, конверсия вообще одинакова и равна, например, 7%. Сделай мы больше звонков, разница вскоре сошла бы на нет).<\/p>\n Эксперимент минимального размера<\/h2>\nОднако, вернемся к первоначальной задаче.<\/p>\n Мы не хотели убедиться, что 8% больше, чем 6%, да и цифра 1000 звонков для робота и операторов была выбрана наугад. Мы хотели рассчитать минимальное количество звонков, чтобы с уровнем уверенности 95% зафиксировать статистическую значимость разницы между 8% и 6%.<\/b><\/p>\n 1000 звонков нам оказалось точно достаточно. Теперь нам остается уменьшать это число до той поры, пока p-значение не пересечет границу 95%. (По формуле нормального распределения, кстати, это будет соответствовать Z-оценке, равной 1,6449 — попробуйте проверить.)<\/p>\n В теории, наверное, можно было бы вывести большую формулу для расчета такого n,<\/i> при котором p-значение будет равно 0,95. На практике, быстрее окажется вручную подобрать минимальное n. Или, еще лучше, воспользоваться в Excel инструментом Данные — Анализ «что, если» — Подбор параметра:<\/b><\/p>\n \n\n<\/div>\n(Убедитесь только, что число звонков робота ровно то же самое, что и число звонков оператора, т. е. вы указали =C6 в ячейке C7).<\/p>\n \n\n<\/div>\nВыводы<\/h2>\nИтак, мы вычислили минимальные условия эксперимента для оценки эффективности голосового робота для KupiVIP.<\/p>\n Нужно не менее 878 звонков в каждой из двух групп, чтобы с уровнем достоверности 95% подтвердить наличие разницы между 6% активаций промокодов в контрольной группе (реальные сотрудники) и 8% в тестовой группе (голосовой робот).<\/b><\/p>\n (Единственное, ни 6%, ни 8% не дают целого числа активаций на выборке из 878 звонков, и, в реальности, конечно, цифры будут другие, причем число звонков в двух группах вообще может быть различным. Но, на самом деле, это не имеет большого значения, т. к., наверняка, в статье были приведены округленные значения конверсий).<\/p>\n См. также:<\/h2>\nhttps:\/\/abtestguide.com\/calc\/?ua=1000&ub=1000&ca=60&cb=80<\/a><\/p>\n", "date_published": "2019-07-20T13:18:48+03:00", "date_modified": "2019-07-20T14:35:26+03:00", "image": "https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn03.png", "_date_published_rfc2822": "Sat, 20 Jul 2019 13:18:48 +0300", "_rss_guid_is_permalink": "false", "_rss_guid": "27", "_e2_data": { "is_favourite": false, "links_required": [ "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css" ], "og_images": [ "https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn03.png", "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_00.PNG", "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_01.PNG", "https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn.png", "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_02.PNG", "https:\/\/mathandcoffee.ru\/pictures\/CodeCogsEqn02.png", "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_03.PNG", "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_04.PNG", "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_05.PNG", "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_06.PNG", "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_07.PNG", "https:\/\/mathandcoffee.ru\/pictures\/kupivip_robot_08.PNG" ] } }, { "id": "22", "url": "https:\/\/mathandcoffee.ru\/all\/skolko-minut-mozhno-sidet-bez-zvonkov\/", "title": "Сколько минут возможно просидеть без звонков", "content_html": " Или вот еще был случай: разгар рабочего дня в отделе продаж, телефон молчит уже полчаса.<\/p>\n Варианта два: либо технический сбой, либо это просто случайно подзатянувшаяся пауза, и вот-вот поступит очередной звонок от клиента.<\/p>\n Попробуем разобраться, сколько минут можно просидеть в тишине, прежде чем надо начинать беспокоиться.<\/p>\n Неочевидный параметр телефонного звонка<\/h2>\nКакими вообще параметрами обладает телефонный звонок в отделе продаж или в коллцентре? Дата и время, скорость ответа, длительность, день недели, номер линии, номер клиента<\/i> — вот самые очевидные характеристики, по которым можно анализировать поступающие звонки.<\/p>\n Где-то в тени прячется еще один параметр — а именно, длительность паузы<\/b> (промежутка без звонков), предшествующей очередному звонку.<\/b> Например, звонок поступил в 14:07 13 февраля и продлился 3 мин 52 сек. Это то, что видно в выгрузке, в логах АТС или в CRM. Не менее любопытно, что, если предыдущий звонок был зарегистрирован в 14:01, то пауза в 6 минут является тем самым неочевидным параметром, который тоже можно было бы проанализировать.<\/p>\n Допустим, возьмем звонки в коллцентр в будние дни с 10 до 19 часов. Посчитаем разность в минутах между двумя соседними звонками — «0», если прошло меньше минуты, «1» — от одной до двух минут (от 01:00 до 01:59), и так далее. Проанализировав тысячи звонков, получаем примерно такую таблицу:<\/p>\n \n\n\n\n\n\n\n\n\n\n\n\nПауза перед звонком, минут<\/b><\/td>\n Число звонков<\/b><\/td>\n Доля звонков<\/b><\/td>\n Доля звонков накопленным итогом<\/b><\/td>\n<\/tr>\n 0<\/td>\n 19 641<\/td>\n 21,3%<\/td>\n 21,3%<\/td>\n<\/tr>\n 1<\/td>\n 16 299<\/td>\n 17,7%<\/td>\n 39,0%<\/td>\n<\/tr>\n 2<\/td>\n 12 137<\/td>\n 13,2%<\/td>\n 52,2%<\/td>\n<\/tr>\n 3<\/td>\n 9 251<\/td>\n 10,0%<\/td>\n 62,1%<\/td>\n<\/tr>\n 4<\/td>\n 7 276<\/td>\n 7,9%<\/td>\n 70,1%<\/td>\n<\/tr>\n ...<\/td>\n ...<\/td>\n ...<\/td>\n ...<\/td>\n<\/tr>\n 23<\/td>\n 139<\/td>\n 0,2%<\/td>\n 99,4%<\/td>\n<\/tr>\n ...<\/td>\n ...<\/td>\n ...<\/td>\n ...<\/td>\n<\/tr>\n 40<\/td>\n 10<\/td>\n 0,0%<\/td>\n 100,0%<\/td>\n<\/tr>\n<\/table>\n<\/div>\n(Строго говоря, паузы более 40 минут тоже присутствуют, но их доля ничтожно мала, поэтому, округляя до десятых, мы достигаем 100% уже на 40 минутах.)<\/p>\n Простая идея «аномальных» пауз<\/h2>\nИтого, мы имеем удивительно красивую гистограмму распределения длительности пауз между звонками. Что примечательно, длительности пауз убывают по экспоненте:<\/p>\n \n\n<\/div>\nВернемся к тому, что мы вообще хотели посчитать в самом начале.<\/p>\n У нас родилась идея, что рано или поздно, перерыв между звонками в середине рабочего дня становится таким длительным, что это начинает вызывать тревогу у менеджеров.<\/b> Логично предположить, что в каждом отделе продаж или коллцентре тревогу вызывать будут затянувшиеся паузы разной длительности — для больших коллцентров перерыв в 5 минут это уже очень маловероятно, для других — 5 минут это стандартный промежуток между звонками, а вот 55 минут — уже очень подозрительно.<\/p>\n А что если попробовать сформулировать идею «аномально» затянувшейся паузы между звонками таким образом: это такая пауза, которая встречается чрезвычайно редко, например, раз в неделю, или раз в месяц, или раз в полгода. Определим для себя уровень «аномалии», кажущийся нам разумным, и посчитаем, паузы какой длительности встречаются примерно так редко, как мы определили нашу «аномалию».<\/b><\/p>\n Например, пусть аномальной будет считаться пауза, которая, в среднем, встречается раз в неделю.<\/b><\/p>\n Если в нашу таблицу длительностей пауз между звонками попали звонки за прошедший год, логично, что количество «аномальных» («раз в неделю») пауз там будет порядка 52 штук (по числу недель).<\/p>\n Итак, нам нужно отсчитать 52 звонка с самыми длительными паузами перед ними.<\/b> В моей таблице нашлось 47 звонков с паузами 38+ минут, затем идут 57 звонков с паузами 37+ и более минут.<\/p>\n Таким образом, можно сделать вывод, что пауза в 37-38 минут между звонками в будний день должна настораживать: либо перед нами еженедельная «аномалия», наблюдаемся порядка 52 раз в год, либо речь идет о том, что мог произойти технический сбой, и звонки перестали поступать.<\/b><\/p>\n", "date_published": "2019-06-09T12:10:35+03:00", "date_modified": "2019-06-09T12:47:13+03:00", "image": "https:\/\/mathandcoffee.ru\/pictures\/poisson00.png", "_date_published_rfc2822": "Sun, 09 Jun 2019 12:10:35 +0300", "_rss_guid_is_permalink": "false", "_rss_guid": "22", "_e2_data": { "is_favourite": false, "links_required": [], "og_images": [ "https:\/\/mathandcoffee.ru\/pictures\/poisson00.png" ] } }, { "id": "5", "url": "https:\/\/mathandcoffee.ru\/all\/t-kriteriy-styudenta\/", "title": "t-Критерий Стьюдента", "content_html": " Если однажды перед вами оказывались два набора похожих данных, вам, вероятно, приходило в голову задаться вопросом: насколько эти данные различаются между собой? Или, что еще более важно, наблюдаются ли статистически значимые<\/i> различия между этими выборками?<\/p>\n Поясню, о чем идет речь.<\/p>\n Допустим, вы проанализировали звонки за прошедший год и обратили внимание, что среднее время звонка в первой половине дня — 2 мин 45 сек, а во второй половине дня — 2 мин 57 сек.<\/b> Следует ли из этого, что звонки после обеда в среднем длятся дольше? Или это простое совпадение, и, возьми вы звонки за год до этого, вы бы увидели другую картину?<\/p>\n Или, например, вы замеряли уровень гемоглобина у контрольной группы до начала исследований нового лекарства, и после. Предположим, средний уровень вырос с 142,5 г\/л до 147,1 г\/л.<\/b> Достаточно ли опираться на увеличение среднего, чтобы сделать заключение об эффективности лекарства? Или, возможно, исследование нужно повторить? Увеличив размер контрольной группы, например?<\/p>\n Уже из постановки вопроса очевидно, что одной разницы между средними в двух выборках недостаточно, чтобы научно подтвердить их различие.<\/b><\/p>\n Вот почему мы обратимся к формуле расчета<\/b> и таблице значений t-критериев Стьюдента,<\/b> чтобы научиться делать математически корректные<\/i> выводы о статистически значимых<\/i> различиях между двумя выборками. Или, другими словами, научиться видеть разницу, когда она не заметна, или игнорировать ее, даже если кажется, что она есть.<\/p>\n Рассмотрим вопрос на примере.<\/p>\n Анализ длительности звонков Асланян и Евтушенко<\/h2>\nВ вашем отделе продаж работают 2 менеджера — Ольга Асланян и Кирилл Евтушенко. Вы получили данные по длительности их разговоров с покупателями и хотите проверить гипотезу, что разговоры Асланян в среднем длятся дольше разговоров Евтушенко.<\/p>\n \n\n<\/div>\nПосчитаем среднюю длительность звонка, стандартное отклонение и число звонков, которые попали в выборке.<\/p>\n =СРЗНАЧ(B2:B999)<\/code><\/pre>=СТАНДОТКЛОН(B2:B999)<\/code><\/pre>=СЧЁТ(B2:B999)<\/code><\/pre>\n\n<\/div>\nВ среднем, звонки Асланян длятся на 34,5 сек дольше звонков Евтушенко. (Кроме того, разброс длительности ее звонков больше, т. к. больше стандартное отклонение. Грубо говоря, короткие и длинные звонки у Асланян найти проще, чем у Евтушенко).<\/p>\n Достаточно ли полученных данных, чтобы сделать вывод о правильности гипотезы, что Асланян в среднем дольше общается с клиентами, чем Евтушенко? На самом деле, нет. Всегда существует вероятность, что в выборку Асланян случайно попали более длинные звонки, а в выборку Евтушенко — более короткие. Чем больше звонков доступно для анализа (а нам достались 242 и 209 звонков, что не так уж и мало), тем более надежен результат, но он никогда не надежен на 100%.<\/p>\n Впрочем, надежность 100% нам и не нужна. Не ракету к Марсу запускаем. Даже если нам удастся проверить нашу гипотезу с вероятностью 90-95%, этого будет вполне достаточно для большинства случаев. Пускай мы оставим себе шанс ошибиться в 5-10% случаев, зато нам не нужно будет ждать несколько лет, чтобы накопить достаточно данных для анализа, и управленческие решения (разбор звонков с менеджером, анализ продаж, корректировки скриптов) мы сможем принять уже сейчас.<\/p>\n Рассмотрим два способа, как нам проверить, случайность ли, что звонки Асланян в среднем длиннее звонков Евтушенко.<\/p>\n Проверка гипотезы о равенстве среднего. Простой способ<\/h2>\nИ в Google Таблицах, и в Microsoft Excel, есть функция ТТЕСТ.<\/b> Воспользуемся ей для анализа наших выборок.<\/p>\n =ТТЕСТ(B2:B999;C2:C999;2;3)<\/code><\/pre>У функции 4 атрибута, идущие через точку с запятой.<\/p>\n \nДиапазон ячеек, содержащих первую выборку.<\/li>\n Диапазон ячеек, содержащих вторую выборку.<\/li>\n Количество хвостов распределения. Выбираем «2», чтобы проверить наличие различий вообще, и «1», чтобы проверить, звонки Асланян длиннее, а не наоборот.<\/li>\n Тип применения t-критерия. По умолчанию выбираем «3». («2» выбираем если стандартные отклонения очень близки, «1» — если, например, вы сравниваете средний балл одних и тех же учеников<\/i> на начало и конец года попарно.)<\/li>\n<\/ol>\n\n\n<\/div>\nИтак, Т-тест дал вероятность 0,04595, или, округленно, 4,6%.<\/p>\n Что же это за вероятность? В нашем примере это вероятность того, что статистически значимые различия между звонками Асланян и Евтушенко отсутствуют.<\/b> Технически, это вероятность, что наша «нулевая гипотеза» («нет разницы между выборками») была верна, а «альтернативная» («Асланян общается с покупателями дольше Евтушенко») — неверна.<\/p>\n Оставшиеся 95,4% составляют вероятность того, что между выборками есть статистические различия, и «альтернативная гипотеза» о различиях между выборками верна.<\/p>\n Вывод: с вероятностью 95,4% Асланян, действительно, в среднем общается с клиентами дольше Евтушенко. (С вероятностью 4,6% статистически значих различий между их звонками нет).<\/b><\/p>\n Проверка гипотезы о равенстве среднего. Сложный способ<\/h2>\nСложный способ будет состоит из двух этапов: расчет t-критерия Стьюдента и сравнение полученного значения t-критерия с контрольным.<\/p>\n На первом этапе рассчитаем t-критерий Стьюдента по следующей формуле:<\/p>\n \n\n<\/div>\nX_{1<\/sub> и X_{2<\/sub> — средняя длина звонков в первой и второй выборке (238,6 сек и 204,1 сек) \ns_{1<\/sub> и s_{2<\/sub> — стандартные отклонения первой и второй выборок в квадрате (их дисперсии, другими словами) (201,2^{2<\/sup> и 164,7^{2<\/sup> для наших выборок) \nn_{1<\/sub> и n_{2<\/sub> — число звонков в первой и второй выборках (242 и 209 звонков)<\/p>\n}}}}}}}} Воспользуемся листочком бумаги и калькулятором, или же посчитаем все прямо в Google Таблицах:<\/p>\n \n\n<\/div>\n=(F2-G2)\/КОРЕНЬ(F3^2\/F4+G3^2\/G4)<\/code><\/pre>t-Критерий равен 2,0014.<\/p>\n Осталось разобраться, что делать с вычисленным значением нашего t-критерия.<\/p>\n Но перед этим посчитаем число степеней свободы по формуле n_{1<\/sub>+n_{2<\/sub>-2:<\/p>\n}} 242 + 209 — 2 = 449 степеней свободы<\/p>\n Воспользуемся теперь таблицей коэффициентов Стьюдента<\/a> из Википедии, найдя строку, соответствующую нашим 449 степеням свободы.<\/p>\n \n\n<\/div>\nВ нашем случае, строки именно для числа 449 нет, зато несложно заметить, что значения для 100 и 1000 — ближайших подходящих строк — отличаются на сотые доли, поэтому для большого числа степеней свободны подойдет любая строка.<\/p>\n Наше значение 2,0014 находится между 1,9623 и 2,3301: 1,9623 < 2,0014 < 2,3301<\/p>\n\n\n<\/div>\nВ шапке таблицы это соответствует 95%-му и 98%-му квантилю распределения Стьюдента, т. е. мы захватили 95%-й квантиль, но не захватили 98%-й:<\/p>\n\n\n<\/div>\nЕсли расчетное значение t-критерия Стьюдента больше контрольного, значит, «альтернативная гипотеза» верна с соответствующей вероятностью (95%), и выборки статистически различаются.<\/b><\/p>\n Если бы мы получили значение t-критерия больше, чем 2,3301 (98%), мы бы могли говорить по правильности «альтернативной гипотезы» уже с 98%-й вероятностью. Аналогично, если бы мы получили значение t-критерия меньше, чем 1,9623 (95%), но больше 1,6464 (90%), мы бы говорили о правильности гипотезы на 90%.<\/p>\n Вывод: расчетное значение t-критерия Стьюдента 2,0014 соответствует, по меньшей мере, 95% уверенности в том, что между выборками есть статистически значимые различия, и звонки Асланян, действительно, в среднем длиннее звонков Евтушенко.<\/b><\/p>\n Наша «альтернативная гипотеза» получила 95%-ое подтверждение, мы можем быть уверены в результате и принимать решение о дальнейшей работе с полученный информацией.<\/p>\nПолезные ссылки<\/h2>\nhttp:\/\/www.evanmiller.org\/ab-testing\/t-test.html<\/a><\/p>\n", "date_published": "2019-04-15T11:44:02+03:00", "date_modified": "2019-06-15T13:52:59+03:00", "image": "https:\/\/mathandcoffee.ru\/pictures\/student01.PNG", "_date_published_rfc2822": "Mon, 15 Apr 2019 11:44:02 +0300", "_rss_guid_is_permalink": "false", "_rss_guid": "5", "_e2_data": { "is_favourite": false, "links_required": [ "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css", "system\/library\/highlight\/highlight.js", "system\/library\/highlight\/highlight.css" ], "og_images": [ "https:\/\/mathandcoffee.ru\/pictures\/student01.PNG", "https:\/\/mathandcoffee.ru\/pictures\/student02.PNG", "https:\/\/mathandcoffee.ru\/pictures\/student03.PNG", "https:\/\/mathandcoffee.ru\/pictures\/kriteriy_styudenta.jpg", "https:\/\/mathandcoffee.ru\/pictures\/student04.PNG", "https:\/\/mathandcoffee.ru\/pictures\/student05.PNG", "https:\/\/mathandcoffee.ru\/pictures\/student06.PNG" ] } } ], "_e2_version": 3565, "_e2_ua_string": "E2 (v3565; Aegea)" }