<?xml version="1.0" encoding="utf-8"?> 
<rss version="2.0"
  xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
  xmlns:atom="http://www.w3.org/2005/Atom">

<channel>

<title>Математика и кофе: заметки с тегом выборки</title>
<link>https://mathandcoffee.ru/tags/vyborki/</link>
<description>Отделы продаж, коллцентры, аналитика, цифры и данные, воронки продаж, матстатистика..</description>
<author>Иван Балдин</author>
<language>ru</language>
<generator>E2 (v3565; Aegea)</generator>

<itunes:owner>
<itunes:name>Иван Балдин</itunes:name>
<itunes:email></itunes:email>
</itunes:owner>
<itunes:subtitle>Отделы продаж, коллцентры, аналитика, цифры и данные, воронки продаж, матстатистика..</itunes:subtitle>
<itunes:image href="" />
<itunes:explicit></itunes:explicit>

<item>
<title>Три уровня понимания выборки</title>
<guid isPermaLink="false">36</guid>
<link>https://mathandcoffee.ru/all/tri-urovnya-ponimaniya-vyborki/</link>
<pubDate>Sun, 26 Jan 2020 12:54:32 +0300</pubDate>
<author>Иван Балдин</author>
<comments>https://mathandcoffee.ru/all/tri-urovnya-ponimaniya-vyborki/</comments>
<description>
&lt;p&gt;В последнее время много размышлял о том, как, с точки зрения статистики, можно кратко оценить или описать любую совокупность или выборку. Пришел к выводу, что, глобально, &lt;b&gt;существует 3 уровня понимания выборки.&lt;/b&gt;&lt;/p&gt;
&lt;h2&gt;Пруд с золотыми рыбками&lt;/h2&gt;
&lt;p&gt;Для примера, возьмем мой любимый пруд с золотыми рыбками. Вот такой:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/100_fish.png" width="1200" height="675" alt="" /&gt;
&lt;div class="e2-text-caption"&gt;100 золотых рыбок. (На самом деле, рыбок-клоунов, но не важно.)&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;Предположим, мы знаем вес каждой рыбки в граммах (или длину в миллиметрах, не имеет значения в данном случае):&lt;/p&gt;
&lt;div class="e2-text-table"&gt;
&lt;table cellpadding="0" cellspacing="0" border="0"&gt;
&lt;tr&gt;
&lt;td style="text-align: right"&gt;96,83&lt;/td&gt;
&lt;td style="text-align: right"&gt;100,84&lt;/td&gt;
&lt;td style="text-align: right"&gt;97,59&lt;/td&gt;
&lt;td style="text-align: right"&gt;135,46&lt;/td&gt;
&lt;td style="text-align: right"&gt;89,32&lt;/td&gt;
&lt;td style="text-align: right"&gt;25,72&lt;/td&gt;
&lt;td style="text-align: right"&gt;71,5&lt;/td&gt;
&lt;td style="text-align: right"&gt;28,7&lt;/td&gt;
&lt;td style="text-align: right"&gt;100,47&lt;/td&gt;
&lt;td style="text-align: right"&gt;96,08&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: right"&gt;75,74&lt;/td&gt;
&lt;td style="text-align: right"&gt;90,22&lt;/td&gt;
&lt;td style="text-align: right"&gt;64,58&lt;/td&gt;
&lt;td style="text-align: right"&gt;101,55&lt;/td&gt;
&lt;td style="text-align: right"&gt;43,38&lt;/td&gt;
&lt;td style="text-align: right"&gt;109,91&lt;/td&gt;
&lt;td style="text-align: right"&gt;83,22&lt;/td&gt;
&lt;td style="text-align: right"&gt;115,43&lt;/td&gt;
&lt;td style="text-align: right"&gt;118,84&lt;/td&gt;
&lt;td style="text-align: right"&gt;56,39&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: right"&gt;99,43&lt;/td&gt;
&lt;td style="text-align: right"&gt;67,46&lt;/td&gt;
&lt;td style="text-align: right"&gt;99,19&lt;/td&gt;
&lt;td style="text-align: right"&gt;86,85&lt;/td&gt;
&lt;td style="text-align: right"&gt;53,01&lt;/td&gt;
&lt;td style="text-align: right"&gt;123,29&lt;/td&gt;
&lt;td style="text-align: right"&gt;95,37&lt;/td&gt;
&lt;td style="text-align: right"&gt;67,57&lt;/td&gt;
&lt;td style="text-align: right"&gt;123,89&lt;/td&gt;
&lt;td style="text-align: right"&gt;98,91&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: right"&gt;101,96&lt;/td&gt;
&lt;td style="text-align: right"&gt;157,56&lt;/td&gt;
&lt;td style="text-align: right"&gt;139,5&lt;/td&gt;
&lt;td style="text-align: right"&gt;89,64&lt;/td&gt;
&lt;td style="text-align: right"&gt;92,31&lt;/td&gt;
&lt;td style="text-align: right"&gt;175,05&lt;/td&gt;
&lt;td style="text-align: right"&gt;92,29&lt;/td&gt;
&lt;td style="text-align: right"&gt;124,63&lt;/td&gt;
&lt;td style="text-align: right"&gt;81,35&lt;/td&gt;
&lt;td style="text-align: right"&gt;107,43&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: right"&gt;86,47&lt;/td&gt;
&lt;td style="text-align: right"&gt;110,03&lt;/td&gt;
&lt;td style="text-align: right"&gt;144,89&lt;/td&gt;
&lt;td style="text-align: right"&gt;105,25&lt;/td&gt;
&lt;td style="text-align: right"&gt;137,14&lt;/td&gt;
&lt;td style="text-align: right"&gt;76,28&lt;/td&gt;
&lt;td style="text-align: right"&gt;102,96&lt;/td&gt;
&lt;td style="text-align: right"&gt;101,95&lt;/td&gt;
&lt;td style="text-align: right"&gt;90,88&lt;/td&gt;
&lt;td style="text-align: right"&gt;69,02&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: right"&gt;96,76&lt;/td&gt;
&lt;td style="text-align: right"&gt;110,17&lt;/td&gt;
&lt;td style="text-align: right"&gt;118,66&lt;/td&gt;
&lt;td style="text-align: right"&gt;100,5&lt;/td&gt;
&lt;td style="text-align: right"&gt;109,23&lt;/td&gt;
&lt;td style="text-align: right"&gt;40,66&lt;/td&gt;
&lt;td style="text-align: right"&gt;104,43&lt;/td&gt;
&lt;td style="text-align: right"&gt;113,17&lt;/td&gt;
&lt;td style="text-align: right"&gt;101,9&lt;/td&gt;
&lt;td style="text-align: right"&gt;66,76&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: right"&gt;107,59&lt;/td&gt;
&lt;td style="text-align: right"&gt;141,11&lt;/td&gt;
&lt;td style="text-align: right"&gt;71,43&lt;/td&gt;
&lt;td style="text-align: right"&gt;95,73&lt;/td&gt;
&lt;td style="text-align: right"&gt;52,26&lt;/td&gt;
&lt;td style="text-align: right"&gt;70,67&lt;/td&gt;
&lt;td style="text-align: right"&gt;70,97&lt;/td&gt;
&lt;td style="text-align: right"&gt;103,66&lt;/td&gt;
&lt;td style="text-align: right"&gt;135,65&lt;/td&gt;
&lt;td style="text-align: right"&gt;144,62&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: right"&gt;150,26&lt;/td&gt;
&lt;td style="text-align: right"&gt;130,69&lt;/td&gt;
&lt;td style="text-align: right"&gt;81,31&lt;/td&gt;
&lt;td style="text-align: right"&gt;163,39&lt;/td&gt;
&lt;td style="text-align: right"&gt;74,22&lt;/td&gt;
&lt;td style="text-align: right"&gt;83,43&lt;/td&gt;
&lt;td style="text-align: right"&gt;122,14&lt;/td&gt;
&lt;td style="text-align: right"&gt;122,61&lt;/td&gt;
&lt;td style="text-align: right"&gt;137,46&lt;/td&gt;
&lt;td style="text-align: right"&gt;53,94&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: right"&gt;29,25&lt;/td&gt;
&lt;td style="text-align: right"&gt;90,83&lt;/td&gt;
&lt;td style="text-align: right"&gt;119,56&lt;/td&gt;
&lt;td style="text-align: right"&gt;99,3&lt;/td&gt;
&lt;td style="text-align: right"&gt;34,53&lt;/td&gt;
&lt;td style="text-align: right"&gt;74,02&lt;/td&gt;
&lt;td style="text-align: right"&gt;120,04&lt;/td&gt;
&lt;td style="text-align: right"&gt;129,32&lt;/td&gt;
&lt;td style="text-align: right"&gt;124,2&lt;/td&gt;
&lt;td style="text-align: right"&gt;83,37&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style="text-align: right"&gt;109,94&lt;/td&gt;
&lt;td style="text-align: right"&gt;70,41&lt;/td&gt;
&lt;td style="text-align: right"&gt;107,63&lt;/td&gt;
&lt;td style="text-align: right"&gt;107,79&lt;/td&gt;
&lt;td style="text-align: right"&gt;52,74&lt;/td&gt;
&lt;td style="text-align: right"&gt;79,36&lt;/td&gt;
&lt;td style="text-align: right"&gt;80,28&lt;/td&gt;
&lt;td style="text-align: right"&gt;72,16&lt;/td&gt;
&lt;td style="text-align: right"&gt;142,41&lt;/td&gt;
&lt;td style="text-align: right"&gt;64,53&lt;/td&gt;
&lt;/tr&gt;
&lt;/table&gt;
&lt;/div&gt;
&lt;p&gt;&lt;b&gt;Имея такую выборку, что мы можем сказать о наших рыбках в общем? Как кратко описать множество этих рыбок так, чтобы стало немного понятнее, с чем мы имеем дело с точки зрения статистки?&lt;/b&gt;&lt;/p&gt;
&lt;h2&gt;1-й уровень понимания. Среднее значение.&lt;/h2&gt;
&lt;p&gt;Проще всего было бы рассчитать &lt;b&gt;&lt;i&gt;среднее значение&lt;/i&gt;&lt;/b&gt; веса рыбок — в нашем случае получилось бы 96,70 г. Тогда, на первом, самом базовом уровне понимания, мы бы сказали:&lt;/p&gt;
&lt;p&gt;&lt;b&gt;&lt;i&gt;— В нашем пруду водятся золотые рыбки. Их средний вес равен 96,70 г.&lt;/i&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;Верное ли утверждение? Верное. Действительно, несмотря на то, что попадаются и рыбки весом 26 г, и рыбки весом 175 г, средний вес рыбок равен 96,7 г.&lt;/p&gt;
&lt;p&gt;Достаточно ли данной информации? Как минимум, ее достаточно, чтобы представить множество из ста рыбок по 96,7 г каждая, и, приблизительно, это дает понимание о качестве рыбок в нашем пруду. Вооружившись удочкой, мы бы шли ловить таких рыбок.&lt;/p&gt;
&lt;p&gt;Однако, этого будет недостаточно, чтобы понять, например, как сильно рыбки различаются между собой. Потому что случайно выловленная рыбка может весить гораздо меньше, чем 96,7 г. И тут мы подошли бы к следующему, более углубленному, уровню понимания.&lt;/p&gt;
&lt;h2&gt;2-й уровень понимания. Стандартное отклонение.&lt;/h2&gt;
&lt;p&gt;Чуть более образованный человек не удовлетворился бы информацией о том, что средний вес рыбок равен 96,7 г. Он обязательно пошутил бы про «среднюю температуру по больнице» и уточнил бы, а &lt;b&gt;как сильно различаются рыбки по размеру между собой?&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;Такое различие называлось бы &lt;b&gt;&lt;i&gt;стандартным отклонением&lt;/i&gt;&lt;/b&gt; (или дисперсией). Оно описывало бы величину отклонения веса случайной рыбки от среднего веса всех рыбок.&lt;/p&gt;
&lt;p&gt;Проведя несложные вычисления, мы бы узнали, что, в среднем, вес случайной рыбки отклоняется от веса средней рыбки на 30,4 г. Стандартное отклонение (SD) равно 30,4 г.&lt;/p&gt;
&lt;p&gt;И здесь, мы бы уточнили свое первоначальное утверждение:&lt;/p&gt;
&lt;p&gt;&lt;b&gt;&lt;i&gt;— В нашем пруду водятся золотые рыбки. Их средний размер (вес) равен 96,70 г, SD=30,4 г.&lt;/i&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;Теперь случайный рыбак не просто идет ловить рыбок весом 96,7 г, а отдает себе отчет в том, что, в среднем, вес выловленных рыбок будет на 30,4 г больше или меньше среднего веса. Наш рыбак теперь морально готов к тому, что ему может попасться как маленькая, так и большая рыбка.&lt;/p&gt;
&lt;p&gt;А, если наш рыбак еще и математик, то он прикинет, что, предполагая, что вес рыбок подчиняется закону нормального распределения (а огромное число вещей и явлений в природе и мире распределены &lt;i&gt;нормально&lt;/i&gt;), он будет ожидать, что 68% выловленных рыбок будет иметь вес плюс-минус 30,4 г от среднего 96,7 г, или от 66,3 г до 127,1 г.&lt;/p&gt;
&lt;p&gt;И, если наш рыбак-математик с первой попытки поймает рыбку весом, например, 146,7 г (что будет отличаться от среднего веса на 50,0 г, или 1,645SD), он будет знать, что так везет лишь одному рыбаку из двадцати, потому что лишь 5% рыбок в пруду имеют вес более 146,7 г, согласно закону нормального распределения.&lt;/p&gt;
&lt;p&gt;Единственная проблема заключается в том, что далеко не все в жизни сводится к примеру с рыбками, или к нормальному распределению. Так как речь может идти о генеральных совокупностях, распределенных не &lt;i&gt;нормально,&lt;/i&gt; а как-то иначе.&lt;/p&gt;
&lt;p&gt;И тут нам придется нырнуть, вслед за рыбками, к третьему, самому глубокому, уровню понимания.&lt;/p&gt;
&lt;h2&gt;3-й уровень понимания. Гистограмма распределения.&lt;/h2&gt;
&lt;p&gt;Чтобы понять, как распределена совокупность наших рыбок, лучше всего было бы «увидеть» всю картину в виде &lt;i&gt;&lt;b&gt;гистограммы распределения.&lt;/b&gt;&lt;/i&gt; Поскольку далеко не всегда мы будем иметь дело с нормальным распределением, одно лишь знание о размере стандартного отклонения и степени разброса значений в нашей выборке не даст нам полного понимания и осознания нашей совокупности.&lt;/p&gt;
&lt;p&gt;Распределив имеющиеся 100 значений веса рыбок по диапазонам от 20 до 180 г с шагом в 20 г, мы бы увидели следующую картину:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/3_levels_fish_02.png" width="852" height="530" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Только теперь мы получили полную картину того, какие рыбки плавают в нашем пруду. Мы словно разом прочувстовали, с чем имеем дело, увидели, насколько маловероятно выловить рыбку весом, например, больше 160 г, убедились, что вероятности встретить больших или маленьких рыбок одинаковы, а узнаваемая колоколообразная форма графика однозначно подсказала, что вес рыбок подчиняется нормальному распределению.&lt;/p&gt;
&lt;h2&gt;How much is the fish?&lt;/h2&gt;
&lt;p&gt;Мы идем на рыбалку, вооружившись полной картиной того, с чем имеем дело.&lt;/p&gt;
&lt;p&gt;На первом уровне, уточнили средний вес рыбок.&lt;br /&gt;
На втором уровне, уточнили средний вес и его стандартное отклонение.&lt;br /&gt;
На третьем уровне, нарисовали гистограмму веса рыбок, чтобы разом увидеть портрет всех рыбок в пруду.&lt;/p&gt;
</description>
</item>

<item>
<title>«В каждом пятом» звонке проблемы, проверяем</title>
<guid isPermaLink="false">21</guid>
<link>https://mathandcoffee.ru/all/v-kazhdom-pyatom-zvonke-problemy-proveryaem/</link>
<pubDate>Sun, 09 Jun 2019 16:45:58 +0300</pubDate>
<author>Иван Балдин</author>
<comments>https://mathandcoffee.ru/all/v-kazhdom-pyatom-zvonke-problemy-proveryaem/</comments>
<description>
&lt;p&gt;На днях пришел в голову такой пример: предположим, подрядчик жалуется &lt;b&gt;на плохую связь «в каждом пятом» звонке.&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;Наша задача проверить, &lt;b&gt;справедлива ли гипотеза, что 20% звонков имеют проблемы со связью.&lt;/b&gt; Причем, как всегда, мы не просто сделаем 100 тестовых звонков (на это у нас нет ресурсов), а сформулируем нулевую гипотезу, альтернативную гипотезу, и проверим ее с заданным уровнем достоверности.&lt;/p&gt;
&lt;h2&gt;Выдвигаем гипотезу и определяем уровень достоверности&lt;/h2&gt;
&lt;p&gt;&lt;b&gt;Нулевой гипотезой &lt;i&gt;(H&lt;sub&gt;0&lt;/sub&gt;)&lt;/i&gt;&lt;/b&gt; пусть будет предположение, что со связью все в порядке, или, по крайней мере, проблемы встречаются реже, чем в 20% звонков.&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Альтернативной гипотезой &lt;i&gt;(H&lt;sub&gt;1&lt;/sub&gt;),&lt;/i&gt;&lt;/b&gt; которую мы будем проверять, пусть будет предположение подрядчика, что в каждом пятом звонке наблюдаются помехи. То есть, по крайней мере, в 20% звонков есть проблемы со связью.&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Уровень достоверности&lt;/b&gt; — это наша уверенность в результатах эксперимента. Чем он выше, тем больше придется сделать проверочных звонков, поэтому мы заложим 1% на возможную ошибку, и выберем уровень достоверности в 99% (1%, что, если даже эксперимент не подтвердит проблем со связью, они, в действительности, могут быть).&lt;/p&gt;
&lt;h2&gt;Cобираем формулу для расчета выборки&lt;/h2&gt;
&lt;p&gt;Предположим, цель эксперимента — &lt;i&gt;опровергнуть&lt;/i&gt; альтернативную гипотезу H&lt;sub&gt;1&lt;/sub&gt; («есть проблемы»), подтвердив нулевую гипотезу H&lt;sub&gt;0&lt;/sub&gt; («все в порядке»). Чтобы сделать это, нам будет достаточно продемонстрировать N подряд успешных звонков без признаков проблем со связью, при этом допуская вероятность, равную или меньше 1%, что нам просто повезет, и, при наличии, в действительности, проблем с оборудованием, они случайно не проявят себя ни в одном из N звонков.&lt;/p&gt;
&lt;p&gt;Из предположения подрядчика вытекает, что 80% звонков не имеют проблем. Вероятность отсутствия сбоев в N звонках подряд равна 0,80&lt;sup&gt;N&lt;/sup&gt;. Нам нужно подобрать минимальное N, при котором вероятность упадет до 1%: 0,80&lt;sup&gt;N&lt;/sup&gt; = 1%&lt;/p&gt;
&lt;p&gt;Получается, нам нужно вычислить логарифм 1% по основанию 80%!&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/every5th01.PNG" width="223" height="36" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Загружаем в Гугл Таблицы:&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/every5th00.PNG" width="366" height="320" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Формула для ячейки C5 будет выглядеть как&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=LOG(1-C2;1-C3)&lt;/code&gt;&lt;/pre&gt;&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/every5th02.PNG" width="373" height="262" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Нужно сделать 20,64 звонка. (Проверяем: 0,80&lt;sup&gt;20,64&lt;/sup&gt; = 0,9995%, идеально.)&lt;/p&gt;
&lt;p&gt;Остается только добавить округление:&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=ОКРУГЛВВЕРХ(C5)&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;или сразу&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;=ОКРУГЛВВЕРХ(LOG(1-C2;1-C3))&lt;/code&gt;&lt;/pre&gt;&lt;div class="e2-text-picture"&gt;
&lt;img src="https://mathandcoffee.ru/pictures/every5th03.PNG" width="366" height="266" alt="" /&gt;
&lt;/div&gt;
&lt;h2&gt;Проверяем гипотезу&lt;/h2&gt;
&lt;p&gt;Если альтернативная гипотеза &lt;i&gt;H&lt;sub&gt;1&lt;/sub&gt;&lt;/i&gt; нашего подрядчика верна, и мы испытываем проблемы со связью в каждом пятом звонке, то, вероятность не заметить проблем в 21 тестовом звонке подряд составляет порядка 1%. Иными словами, либо это крайне редкое совпадение (1%), либо альтернативная гипотеза о проблемах в 20% звонков неверна (99%), и мы оставляем нулевую гипозеу &lt;i&gt;H&lt;sub&gt;0&lt;/sub&gt;&lt;/i&gt;. &lt;b&gt;С вероятностью 99% мы уверены, что проблем со связью не наблюдается.&lt;/b&gt;&lt;/p&gt;
</description>
</item>


</channel>
</rss>