{
    "version": "https:\/\/jsonfeed.org\/version\/1",
    "title": "Математика и кофе: заметки с тегом выборки",
    "_rss_description": "Отделы продаж, коллцентры, аналитика, цифры и данные, воронки продаж, матстатистика..",
    "_rss_language": "ru",
    "_itunes_email": "",
    "_itunes_categories_xml": "",
    "_itunes_image": "",
    "_itunes_explicit": "",
    "home_page_url": "https:\/\/mathandcoffee.ru\/tags\/vyborki\/",
    "feed_url": "https:\/\/mathandcoffee.ru\/tags\/vyborki\/json\/",
    "icon": "https:\/\/mathandcoffee.ru\/user\/userpic@2x.jpg?1559386410",
    "author": {
        "name": "Иван Балдин",
        "url": "https:\/\/mathandcoffee.ru\/",
        "avatar": "https:\/\/mathandcoffee.ru\/user\/userpic@2x.jpg?1559386410"
    },
    "items": [
        {
            "id": "36",
            "url": "https:\/\/mathandcoffee.ru\/all\/tri-urovnya-ponimaniya-vyborki\/",
            "title": "Три уровня понимания выборки",
            "content_html": "<p>В последнее время много размышлял о том, как, с точки зрения статистики, можно кратко оценить или описать любую совокупность или выборку. Пришел к выводу, что, глобально, <b>существует 3 уровня понимания выборки.<\/b><\/p>\n<h2>Пруд с золотыми рыбками<\/h2>\n<p>Для примера, возьмем мой любимый пруд с золотыми рыбками. Вот такой:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/100_fish.png\" width=\"1200\" height=\"675\" alt=\"\" \/>\n<div class=\"e2-text-caption\">100 золотых рыбок. (На самом деле, рыбок-клоунов, но не важно.)<\/div>\n<\/div>\n<p>Предположим, мы знаем вес каждой рыбки в граммах (или длину в миллиметрах, не имеет значения в данном случае):<\/p>\n<div class=\"e2-text-table\">\n<table cellpadding=\"0\" cellspacing=\"0\" border=\"0\">\n<tr>\n<td style=\"text-align: right\">96,83<\/td>\n<td style=\"text-align: right\">100,84<\/td>\n<td style=\"text-align: right\">97,59<\/td>\n<td style=\"text-align: right\">135,46<\/td>\n<td style=\"text-align: right\">89,32<\/td>\n<td style=\"text-align: right\">25,72<\/td>\n<td style=\"text-align: right\">71,5<\/td>\n<td style=\"text-align: right\">28,7<\/td>\n<td style=\"text-align: right\">100,47<\/td>\n<td style=\"text-align: right\">96,08<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">75,74<\/td>\n<td style=\"text-align: right\">90,22<\/td>\n<td style=\"text-align: right\">64,58<\/td>\n<td style=\"text-align: right\">101,55<\/td>\n<td style=\"text-align: right\">43,38<\/td>\n<td style=\"text-align: right\">109,91<\/td>\n<td style=\"text-align: right\">83,22<\/td>\n<td style=\"text-align: right\">115,43<\/td>\n<td style=\"text-align: right\">118,84<\/td>\n<td style=\"text-align: right\">56,39<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">99,43<\/td>\n<td style=\"text-align: right\">67,46<\/td>\n<td style=\"text-align: right\">99,19<\/td>\n<td style=\"text-align: right\">86,85<\/td>\n<td style=\"text-align: right\">53,01<\/td>\n<td style=\"text-align: right\">123,29<\/td>\n<td style=\"text-align: right\">95,37<\/td>\n<td style=\"text-align: right\">67,57<\/td>\n<td style=\"text-align: right\">123,89<\/td>\n<td style=\"text-align: right\">98,91<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">101,96<\/td>\n<td style=\"text-align: right\">157,56<\/td>\n<td style=\"text-align: right\">139,5<\/td>\n<td style=\"text-align: right\">89,64<\/td>\n<td style=\"text-align: right\">92,31<\/td>\n<td style=\"text-align: right\">175,05<\/td>\n<td style=\"text-align: right\">92,29<\/td>\n<td style=\"text-align: right\">124,63<\/td>\n<td style=\"text-align: right\">81,35<\/td>\n<td style=\"text-align: right\">107,43<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">86,47<\/td>\n<td style=\"text-align: right\">110,03<\/td>\n<td style=\"text-align: right\">144,89<\/td>\n<td style=\"text-align: right\">105,25<\/td>\n<td style=\"text-align: right\">137,14<\/td>\n<td style=\"text-align: right\">76,28<\/td>\n<td style=\"text-align: right\">102,96<\/td>\n<td style=\"text-align: right\">101,95<\/td>\n<td style=\"text-align: right\">90,88<\/td>\n<td style=\"text-align: right\">69,02<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">96,76<\/td>\n<td style=\"text-align: right\">110,17<\/td>\n<td style=\"text-align: right\">118,66<\/td>\n<td style=\"text-align: right\">100,5<\/td>\n<td style=\"text-align: right\">109,23<\/td>\n<td style=\"text-align: right\">40,66<\/td>\n<td style=\"text-align: right\">104,43<\/td>\n<td style=\"text-align: right\">113,17<\/td>\n<td style=\"text-align: right\">101,9<\/td>\n<td style=\"text-align: right\">66,76<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">107,59<\/td>\n<td style=\"text-align: right\">141,11<\/td>\n<td style=\"text-align: right\">71,43<\/td>\n<td style=\"text-align: right\">95,73<\/td>\n<td style=\"text-align: right\">52,26<\/td>\n<td style=\"text-align: right\">70,67<\/td>\n<td style=\"text-align: right\">70,97<\/td>\n<td style=\"text-align: right\">103,66<\/td>\n<td style=\"text-align: right\">135,65<\/td>\n<td style=\"text-align: right\">144,62<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">150,26<\/td>\n<td style=\"text-align: right\">130,69<\/td>\n<td style=\"text-align: right\">81,31<\/td>\n<td style=\"text-align: right\">163,39<\/td>\n<td style=\"text-align: right\">74,22<\/td>\n<td style=\"text-align: right\">83,43<\/td>\n<td style=\"text-align: right\">122,14<\/td>\n<td style=\"text-align: right\">122,61<\/td>\n<td style=\"text-align: right\">137,46<\/td>\n<td style=\"text-align: right\">53,94<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">29,25<\/td>\n<td style=\"text-align: right\">90,83<\/td>\n<td style=\"text-align: right\">119,56<\/td>\n<td style=\"text-align: right\">99,3<\/td>\n<td style=\"text-align: right\">34,53<\/td>\n<td style=\"text-align: right\">74,02<\/td>\n<td style=\"text-align: right\">120,04<\/td>\n<td style=\"text-align: right\">129,32<\/td>\n<td style=\"text-align: right\">124,2<\/td>\n<td style=\"text-align: right\">83,37<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: right\">109,94<\/td>\n<td style=\"text-align: right\">70,41<\/td>\n<td style=\"text-align: right\">107,63<\/td>\n<td style=\"text-align: right\">107,79<\/td>\n<td style=\"text-align: right\">52,74<\/td>\n<td style=\"text-align: right\">79,36<\/td>\n<td style=\"text-align: right\">80,28<\/td>\n<td style=\"text-align: right\">72,16<\/td>\n<td style=\"text-align: right\">142,41<\/td>\n<td style=\"text-align: right\">64,53<\/td>\n<\/tr>\n<\/table>\n<\/div>\n<p><b>Имея такую выборку, что мы можем сказать о наших рыбках в общем? Как кратко описать множество этих рыбок так, чтобы стало немного понятнее, с чем мы имеем дело с точки зрения статистки?<\/b><\/p>\n<h2>1-й уровень понимания. Среднее значение.<\/h2>\n<p>Проще всего было бы рассчитать <b><i>среднее значение<\/i><\/b> веса рыбок — в нашем случае получилось бы 96,70 г. Тогда, на первом, самом базовом уровне понимания, мы бы сказали:<\/p>\n<p><b><i>— В нашем пруду водятся золотые рыбки. Их средний вес равен 96,70 г.<\/i><\/b><\/p>\n<p>Верное ли утверждение? Верное. Действительно, несмотря на то, что попадаются и рыбки весом 26 г, и рыбки весом 175 г, средний вес рыбок равен 96,7 г.<\/p>\n<p>Достаточно ли данной информации? Как минимум, ее достаточно, чтобы представить множество из ста рыбок по 96,7 г каждая, и, приблизительно, это дает понимание о качестве рыбок в нашем пруду. Вооружившись удочкой, мы бы шли ловить таких рыбок.<\/p>\n<p>Однако, этого будет недостаточно, чтобы понять, например, как сильно рыбки различаются между собой. Потому что случайно выловленная рыбка может весить гораздо меньше, чем 96,7 г. И тут мы подошли бы к следующему, более углубленному, уровню понимания.<\/p>\n<h2>2-й уровень понимания. Стандартное отклонение.<\/h2>\n<p>Чуть более образованный человек не удовлетворился бы информацией о том, что средний вес рыбок равен 96,7 г. Он обязательно пошутил бы про «среднюю температуру по больнице» и уточнил бы, а <b>как сильно различаются рыбки по размеру между собой?<\/b><\/p>\n<p>Такое различие называлось бы <b><i>стандартным отклонением<\/i><\/b> (или дисперсией). Оно описывало бы величину отклонения веса случайной рыбки от среднего веса всех рыбок.<\/p>\n<p>Проведя несложные вычисления, мы бы узнали, что, в среднем, вес случайной рыбки отклоняется от веса средней рыбки на 30,4 г. Стандартное отклонение (SD) равно 30,4 г.<\/p>\n<p>И здесь, мы бы уточнили свое первоначальное утверждение:<\/p>\n<p><b><i>— В нашем пруду водятся золотые рыбки. Их средний размер (вес) равен 96,70 г, SD=30,4 г.<\/i><\/b><\/p>\n<p>Теперь случайный рыбак не просто идет ловить рыбок весом 96,7 г, а отдает себе отчет в том, что, в среднем, вес выловленных рыбок будет на 30,4 г больше или меньше среднего веса. Наш рыбак теперь морально готов к тому, что ему может попасться как маленькая, так и большая рыбка.<\/p>\n<p>А, если наш рыбак еще и математик, то он прикинет, что, предполагая, что вес рыбок подчиняется закону нормального распределения (а огромное число вещей и явлений в природе и мире распределены <i>нормально<\/i>), он будет ожидать, что 68% выловленных рыбок будет иметь вес плюс-минус 30,4 г от среднего 96,7 г, или от 66,3 г до 127,1 г.<\/p>\n<p>И, если наш рыбак-математик с первой попытки поймает рыбку весом, например, 146,7 г (что будет отличаться от среднего веса на 50,0 г, или 1,645SD), он будет знать, что так везет лишь одному рыбаку из двадцати, потому что лишь 5% рыбок в пруду имеют вес более 146,7 г, согласно закону нормального распределения.<\/p>\n<p>Единственная проблема заключается в том, что далеко не все в жизни сводится к примеру с рыбками, или к нормальному распределению. Так как речь может идти о генеральных совокупностях, распределенных не <i>нормально,<\/i> а как-то иначе.<\/p>\n<p>И тут нам придется нырнуть, вслед за рыбками, к третьему, самому глубокому, уровню понимания.<\/p>\n<h2>3-й уровень понимания. Гистограмма распределения.<\/h2>\n<p>Чтобы понять, как распределена совокупность наших рыбок, лучше всего было бы «увидеть» всю картину в виде <i><b>гистограммы распределения.<\/b><\/i> Поскольку далеко не всегда мы будем иметь дело с нормальным распределением, одно лишь знание о размере стандартного отклонения и степени разброса значений в нашей выборке не даст нам полного понимания и осознания нашей совокупности.<\/p>\n<p>Распределив имеющиеся 100 значений веса рыбок по диапазонам от 20 до 180 г с шагом в 20 г, мы бы увидели следующую картину:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/3_levels_fish_02.png\" width=\"852\" height=\"530\" alt=\"\" \/>\n<\/div>\n<p>Только теперь мы получили полную картину того, какие рыбки плавают в нашем пруду. Мы словно разом прочувстовали, с чем имеем дело, увидели, насколько маловероятно выловить рыбку весом, например, больше 160 г, убедились, что вероятности встретить больших или маленьких рыбок одинаковы, а узнаваемая колоколообразная форма графика однозначно подсказала, что вес рыбок подчиняется нормальному распределению.<\/p>\n<h2>How much is the fish?<\/h2>\n<p>Мы идем на рыбалку, вооружившись полной картиной того, с чем имеем дело.<\/p>\n<p>На первом уровне, уточнили средний вес рыбок.<br \/>\nНа втором уровне, уточнили средний вес и его стандартное отклонение.<br \/>\nНа третьем уровне, нарисовали гистограмму веса рыбок, чтобы разом увидеть портрет всех рыбок в пруду.<\/p>\n",
            "date_published": "2020-01-26T12:54:32+03:00",
            "date_modified": "2020-01-26T12:54:27+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/100_fish.png",
            "_date_published_rfc2822": "Sun, 26 Jan 2020 12:54:32 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "36",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/100_fish.png",
                    "https:\/\/mathandcoffee.ru\/pictures\/3_levels_fish_02.png"
                ]
            }
        },
        {
            "id": "21",
            "url": "https:\/\/mathandcoffee.ru\/all\/v-kazhdom-pyatom-zvonke-problemy-proveryaem\/",
            "title": "«В каждом пятом» звонке проблемы, проверяем",
            "content_html": "<p>На днях пришел в голову такой пример: предположим, подрядчик жалуется <b>на плохую связь «в каждом пятом» звонке.<\/b><\/p>\n<p>Наша задача проверить, <b>справедлива ли гипотеза, что 20% звонков имеют проблемы со связью.<\/b> Причем, как всегда, мы не просто сделаем 100 тестовых звонков (на это у нас нет ресурсов), а сформулируем нулевую гипотезу, альтернативную гипотезу, и проверим ее с заданным уровнем достоверности.<\/p>\n<h2>Выдвигаем гипотезу и определяем уровень достоверности<\/h2>\n<p><b>Нулевой гипотезой <i>(H<sub>0<\/sub>)<\/i><\/b> пусть будет предположение, что со связью все в порядке, или, по крайней мере, проблемы встречаются реже, чем в 20% звонков.<\/p>\n<p><b>Альтернативной гипотезой <i>(H<sub>1<\/sub>),<\/i><\/b> которую мы будем проверять, пусть будет предположение подрядчика, что в каждом пятом звонке наблюдаются помехи. То есть, по крайней мере, в 20% звонков есть проблемы со связью.<\/p>\n<p><b>Уровень достоверности<\/b> — это наша уверенность в результатах эксперимента. Чем он выше, тем больше придется сделать проверочных звонков, поэтому мы заложим 1% на возможную ошибку, и выберем уровень достоверности в 99% (1%, что, если даже эксперимент не подтвердит проблем со связью, они, в действительности, могут быть).<\/p>\n<h2>Cобираем формулу для расчета выборки<\/h2>\n<p>Предположим, цель эксперимента — <i>опровергнуть<\/i> альтернативную гипотезу H<sub>1<\/sub> («есть проблемы»), подтвердив нулевую гипотезу H<sub>0<\/sub> («все в порядке»). Чтобы сделать это, нам будет достаточно продемонстрировать N подряд успешных звонков без признаков проблем со связью, при этом допуская вероятность, равную или меньше 1%, что нам просто повезет, и, при наличии, в действительности, проблем с оборудованием, они случайно не проявят себя ни в одном из N звонков.<\/p>\n<p>Из предположения подрядчика вытекает, что 80% звонков не имеют проблем. Вероятность отсутствия сбоев в N звонках подряд равна 0,80<sup>N<\/sup>. Нам нужно подобрать минимальное N, при котором вероятность упадет до 1%: 0,80<sup>N<\/sup> = 1%<\/p>\n<p>Получается, нам нужно вычислить логарифм 1% по основанию 80%!<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/every5th01.PNG\" width=\"223\" height=\"36\" alt=\"\" \/>\n<\/div>\n<p>Загружаем в Гугл Таблицы:<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/every5th00.PNG\" width=\"366\" height=\"320\" alt=\"\" \/>\n<\/div>\n<p>Формула для ячейки C5 будет выглядеть как<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=LOG(1-C2;1-C3)<\/code><\/pre><div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/every5th02.PNG\" width=\"373\" height=\"262\" alt=\"\" \/>\n<\/div>\n<p>Нужно сделать 20,64 звонка. (Проверяем: 0,80<sup>20,64<\/sup> = 0,9995%, идеально.)<\/p>\n<p>Остается только добавить округление:<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=ОКРУГЛВВЕРХ(C5)<\/code><\/pre><p>или сразу<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">=ОКРУГЛВВЕРХ(LOG(1-C2;1-C3))<\/code><\/pre><div class=\"e2-text-picture\">\n<img src=\"https:\/\/mathandcoffee.ru\/pictures\/every5th03.PNG\" width=\"366\" height=\"266\" alt=\"\" \/>\n<\/div>\n<h2>Проверяем гипотезу<\/h2>\n<p>Если альтернативная гипотеза <i>H<sub>1<\/sub><\/i> нашего подрядчика верна, и мы испытываем проблемы со связью в каждом пятом звонке, то, вероятность не заметить проблем в 21 тестовом звонке подряд составляет порядка 1%. Иными словами, либо это крайне редкое совпадение (1%), либо альтернативная гипотеза о проблемах в 20% звонков неверна (99%), и мы оставляем нулевую гипозеу <i>H<sub>0<\/sub><\/i>. <b>С вероятностью 99% мы уверены, что проблем со связью не наблюдается.<\/b><\/p>\n",
            "date_published": "2019-06-09T16:45:58+03:00",
            "date_modified": "2019-06-22T14:49:54+03:00",
            "image": "https:\/\/mathandcoffee.ru\/pictures\/every5th01.PNG",
            "_date_published_rfc2822": "Sun, 09 Jun 2019 16:45:58 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "21",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css"
                ],
                "og_images": [
                    "https:\/\/mathandcoffee.ru\/pictures\/every5th01.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/every5th00.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/every5th02.PNG",
                    "https:\/\/mathandcoffee.ru\/pictures\/every5th03.PNG"
                ]
            }
        }
    ],
    "_e2_version": 3565,
    "_e2_ua_string": "E2 (v3565; Aegea)"
}