2020/06/26 10:12:20

Статистические метрики (выборка, дисперсия)

.

Содержание

Выборка

Выборка — это набор данных, которые попали в исследование. Она может быть репрезентативной, не совсем или совсем не. К примеру, мы хотим посчитать среднюю зарплату в городе. Наша выборка по демографическим соотношениям должна совпадать с общегородской статистикой — тогда она будет репрезентативной.

Дисперсия

Дисперсия — это разброс данных в нашем исследовании, этот параметр позволяет понять, что вообще с выборкой делать. Допустим, мы хотим посчитать среднюю температуру по больнице. Дисперсия будет от +34 до +42 градусов по Цельсию, она достаточно низкая, чтобы применить метод среднего арифметического. А вот если добавить в выборку труп комнатной температуры, дисперсия окажется слишком большой, чтобы выборка была репрезентативной[1].

Дисперсия — это мера «разброса» случайной величины от ее самого вероятного значения. У учеников оценка может быть от 2 до 5. Если мы считаем, что наиболее вероятная оценка у школьников 3,5, то мы имеем дисперсию, равную 1,5. Это небольшая дисперсия. Она позволяет нам говорить о том, что среднее арифметическое класса достаточно показательно, если мы хотим сравнить, какой класс знает математику лучше. При помощи такой аргументации гораздо проще объяснить маме тройку, чем доказывать, что у всех вообще два. Согласитесь, «Мама, я сделал вывод, что моя тройка с плюсом выше среднего арифметического в классе, что говорит о том, что я заслуживаю поощрения, а не наказания» звучит гораздо убедительнее, чем «Мама! Да у всех вообще двойки!».

В случае со средней температурой по больнице всё становится интереснее. Дисперсия температуры у живого человека не такая уж большая — от примерно +34 до +42 °С при максимально ожидаемой +36,6 °С. Это позволяет нам говорить, что среднее арифметическое достаточно показательно для оценки ситуации. Можно сказать, что в среднем пациенты в инфекционном отделении теплее пациентов в травматологическом. Однако всё меняется, если добавить труп с комнатной температурой. Это увеличивает дисперсию и приводит к тому, что среднее становится совершенно нерепрезентативным.Метавселенная ВДНХ 3.6 т

Точно так же можно посмотреть на статистику среднего возраста рождения первого/второго/третьего ребенка у женщины. Почему все учитывают именно женщин, а не мужчин? С агрегацией данных по мужчинам возникает много проблем: разная дисперсия по сравнению с женщинами (у женщин период, когда они могут иметь детей, гораздо короче, чем у мужчин), принципиально разное количество детей, которые могут появиться в течение жизни, сложности с достоверным установлением отцовства.

Примечания