Что лучше медиана или среднее

Что лучше медиана или среднее

Сравнение погрешностей приборов критерием Манна-Уитни на сервисе Статзиллы показало, что средний уровень погрешностей двух приборов статистически значимо различается (уровень статистической значимости р=0,02). При этом, среднее арифметическое ошибки прибора А равно 14,6 мм.рт.ст., но и у прибора Б оно также составило 14,6 мм.рт.ст…Какой из приборов статистически лучше?

Ниже приведены результаты расчета значимости различий по Манну-Уитни:

Во-вторых, медиана оценивает среднее, нивелировав влияние выбросов. Но именно эта «сдержанность» медианы может скрыть из виду важные моменты, тогда как среднее арифметическое, завысив или занизив среднее, поможет обратить на них внимание. Так, в нашем примере 2 с погрешностью прибора, медиана говорит, что прибор Б измеряет давление в среднем точнее. Но высокое среднее арифметическое и сами данные указывают на внушительные выбросы – 30 и 90 мм.рт.ст. Очень важно разобраться с ними и понять, чем вызваны такие аномально высокие ошибки измерений.

В-третьих, что бы вы ни решили использовать, обязательно укажите, насколько эта оценка среднего уровня устойчива. Для этого можно использовать различные показатели: корень из дисперсии, ошибку среднего, квартили, минимум и максимум, доверительный интервал. Только совокупность описательных статистик даст полную картину о рассматриваемом показателе и позволит избежать нелепых ошибок, неверных выводов, страшных вопросов на защите и насмешек коллег 🙂

Источник

Что лучше медиана или среднее

Сегодня разберем два понятия «среднее» и «медиана».

Для начала задам два вопроса: знакомы ли вы с понятием «медиана»? Знаете ли вы, в чем разница между средним и медианой? Скорее всего, если вы работаете с обзорами по рынку зарплат, вы встречали понятие медианы и чаще всего именно на этом ее применение и заканчивалось. Но я рекомендую использовать медиану и в других случаях.

Среднее – это самый популярный статистический показатель, который используется для измерения центра или середины данных. Среднее значение считается как сумма всех чисел, деленная на общее количество чисел. Это материал где-то пятого класса, поэтому тут пока все просто. Среднее значение в компаниях считают для стажа, возраста сотрудников, зарплаты по грейду, уровню должности, для подачи отчетности по статистическим данным. Считается с помощью функции в Excel: СРЗНАЧ или AVERAGE в английской версии.

Среднее значение может быть не совсем объективным отражением данных, так как на него могут влиять выбросы (очень большие или очень маленькие значения в наборе данных).

Если вы считаете средний стаж работы сотрудников в компании при большой текучести, стаж до трех месяцев работы сотрудников будет занижать данные. Или наоборот, у вас есть сотрудники-старожилы, которые работают с основания компании. При учете их продолжительности стажа вы будете завышать данные, что тоже искажает отчетность.

Пример: рассчитать средний стаж работы сотрудников.

Средний стаж составит 4 года.

Медиана – значение, которое делит отсортированные по возрастанию данных на две равные части. То есть медиана показывает середину ваших данных. Медиана считается как значение, расположенное по середине ряда отсортированных значений. Если в ряду находится нечетное количество данных, например, 5, то медианой будет третье значение. Если четное количество данных, например, 4, то медианой будет (значение 2+ значение 3)/2. То есть среднее значение двух показателей посередине.

Считается с помощью функции в Excel МЕДИАНА или MEDIAN в английской версии. Медиана лишена недостатков среднего значения, на нее не влияют выбросы.

Читайте также:  что лучше педагогический или юридический

Источник

Среднее или всё же медиана?

Cреднее арифметическое значение (далее по тексту — среднее), пожалуй, наиболее популярный статистический параметр. Этим понятием пользуются повсеместно — начиная от поговорки «средняя температура по больнице» и кончая серьезными научными трудами. Однако, как ни странно, среднее значение — коварное понятие, часто вводящее в заблуждение, вместо того чтобы придавать четкость изложению и вносить ясность.

Если говорить о научной работе, то статистический анализ данных применяется почти во всех прикладных науках, даже и в гуманитарных (например, психологии). Среднее значение вычисляется для признаков, измеряемых в так называемых непрерывных шкалах. Такими признаками являются, например, концентрации веществ в сыворотке крови, рост, вес, возраст. Среднее арифметическое можно легко вычислить, и этому учат еще в средней школе. Однако (в соответствии с положениями математической статистики) среднее значение является адекватной мерой центральной тенденции в выборке только в случае нормального (гауссова) распределения признака (рис. 1).

Рис. 1. Нормальное (гауссово) распределение признака в выборке. Среднее (М) и медиана (Ме) совпадают

В случае же отклонения распределения от нормального закона среднее значение использовать некорректно, так как оно является слишком чувствительным параметром к так называемым «выбросам» — нехарактерным для изучаемой выборки,слишком большим или слишком малым значением (рис. 2). В этом случае для характеристики центральной тенденции в выборке должен применяться другой параметр — медиана. Медиана — это значение признака, справа и слева от которого находится равное число наблюдений (по 50%). Этот параметр (в отличие от среднего значения) устойчив к «выбросам». Заметим также,что медиана может использоваться и в случае нормального распределения — в этом случае медиана совпадает со средним значением.

Рис. 2. Распределение признака в выборке, отличное от нормального. Среднее (м) и медиана (МЕ) не совпадают

Для того, чтобы узнать, является ли распределение признака в выборке нормальным (гауссовым) или нет, т.е. для того, чтобы узнать, какой из параметров следует применять (среднее значение или медиану), существуют специальные статистические тесты.

Приведем пример. Скорость оседания эритроцитов в группе пациентов, недавно перенесших пневмонию, — 3, 5, 5, 7, 11, 12, 16, 16, 21, 42, 58. Среднее значение для этой выборки равно 17,8, медиана — 12. Распределение (по тесту Шапиро—Уилка) нормальным не является (рис. 3), поэтому использовать надо медиану.

Как ни странно, но в некоторых областях экономики сторонний наблюдатель не может заметить хоть какого-то следа корректного применения математической статистики. Так, нам постоянно говорят о средней зарплате (например, в НИИ), и эти числа обычно удивляют не только рядовых сотрудников, но и руководителей подразделений (ныне называемых «менеджерами среднего звена»). Мы удивляемся, что средняя зарплата в Москве — 40 тыс. руб., но, конечно, понимаем, что нас «усреднили» с олигархами. Вот пример из жизни научных работников: зарплаты сотрудников лаборатории (тыс. руб.) — 3, 5, 5, 7, 11, 12, 16, 16, 21, 42, 58. Среднее значение — 17,8, медиана — 12. Согласитесь, что это разные числа!

Конечно, нельзя исключить, что замалчивание свойств среднего — лукавство, так как руководству всегда выгоднее представить ситуацию с зарплатой сотрудников лучше, чем она есть на самом деле.

Не пора ли научному сообществу призвать наших руководителей прекратить некорректное использование математической статистики?

Ольга Реброва,
докт. мед. наук, вице-президент
МОО «Общество специалистов доказательной медицины»

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Источник

Читайте также:  что значит жить в иллюзиях

«Средние» значения — ваш враг. Как не попасться на удочку усреднения

СМИ, политика и бизнес часто оперируют данными о среднем: средний доход, средняя продолжительность жизни, средний потребитель. Иногда эти цифры полезны, но часто — бессмысленны и даже обманчивы. Автор книги «Путеводитель по лжи» Дэниел Левитин рассказывает, как не попасться на удочку усреднения.

Среднее арифметическое, медиана и мода

Есть три вида средних, и они могут выражаться разными числами. Поэтому те, кто всерьез занимается статистикой, избегают слова «среднее», отдавая предпочтение более точным терминам: среднее арифметическое, медиана или мода. Иногда все эти величины совпадают, но чаще они различаются.

Чаще других встречается среднее арифметическое; оно равно сумме всех данных, поделенной на их количество. Медиана — это число в середине упорядоченного набора чисел (статистики называют его выборкой): половина данных находится ниже этого значения, а половина выше. Мода — цифра, которая встречается чаще других.

Бимодальное распределение

Если вы работаете со средними, остерегайтесь бимодального распределения. Во многих наборах данных — биологических, физических, социальных — у распределения может быть два или больше пиков.

Например, подобный график может отображать сумму, потраченную на обеды в неделю (ось X), и количество людей, потративших такую сумму (ось Y). Представьте, что вы изучали две группы людей: детей (левый горб) — они покупают школьные обеды — и руководителей компаний (правый горб) — они ходят в дорогие рестораны.

Среднее арифметическое и медиана в данном случае — это числа где-то между этими двумя горбами, и они ничего не скажут о том, что происходит на самом деле, — ведь во многих случаях среднее арифметическое и медиана отражают ту сумму, которую никто не тратит. Подобный график говорит лишь о том, что в вашем примере имеет место неоднородность — вы сравниваете яблоки с апельсинами. В таком случае лучше сразу сказать, что вы имеете дело с бимодальным распределением, и сообщить о двух модах. А еще лучше разделить группу на две подгруппы и собрать статистические данные для каждой.

Экологическая ошибка

Будьте осторожны, когда будете делать выводы об отдельных людях и о группах, основываясь на средних данных. Тут легко наткнуться на экологическую ошибку.

Экологическую ошибку совершают те, кто считает, что если выбрать наугад человека из группы с более высоким средним доходом, то и у него доход будет выше.

Средний инвестор не получает средний доход

Посещает ли средний студент колледжа колледж среднего размера, растет ли среднее дерево в среднем лесу и получает ли средний инвестор средний доход? Нет.

В одном исследовании средний доход от инвестиции 100 долларов на срок 30 лет составил 760 долларов, или 7% в год. Звучит неплохо. Но эта статистика не показывает, что 9% инвесторов потеряли деньги, а огромному числу инвесторов, 69%, не удалось достигнуть показателя среднего дохода. Так случилось потому, что среднее арифметическое было смещено из-за нескольких человек, заработавших больше среднего.

Будьте осторожны со средними, а также с тем, как их интерпретируют. Усредняя данные по выборкам из несопоставимых совокупностей, игнорируя разброс значений, допуская экологические ошибки мы видим мир искаженным и принимаем неверные решения.

Источник

СРЕДНЕЕ vs МЕДИАНА

Не знаю как вы, но я люблю инфографики и статистические данные. С помощью них человек может получить максимальное количество информации за минимальное время. Главное — понимать, что за понятия здесь используются. Например, достаточно часто в статистике используется «среднее значение»: средняя зарплата, средняя продолжительность жизни, средний уровень интеллекта 🙂 и т.д. Сегодня мы посмотрим на сколько обманчивым может быть описание данных с помощью среднего.

Читайте также:  что значит организованная аудитория

Итак, предположим, сижу я в кинозале. Фильм настолько скучный, что уснуть заняться статистическими расчётами оказалось куда интересней. Решила я подсчитать среднюю зарплату людей в зале. Для этого спросила каждого из 50-ти зрителей, сколько он получает. В результате выяснилось, что 11 человек получают около 30 тыс., 10 человек — 28 тыс., 10 человек — 32 тыс. и т.д. Теперь я могу построить график, отображающий сколько людей получает 20 тыс., 22.5 тыс., 30 тыс. и т.д. :

Кстати, заметьте, величина заработной платы, скорее всего, будет подчиняться распределению Гаусса, о котором мы говорили совсем недавно. Ну а теперь, для того чтобы описать эту группу людей, я подсчитаю среднее значение. Это делается очень просто: складываю зарплаты всех сидящих в зале и делю эту сумму на количество людей. То есть, например, если бы у нас было только 5 человек с зарплатами 30, 30, 25, 28, 15 тысяч рублей, то среднее значение бы равнялось (30+30+25+28+15)/5 = 25.6 тыс. руб. Для группы людей в кинозале я получила среднюю зарплату около 30 тыс. руб. Судя по графику выше, результат выглядит вполне себе логично.

Всё бы ничего, но в середине сеанса в зал заходит продюсер фильма. И вот его зарплата ну уж очень сильно отличается от средней. Предположим, зарабатывает он миллион рублей в месяц. Что же тогда происходит с только что подсчитаной средней зарплатой по кинозалу? Она смещается, при чём смещается очень сильно. Теперь средняя зарплата равна 40 тыс. рублей:

Ну а вот этот результат, мне уже совсем не нравится. Ведь он противоречит тому, что я вижу. По моим ощущениям средняя зарплата по кинозалу не должна быть намного больше 30 тысяч. Но математика говорит иначе. Неужели она лжёт? Нет. Просто в данном случае использовать среднее значение неправильно. Более разумно в этом случае бы было использовать медиану.

Итак, что же это такое? Снова рассмотрим пример с зарплатами пяти человек: 30, 30, 25, 28, 15 тысяч рублей. Чтобы найти медиану нужно эти данные записать в порядке возрастания: 15, 25, 28, 30, 30. Теперь число, находящееся в середине этой последовательности, является медианой (это 28). То есть мне совершенно неважно, равна ли самая большая зарплата этих пятирых 30 тысячам или миллиону. Медиана останется равной 28 тысячам. И она будет более правдоподобно описывать данную группу. Таким же образом я считаю медиану заработной платы людей в кинозале. Даже после прихода продюсера фильма, медиана окажется около 30 тысяч рублей.

То есть описание заработной платы группы людей медианой в нашем случае дало более реальную оценку в сравнении со средним значением. Вот такая вот простая описательная статистика. Так что будьте внимательны к тому, что скрывается за высокопарными статистическими данными и подписывайся на мой телеграм-канал. Вопросы пишите в комментариях. Ну а если статья понравилась, обязательно поделись ссылкой с друзьями в социальных сетях :).

Источник

Библиотека с советами