Вы подписаны на Машинное обучение доступно
Отлично! завершите оплату для полного доступа к Машинное обучение доступно
Снова приветствуем Вас! Вы успешно авторизовались
Успех! Аккаунт активирован, и Вы имеете полный доступ к контенту.
Мода (Mode)

Мода (Mode)

in

Мода – это наиболее часто встречающееся в наборе данных значение. Признак (Feature) Датасета (Dataset) может иметь одну или более мод или вообще не иметь таковую. Другие популярные меры центральной тенденции включают Среднее арифметическое (Mean) и Медианy (Median).

В статистике данные могут распределяться по-разному. Наиболее часто цитируемым распределением является классическое Нормальное распределение (Normal Distribution). В этом и некоторых других распределениях среднее значение и мода совпадают.

Мода наиболее полезна в качестве меры центральной тенденции при изучении категориальных данных, таких как модели автомобилей или вкусы газированных напитков, для которых невозможно вычислить среднее математическое среднее значение.

Во многих случаях модальное значение будет отличаться от среднего значения в данных.

Примеры

Например, в следующем списке чисел модой является 16, поскольку встречается чаще, чем любое другое число:

[3, 3, 6, 9, 16, 16, 16, 27, 27, 37, 48]
Набор чисел может иметь более одной моды (бимодальный ряд), если два значения встречаются с одинаковой частотой и чаще, чем другие.

[3, 3, 3, 9, 16, 16, 16, 27, 37, 48]
В приведенном выше примере и число 3, и число 16 являются модальными значениями, поскольку каждый из них встречается три раза, и никакое другое число не встречается чаще.

[3, 6, 9, 16, 27, 37, 48]

Если ни одно число в наборе чисел не встречается более одного раза, этот набор не имеет режима, как список выше:

Набор чисел с двумя модами является бимодальным, набор чисел с тремя режимами является тримодальным, а любой набор чисел с более чем одним режимом является мультимодальным.

Преимущества и недостатки

Преимущества моды:

  • Проста для понимания и расчета
  • Устойчива к влиянию экстремальных значений
  • Легко идентифицируется в наборе данных
  • Полезна для качественных данных
  • Легко вычисляется, даже если таблица пополняется на ходу
  • Легко найти на графике распределения визуально

Недостатки:

  • Не определяется, если в наборе данных нет повторов
  • Не дает целостного представления о наборе
  • Непоказательна, когда набор маленький
  • Вносит мультимодальность. Множество модальных значений мешают получить представление о самых популярных значениях

Автор оригинальной статьи: Adam Hayes

Фото: @milada_vigerova