Вы подписаны на Машинное обучение доступно
Отлично! завершите оплату для полного доступа к Машинное обучение доступно
Снова приветствуем Вас! Вы успешно авторизовались
Успех! Аккаунт активирован, и Вы имеете полный доступ к контенту.
Среднее значение (Average)

Среднее значение (Average)

in

Среднее значение (μ – "мю", x̅ ) – мера центральной тенденции, служащая для описания множества значений одним-единственным числом. Меру  можно охарактеризовать несколькими метриками: Cреднее (Mean), Медиана (Median), Мода (Mode). В Науке о данных (Data Science) широкое применение получили следующие его разновидности: арифметическое, геометрическое и гармоническое средние значения.

Среднее арифметическое

Среднее арифметическое  (μ для совокупности, x̄ для выборки; англ. Arithmetic Mean) – показатель описательной статистики, сумма элементов Датасета (Dataset), разделенная на их количество. Рассчитывается с помощью формулы:

$$μ = \frac{Σ_{i=1}^n a_i}{n}, где$$
$$μ\space{–}\space{среднее,}$$
$$Σ_{i=1}^n a_i\space{–}\space{сумма}\space{всех}\space{элементов}\space{выборки},$$
$$n\space{–}\space{количество}\space{наблюдений}$$

По умолчанию рассматривают именно с среднее арифметическое, остальные разновидности среднего рассматривают реже:

Разновидности среднего значения

В данной статье рассматриваются простые средние значения без Весовой функции (Weight Function).

Пример. Для небольшого списка [1, 6, 3, 2] средним арифметическим будет:

$$μ = \frac{1 + 6 + 3 + 2}{4} = \frac{12}{4} = 3$$

Понятие используется в Науке о данных множеством способов:

  • В сочетании с другими показателями описательной статистики для первичного представления о признаке (Feature)
  • Для визуальной оценки скошенности признака:
Данные скошены влево, и одного Среднего для описания признака уже недостаточно
  • Для индикации Выбросов (Outlier) и проч.

Среднее арифметическое и библиотека statistics

Рассчитать среднее автоматически позволит библиотека statistics. Установим библиотеку и импортируем ее для начала:

!pip install statistics
import statistics

Инициализируем список:

# Выборка: высота плодовых деревьев  
lst = [5, 16, 1, 12, 20, 5, 17, 2, 11, 3, 16, 15, 6, 9]

x = statistics.mean(lst) 
print('Арифметическое среднее: %.3f' % x)
Арифметическое среднее: 9.857

Среднее геометрическое

Среднее геометрическое (Geometric Mean) – корень N-й степени из произведения всех значений:

$$x̅_{geom} = \sqrt[n]{x_1 × x_1 ×... × x_n},\space{где}$$
$$x̅_{geom}\space{–}\spaceсреднее\space{геометрическое,}$$
$$x_n\space{–}\space{n-й}\space{элемент}\space{выборки}$$

Если Выборка (Sample) содержит два значения, мы извлекаем квадратный корень из перемноженных элементов. Для трех значений используется кубический корень и так далее.

Пример. Как построить квадрат той же площади, что и прямоугольник 2 x 18? Вычислим среднее геометрическое:

$$x̅_{geom} = \sqrt[2]{2 × 18} = 6$$

Площади равны

Наш квадрат будет иметь ту же площадь (36), и ребра, равные 6.

В Машинном обучении (ML) Критерий G-Mean (Geometric Mean) – это Среднее геометрическое, определяющее качество классификации большинства и меньшинства. Низкий G-Mean-критерий является признаком плохой работы Модели (Model) в Бинарной классификации (Binary Classification) для положительных случаев.

Среднее геометрическое и SciPy

Среднее геометрическое можно вычислить с помощью функции SciPy gmean():

from scipy.stats import gmean
# Инициализируем список данных
data = [1, 2, 3, 40, 50, 60, 0.7, 0.88, 0.9, 1000]

# Применим функцию
y = gmean(data)
print('Среднее геометрическое: %.3f' % y)
Среднее геометрическое: 7.246

Среднее гармоническое

Среднее гармоническое (Harmonic Mean) – количество значений, поделенное на сумму обратных величин:

$$x̅_{harmonic} = \frac{N}{\frac{1}{x_1} + \frac{1}{x_2} + ... + \frac{1}{x_n}},\space{где}$$
$$x̅_{harmonic}\space{–}\space{среднее}\space{гармоническое,}$$
$$x_n\space{–}\space{n-й}\space{элемент}\space{выборки}$$

В Машинном обучении Критерий F1 ( F1 Score), показатель оценки эффективности модели, – это Среднее гармоническое Точности измерений (Accuracy) и Отзыва (Recall).

Среднее гармоническое и SciPy

Среднее гармоническое значение можно вычислить с помощью функции SciPy hmean().

from scipy.stats import hmean
# Инициализируем список
data = [0.11, 0.22, 0.33, 0.44, 0.55, 0.66, 0.77, 0.88, 0.99]

z = hmean(data)
print('Среднее гармоническое: %.3f' % z)
Среднее гармоническое: 0.350

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Фото: @peterluo0113