2 min read

Стандартное отклонение (Standard Deviation)

Стандартное отклонение (Standard Deviation)

Стандартное отклонение (σ, s) – это мера разброса в наборе числовых данных. Выражаясь простыми словами, насколько далеко от Cреднего арифметического (Mean) находятся точки данных. Его также можно назвать мерой центральной тенденции: чем меньше стандартное отклонение, тем более «сгруппированы» данные вокруг центра (среднего). Чем отклонение больше, тем больше разброс значений.

Стандартное отклонение в статистике

Метрика рассчитывается с помощью следующей формулы:

$$σ = \sqrt{\frac{Σ_{i=1}^n(x_i - \bar{X})^2}{n}}, где$$
$$σ\space(малая\spaceсигма)\space–\spaceстандартное\spaceотклонение$$
$$Σ\space–\spaceсумма$$
$$x\space–\space{i-й}\spaceэлемент\spaceвыборки$$
$$\bar{X}\space–\spaceсреднее\spaceзначение\spaceвыборки$$
$$n\space–\spaceколичество\spaceэлементов\spaceв\spaceвыборке$$

Пример. Мы располагаем Выборкой (Sample) из 10 наблюдений, где указано, сколько килограммов томатов собрали дачники в этом месяце:

Средним значением выборки будет 7,7:

$$\bar{X} = (5 + 7 + 8 + 11 + 12 + 7 + 5 + 4 + 10 + 8) / 10 = 7,7$$

Следуя формуле, вычислим квадрат разницы между i-м элементом выборки и средним значением. К примеру, для первого вхождения это будет:

$$x_i – \bar{X} = (5 - 7,7)^2 = 7,29$$

Причина, по которой мы возводим разницы в квадрат, заключается в том, что большие отклонения от среднего как бы "наказываются" более сурово. Возведение в квадрат также приводит одинаковому учету отклонений в обоих направлениях (положительном и отрицательном), то есть расстояние от среднего значения у отрицательного и положительного числа будет рассчитано верно в обоих случаях.

Суммой значений правого столбца является число 64,1. Итак, согласно формуле стандартное отклонение будет равно:

$$σ = \frac{64,1}{10} = 6,41$$

Стандартное отклонение в Машинном обучении

Представьте, что перепись "томатного" населения приобрела более широкие масштабы, и исследователи собрали данные о целом климатическом поясе. Мало тех, кто собрал по 2 килограмма, и тех, кто собрал 50. В среднем, садоводы собирали 25 кг.

При создании модели прогнозирования урожая стандартное отклонение уточняет наши предположения с помощью следующих принципов:

  • С вероятностью 68% следующее наблюдение будет лежать в пределах одного отклонения от среднего (25 ± 6,41), то есть в диапазоне 18,59 - 31,41 кг.
  • С вероятностью 95% следующий дачник сообщит, что собрал томатов. в пределах двух стандартных отклонений от среднего значения (25 ± 2 × 6,41), то есть 12,18 – 37,82 кг.
  • С вероятностью 99% размер урожая будет лежать в пределах 3 отклонений (25 ± 3 × 6,41): 5,77 – 44,23 кг.

Библиотека Statistics

Рассчитывание стандартного отклонения выполняется мгновенно с помощью библиотеки statistics:

import statistics 
sample = [1, 2, 3, 4, 5] 
statistics.stdev(sample)

На выводе получаем следующее:

1.5811388300841898

Фото: @danielodowd