Стандартное отклонение (Standard Deviation)

Стандартное отклонение (σ, s) – это мера разброса в наборе числовых данных. Выражаясь простыми словами, насколько далеко от Cреднего арифметического (Mean) находятся точки данных. Его также можно назвать мерой центральной тенденции: чем меньше стандартное отклонение, тем более «сгруппированы» данные вокруг центра (среднего). Чем отклонение больше, тем больше разброс значений.
Стандартное отклонение в статистике
Метрика рассчитывается с помощью следующей формулы:
$$σ = \sqrt{\frac{Σ_{i=1}^n(x_i - \bar{X})^2}{n}}, где$$
$$σ\space(малая\spaceсигма)\space–\spaceстандартное\spaceотклонение$$
$$Σ\space–\spaceсумма$$
$$x\space–\space{i-й}\spaceэлемент\spaceвыборки$$
$$\bar{X}\space–\spaceсреднее\spaceзначение\spaceвыборки$$
$$n\space–\spaceколичество\spaceэлементов\spaceв\spaceвыборке$$
Пример. Мы располагаем Выборкой (Sample) из 10 наблюдений, где указано, сколько килограммов томатов собрали дачники в этом месяце:

Средним значением выборки будет 7,7:
$$\bar{X} = (5 + 7 + 8 + 11 + 12 + 7 + 5 + 4 + 10 + 8) / 10 = 7,7$$
Следуя формуле, вычислим квадрат разницы между i-м элементом выборки и средним значением. К примеру, для первого вхождения это будет:
$$x_i – \bar{X} = (5 - 7,7)^2 = 7,29$$

Причина, по которой мы возводим разницы в квадрат, заключается в том, что большие отклонения от среднего как бы "наказываются" более сурово. Возведение в квадрат также приводит одинаковому учету отклонений в обоих направлениях (положительном и отрицательном), то есть расстояние от среднего значения у отрицательного и положительного числа будет рассчитано верно в обоих случаях.
Суммой значений правого столбца является число 64,1. Итак, согласно формуле стандартное отклонение будет равно:
$$σ = \frac{64,1}{10} = 6,41$$
Стандартное отклонение в Машинном обучении
Представьте, что перепись "томатного" населения приобрела более широкие масштабы, и исследователи собрали данные о целом климатическом поясе. Мало тех, кто собрал по 2 килограмма, и тех, кто собрал 50. В среднем, садоводы собирали 25 кг.

При создании модели прогнозирования урожая стандартное отклонение уточняет наши предположения с помощью следующих принципов:
- С вероятностью 68% следующее наблюдение будет лежать в пределах одного отклонения от среднего (25 ± 6,41), то есть в диапазоне 18,59 - 31,41 кг.
- С вероятностью 95% следующий дачник сообщит, что собрал томатов. в пределах двух стандартных отклонений от среднего значения (25 ± 2 × 6,41), то есть 12,18 – 37,82 кг.
- С вероятностью 99% размер урожая будет лежать в пределах 3 отклонений (25 ± 3 × 6,41): 5,77 – 44,23 кг.
Библиотека Statistics
Рассчитывание стандартного отклонения выполняется мгновенно с помощью библиотеки statistics:
import statistics
sample = [1, 2, 3, 4, 5]
statistics.stdev(sample)
На выводе получаем следующее:
1.5811388300841898
Фото: @danielodowd