2 min read

Эксцесс (Kurtosis)

Эксцесс (Kurtosis)

Эксцесс (κ – "каппа") – это параметр распределения вероятностей (Probability Distribution), характеризующий его остроконечность. Эксцесс характеризует островершинность кривой и форму ее "хвостов":

Типы эксцессов

Эксцесс рассчитывается с помощью формулы – частное 4-го Центрального момента и квадратичной дисперсии:

$$κ = \frac{3σ^4}{σ^2}, где$$
$$κ\space{–}\space{скошенность}$$
$$3σ^4\space{–}\space{4-й}\space{центральный}\space{момент,}$$
$$σ^2\space{–}\space{квадратичная}\space{дисперсия}$$

Влияние на Машинное обучение

В зависимости от значения коэффициента эксцесс делят на три вида:


Многие годы статисты спорили, что сильнее влияет на значение эксцесса – островершинность пика кривой или же "жирные" хвосты. Последние победили:


Это значит также, что большое значение эксцесса приводит к массивным длинным хвостам длиной по 6-7 стандартных отклонений, а общепринятая норма здесь – 3-4. Это означает, помимо прочего, наличие выбросов, искажающих прогностическую силу Машинного обучения.

Эксцесс и SciPy

Коэффициент эксцесса можно вычислить с помощью метода kurtosis() SciPy.

Пример. Исследователи собрали данные о урожае крыжовника в небольшом садоводстве. По одному килограмму собрали два садовода, по два – три и так далее. 10 килограммов удалось собрать лишь одному:

Импортируем все необходимые библиотеки:

import scipy
from scipy.stats import kurtosis

Используем тот же набор наблюдений из задачи про крыжовник и рассчитаем значение коэффициента эксцесса для всей Выборки (Sample):

data = [2, 3, 4, 6, 7, 10, 11, 4, 2, 1]
kurtosis(data, fisher = False)

Эксцесс платикуртический, поскольку меньше 3:

2.1128515485938055

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Фото: @einarr05