3 min read

Стандартизованная оценка (Z-Score)

Стандартизованная оценка (Z-Score)

Стандартизованная оценка (z) – метрика, характеризующая удаленность Наблюдения (Observation) от Среднего значения (Mean) Генеральной совокупности (Population). Иными словами, на сколько стандартных отклонений ниже или выше среднего находится наблюдение. Рассчитывается для каждого из них с помощью формулы:

$$z = \frac{x_i - μ}{σ}, где$$
$$z\space{–}\space{cтандартизованная}\space{оценка,}$$
$$x_i\space{–}\space{исходный}\space{элемент}\space{выборки,}$$
$$μ\space{–}\space{среднее}\space{арифметическое,}$$
$$σ\space{–}\space{стандартное}\space{отклонение}$$

Пример. Мы располагаем Выборкой (Sample) из 10 наблюдений, где указано, какие оценки по литературе получил класс:

Средним арифметическим значением (Mean) выборки будет 3,6:

$$\bar{X} = (3 + 2 + 3 + 4 + 2 + 5 + 2 + 5 + 5 + 5) / 10 = 3,6$$

Для вычисления z-оценок нам потребуется также Стандартное отклонение (Standard Deviation), которое рассчитывается с помощью формулы:

$$σ = \sqrt{\frac{Σ_{i=1}^n(x_i - \bar{X})^2}{n}}, где$$
$$σ\space(малая\spaceсигма)\space–\spaceстандартное\spaceотклонение$$
$$Σ\space–\spaceсумма$$
$$x\space–\space{i-й}\spaceэлемент\spaceвыборки$$
$$\bar{X}\space–\spaceсреднее\spaceзначение\spaceвыборки$$
$$n\space–\spaceколичество\spaceэлементов\spaceв\spaceвыборке$$

Следуя формуле, вычислим квадрат разницы между i-м элементом выборки и средним значением. К примеру, для первого вхождения это будет:

$$x_i – \bar{X} = (3 - 3,6)^2 = 0,36$$

Для каждой из наших оценок такой квадрат разницы будет равен числам справа:

Сумма значений правого столбца, разделенная на количество наблюдений, и даст нам значение коэффициента стандартного отклонения:

$$σ = 16,4 / 10 = 1,64$$

Теперь мы можем вычислить z-оценки для каждого наблюдения. К примеру, для первого из них она будет равна:

$$σ = \frac{3 - 3,6} / 1,64 ≈ -0,37$$

Применение

Z-оценка – это способ сравнить результаты с «нормальной» частью совокупности. Результаты тестов или опросов имеют тысячи возможных результатов и единиц измерения, что затрудняет сравнение. Например, мы знаем, что вес человека составляет 150 фунтов, но сравнивать его с обширными табличными данными может быть трудозатратным (особенно если некоторые веса записаны в килограммах). Z-оценка может сказать вам, где вес этого человека находится на шкале "от дефицитного до избыточного".

Теперь, когда мы понимаем, что такое стандартное отклонение, не составит труда запомнить, что z-оценка – это лишь количество стандартных отклонений, на которые удалено наблюдение от среднего. Принято считать, что наблюдение выходит за пределы нормального, если абсолютное значение его z-оценки превышает 2 (то есть меньше -2 и больше 2).

Таблица z-оценок

Зная z-оценку, мы можем вычислить занимаемую площадь под кривой нормального распределения. В примере про оценки за литературу у оценки "двойка" коэффициент равен -0,37:

Чтобы уточнить площадь ярко-розовой части фигуры, используется таблица z-оценок, в данном случае, для отрицательных значений коэффициента. Для числа '-0,37' мы должны найти строку '0.3' в левом столбце z и столбец с названием '0,7':

На пересечении этих элементов таблицы находится число 0,35569, и это не только площадь фигуры, но и долю студентов за этой чертой успеваемости. Таким способом вычисляют самых способных студентов.

Стандартизированная оценка и SciPy

Стандартизированную оценку можно вычислить с помощью метода SciPy:

from scipy import stats

a = np.array([ 0.7972,  0.0767,  0.4383,  0.7866,  0.8091,
               0.1954,  0.6307,  0.6599,  0.1065,  0.0508])
stats.zscore(a)

Мы получим такие значения коэффициентов:

array([ 1.1273, -1.247 , -0.0552,  1.0923,  1.1664, -0.8559,  0.5786,
       ​0.6748, -1.1488, -1.3324])

Фото: @mganeolsen