Коэффициент Джини (Gini Score)

Коэффициент Джини (индекс Джини) – 1. (в статистике) показатель, характеризующий неравенство доходов населения. 2. (в машинном обучении) метрика, характеризующая эффективность некоторых моделей, таких как Дерево решений (Decision Tree).

Пример расчета Джини
Давайте разберемся с расчетом Джини на простом примере. У нас есть в общей сложности 10 точек данных двух классов – красного и синего:

При создании дерева решений нам нужно разделить эти наблюдения на две ветви. Рассмотрим следующее разделение на 5 красных и 5 синих. Предположим, мы делаем бинарное разделение по X = 200:

Видно, что разделение выполнено правильно: у нас осталось две ветви по 5 красных (левая) и 5 синих (правая).
Но каков будет результат, если дерево произведет расщепление по X=250? У нас осталось две ветви, левая ветвь состоит из 5 красных и 1 синей, а правая ветвь состоит из 4 синих:

Это называется несовершенным разделением. При обучении дерева решений мы используем индекс Джини как меру его эффективности.
Чтобы рассчитать этот показатель:
- Мы будем случайным образом выбирать любую точку данных из набора.
- Случайным образом мы будем классифицировать ее в соответствии с распределением классов в данном наборе данных. В нашем наборе данных мы дадим любой точке вероятность 5/10 принадлежать красной группе и 5/10 – синей, поскольку существует пять точек данных каждого цвета.
Теперь рассчитаем индекс Джини по формуле:
$$G = \sum_{i=1}^C p_{i} × (1 - p_{i}), где$$
$$G\space–\space{индекс}\space{Джини},$$
$$C\space{–}\space{общее}\space{количество}\space{классов},$$
$$p_{i}\space–\space{вероятность}\space{выбора}\space{точки}\space{данных}\space{c}\space{классом}\space{i}$$
В приведенном выше примере мы имеем два класса (C = 2) и 50% вероятность у точки принадлежать любому из двух классов (p1 = p2 = 0,5). Следовательно, индекс Джини можно рассчитать как:
$$G = p_{1} × (1 - p_{1})) + p_{2} × (1 - p_{2}) = 0.5 × (1 - 0.5) + 0.5 × (1 - 0.5) = 0.5$$
Теперь давайте рассчитаем Примесь Джини (Gini Impurity). При идеальном разделении левая ветвь имеет только красные цвета, и, следовательно, ее примесь Джини:
$$G = 1 × (1 - 1) + 0 × (1 - 0) = 0$$
Правая ветвь также имеет только синие точки, и, следовательно, ее примесь Джини также равна нулю:
$$G = 1 × (1 - 1) + 0 × (1 - 0) = 0$$
Как левая, так и правая ветви нашего идеального сплита имеют вероятность попадания чужеродной точки, равную нулю. Примесь Джини, равная 0, является наилучшим возможным вариантом.
Автор оригинальной статьи: MK Gurucharan
