Вы подписаны на Машинное обучение доступно
Отлично! завершите оплату для полного доступа к Машинное обучение доступно
Снова приветствуем Вас! Вы успешно авторизовались
Успех! Аккаунт активирован, и Вы имеете полный доступ к контенту.
Мощность (Cardinality)

Мощность (Cardinality)

in

Мощность – 1. Количество уникальных значений Признака (Feature). Понятие "Высокая мощность" применимо, как следствие, к признакам с уникальным обширным набором возможных значений. 2.Число вершин Графа (Graph) Нейронной сети (Neural Network).

Большая мощность признаков InvoiceNo – InvoiceDate в pandas_profiling

Мощность одного признака. Например, если список A имеет конечное число элементов, его мощность – это просто количество элементов. Если A = [2,4,6,8,10], то мощность равна 5.

Мощность пар признаков. Пример. Мы выделили уникальные значения двух признаков датасета:

A = [1, 2, 3, 4, 5], B = [3, 7]

Объединенная мощность A и B (обозначается так: A ⋃ B, это оператор присоединения множеств) равна 7, поскольку A + B = [1, 2, 3, 4, 5, 7], и в этом новом ряду 6 элементов. Мощность A ⋂ B равна 1, так как A пересекается с B (A ⋂ B) лишь одним элементом – числом 3.

Высокая мощность

Конструирование признаков

Если "мощный" признак является Целевым (Target Variable), и не только, это значительно усложняет задачу Классификации (Classification), и тогда применяется Конструирование признаков (Feature Engineering) с целью сократить число возможных классов. Например, столбец с индексами преобразовывается в города:

Отсекание редких классов

Другой подход к урегулированию числа возможных классов – это сохранить самые распространенные значения и отсечь редкие с помощью специального порога, или сделать редкие классы одним большим.

Кодировка числом вхождений

Еще один интересный способ сокращения мощности признака – Кодировка числом вхождений (Count Encoding). Мы заменяем каждое категориальное значение количеством раз, которое оно встречается в Датасете (Dataset). Например, если значение A встречается 10 раз, то каждое такое вхождение будет заменено числом 10.

Средняя мощность

Если число уникальных значений не столь велико, можно сгенерировать Фиктивные переменные (Dummy Variable), чтобы сделать возможной загрузку такого датасета в Модель (Model).

Низкая мощность

Признаки с двумя уникальными значениями обладают низкой мощностью. Если такой признак является целевым, задача классификации становится Бинарной (Binary Classification).

Фото: @dan_stark