Вы подписаны на Машинное обучение доступно
Отлично! завершите оплату для полного доступа к Машинное обучение доступно
Снова приветствуем Вас! Вы успешно авторизовались
Успех! Аккаунт активирован, и Вы имеете полный доступ к контенту.
Признак (Feature)

Признак (Feature)

in

Признак (переменная, фича, атрибут, столбец, функция) – это объективная характеристика, характерная черта или свойство, которое может быть определено или измерено.

Представьте, что Вы имеете дело с таблицей, состоящей из столбцов, рядов и ячеек: это данные о классификация еще не родившихся детей со здоровым и больным сердцем на основании данных УЗИ. Столбец C – индикатор наличия болезни, где ноль означает, что плод здоров.

Универсальные табличные данные

Статистика

С точки зрения Статистики (Statistics), мы рассматриваем некую гипотетическую функцию f, где с помощью входных (input) переменных X пытаемся предсказать выходную (output) Y.

Статистические данные для предсказания Y

Иными словами, мы используем независимые (independent) переменные X для предсказания зависимого (dependent) признака Y:

$$Y = f(X_1, X_2)$$

Если же речь идет о компьютеризированной вычислительной статистике, строка часто описывает сущность (например, человека) и Наблюдение (Observation) о ней. Столбцы строки часто называют атрибутами наблюдения. Тогда при моделировании проблемы и прогнозировании мы ссылаемся на входные (input) и выходные (output) атрибуты.

Машинное обучение

Вот мы и добрались до Машинного обучения (ML), где всем известные термины статистики обрели новое прочтение и были снова переименованы, на сей раз в предиктор (Predictor Variable) и целевую переменную (Target Variable). Теперь мы работаем с бо́льшими объемами данных, но принципы похожи: ссылаясь на предсказательные данные, мы определяем ценность каждой из таких переменных в формировании целевого признака.

$$Y = A * X_1 + B * X_2 + C$$

Ссылаясь на пример со здоровьем плода, каковы частота сердечных сокращений и количество движений плода у здорового, а какие – у больного ребенка?

Признаки и типы

Помимо вышеуказанной классификации признаков, существуют еще и другая перспектива: типы данных (числовые, категориальные временные, текстовые):

Слева направо: числовые, категориальные, текстовые, временные, числовые данные

Фото: @davidclode