Вы подписаны на Машинное обучение доступно
Отлично! завершите оплату для полного доступа к Машинное обучение доступно
Снова приветствуем Вас! Вы успешно авторизовались
Успех! Аккаунт активирован, и Вы имеете полный доступ к контенту.
Точечная диаграмма (Scatterplot)

Точечная диаграмма (Scatterplot)

Точечная диаграмма – это график, на котором каждое значение представлено точкой в n-мерном пространстве:

Точечная диаграмма в двумерном пространстве

Точечная диаграмма активно используется в Машинном обучении (ML) в самых разных визуализационных целях:

  • Для оценки качества Кластеризации (Clustering)
  • Для оценки скученности Наблюдений (Observation)
  • Для оценки корреляции переменных
  • Для обнаружения Выбросов (Outlier)
  • Для обнаружения ошибок в данных и проч.

Точечная диаграмма и Matplotlib

Точечную диаграмму легко создать с помощью Matplotlib. Для начала импортируем интерфейс Pyplot:

import matplotlib.pyplot as plt

Используем случайные данные в качестве координат точек. Каждому n-му значению координаты x соответствует n-е значение y:

x = [16, 7, 28, 11, 9, 29, 22, 7, 29, 13, 15, 25, 17]
y = [20, 13, 26, 22, 13, 24, 4, 25, 26, 24, 12, 17, 2]

Зададим базовые характеристики – размер полотна графика (["figure.figsize'] = (25, 10)), размер точки (s = 60):

plt.scatter(x, y, s = 60)
plt.rcParams["figure.figsize"] = (25, 10)
plt.show()

Мы получаем классическую точечную диаграмму без корреляций:

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Фото: @clemono