Точечная диаграмма (Scatterplot)
Точечная диаграмма – это график, на котором каждое значение представлено точкой в n-мерном пространстве:

Точечная диаграмма активно используется в Машинном обучении (ML) в самых разных визуализационных целях:
- Для оценки качества Кластеризации (Clustering)
- Для оценки скученности Наблюдений (Observation)
- Для оценки корреляции переменных
- Для обнаружения Выбросов (Outlier)
- Для обнаружения ошибок в данных и проч.
Точечная диаграмма и Matplotlib
Точечную диаграмму легко создать с помощью Matplotlib. Для начала импортируем интерфейс Pyplot:
import matplotlib.pyplot as plt
Используем случайные данные в качестве координат точек. Каждому n-му значению координаты x соответствует n-е значение y:
x = [16, 7, 28, 11, 9, 29, 22, 7, 29, 13, 15, 25, 17]
y = [20, 13, 26, 22, 13, 24, 4, 25, 26, 24, 12, 17, 2]
Зададим базовые характеристики – размер полотна графика (["figure.figsize'] = (25, 10)
), размер точки (s = 60
):
plt.scatter(x, y, s = 60)
plt.rcParams["figure.figsize"] = (25, 10)
plt.show()
Мы получаем классическую точечную диаграмму без корреляций:

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.
Фото: @clemono