1 min read

Гистограмма (Histogram)

Гистограмма (Histogram)
Фото: Luca Bravo / Unsplash

Гистограмма – популярный график, используемый во время Разведочного анализа данных (EDA), а также на других стадиях создания Модели (Model) Машинного обучения (ML). Подобный способ используется, чтобы визуализировать распределение вероятностей значений того или иного Признака (Feature).

Пример. Банк собирает данные о своих клиентах с целью определить, кто готов приобрести кредитный продукт. Для начала импортируем необходимые библиотеки:

import pandas as pd
import matplotlib
import matplotlib.pyplot as plt

Загрузим Датасет (Dataset), содержащий результаты анкетирования клиентов:

df = pd.read_csv('https://www.dropbox.com/s/62xm9ymoaunnfg6/bank-full.csv?dl=1', sep = ';')
df.head()

Обширный Датафрейм (Dataframe) содержит, помимо прочих, данные о семейном статусе клиента, его кредитной истории и даже длительности телефонного разговора:

Построим гистограммы распределения признака "Возраст":

ax = df['Возраст'].plot.hist(bins = 12, xlim = (0, 100), figsize = (15, 5))

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.