Вы подписаны на Машинное обучение доступно
Отлично! завершите оплату для полного доступа к Машинное обучение доступно
Снова приветствуем Вас! Вы успешно авторизовались
Успех! Аккаунт активирован, и Вы имеете полный доступ к контенту.
Датафрейм (Dataframe)

Датафрейм (Dataframe)

in

Датафрейм – это двумерная структура данных со столбцами и строками. Это специальный аналог таблицы Excel или SQL – наборе Серий (Series) и наиболее часто используемый объект библиотеки Pandas:

Наряду с данными вы можете дополнительно передать индекс – столбец с уникальными значениями, однозначно идентифицирующими каждое Наблюдение (Observation).

Многие знают датафрейм как способ хранения данных в прямоугольных сетках, которые можно легко просмотреть. Каждая строка этой сетоки соответствует отдельному наблюдению, а каждый столбец – это Признак (Feature). Cтроки датафрейма могут содержать значения разных типов: они могут быть числовыми, символьными, Булевыми (Boolean Data Type) и так далее. Можно сказать, что датафрейм состоит из трех основных компонентов: данных, индекса и столбцов.

Инициализация датафрейма

Первый из способов создания датафрейма – метод библиотеки Pandas read_csv():

df = pd.read_csv('https://www.dropbox.com/s/9t04t1haanbdvvt/bank-data-for-pca.csv?dl=1')
df

Еще один способ – создать его из нескольких серий:

d = {'one' : pd.Series([10, 20, 30, 40],
                       index =['a', 'b', 'c', 'd']),
      'two' : pd.Series([10, 20, 30, 40],
                        index =['a', 'b', 'c', 'd'])}
                        
df = pd.DataFrame(d)

Способов инициализации великое множество – от передачи Списков (List) до создания Кортежей (Tuples) и превращения их в списки.

Фото: @jadlimcaco