Вы подписаны на Машинное обучение доступно
Отлично! завершите оплату для полного доступа к Машинное обучение доступно
Снова приветствуем Вас! Вы успешно авторизовались
Успех! Аккаунт активирован, и Вы имеете полный доступ к контенту.
Большие данные (Big Data)

Большие данные (Big Data)

in

Большие данные – огромный объем данных, который невозможно сохранить и обработать с использованием традиционного вычислительного подхода в течение определенного периода времени.

Но насколько огромными должны быть эти данные, чтобы называться большими данными? Существует множество неправильных представлений о том, какой объем данных можно назвать большим.

Обычно данные в гигабайтах, терабайтах, петабайтах, эксабайтах или в любом другом формате, превышающем этот размер, считаются большими данными. И здесь возникает заблуждение. Даже небольшой объем данных может называться большим в зависимости от контекста. Чтобы прояснить это, позвольте использовать несколько примеров.

Например, если мы попытаемся прикрепить к электронному письму документ размером 100 мегабайт, то не сможем это сделать, поскольку система электронной почты не поддерживает вложения такого размера.
Таким образом, эти 100 мегабайт, относящиеся к электронной почте, можно назвать большими данными.

Допустим, у нас есть около 10 терабайт файлов изображений, которые необходимо обработать. Предположим, мы хотим изменить их размер и улучшить качество в течение заданного периода времени. Если воспользуемся настольным компьютером для выполнения этой задачи, то не сможем выполнить эту задачу в отведенные сроки, поскольку вычислительных ресурсов десктопного компьютера будет недостаточно для выполнения этой задачи. Для своевременного выполнения этой задачи нам потребуется мощный сервер с высокопроизводительными вычислительными ресурсами. Потому эти 10 терабайт файлов изображений можно назвать большими данными в контексте обработки на настольном компьютере.
Надеюсь, теперь Вам совершенно ясно, что подразумевается под большими данными.

Как классифицируются большие данные?

Большие данные подразделяются на 3 категории:

  • Структурированные данные – упорядоченная информация, например, базы данных, файлы CSV и электронные таблицы Excel
  • Полуструктурированные данные –  электронные письма, лог-файлы и текстовые документы
  • Неструктурированные данные – изображения, аудио- и видеофайлы

Характеристики больших данных

Большие данные подразделяются на 3 важные характеристики:

  • Объем – это размер собранных вместе данных.
  • Скорость – темп сбора или генерации информации
  • Разнообразие – количество типов создаваемых данных.

Традиционный подход к хранению и обработке больших данных

При традиционном подходе данные, генерируемые банками, фондовыми рынками или больницами, вводятся в систему ETL (извлечение, преобразование и загрузка). Система извлекает эти данные, преобразует их в правильный формат и, наконец, загружает в базу данных. После завершения этого процесса конечные пользователи смогут выполнять различные операции, такие как создание отчетов и аналитика.

Но по мере того, как данные увеличиваются в объеме, управление и обработка традиционными подходами становятся сложными задачами. Это одна из причин отказа от традиционного подхода к хранению и обработке больших данных.

Теперь давайте попробуем разобраться в некоторых основных недостатках, связанных с использованием традиционного подхода. Первый недостаток заключается в том, что это дорогая система и требует больших вложений для внедрения или обновления, поэтому малые и средние компании не смогут себе это позволить.

Второй недостаток – масштабируемость. По мере роста объемов данных расширение этой системы станет сложной задачей.

И последний недостаток – это трудоемкость. Обработка и извлечение ценной информации занимает много времени, поскольку вычислительные системы рассчитаны на меньшие объемы и скорости.

Проблемы, связанные с большими данными

С большими данными связаны две основные проблемы. Первая проблема заключается в том, как управлять таким огромным объемом данных аккуратно?

Вторая – как нам обрабатывать и извлекать ценную информацию из такого огромного объема данных в течение заданного периода времени? Это две основные проблемы, связанные с хранением и обработкой больших данных, которые привели к созданию фреймворка Hadoop.

Фото: @redcharlie

Автор оригинальной статьи: The Startup