Большие данные (Big Data)
Большие данные – огромный объем данных, который невозможно сохранить и обработать с использованием традиционного вычислительного подхода в течение определенного периода времени.
Но насколько огромными должны быть эти данные, чтобы называться большими данными? Существует множество неправильных представлений о том, какой объем данных можно назвать большим.
Обычно данные в гигабайтах, терабайтах, петабайтах, эксабайтах или в любом другом формате, превышающем этот размер, считаются большими данными. И здесь возникает заблуждение. Даже небольшой объем данных может называться большим в зависимости от контекста. Чтобы прояснить это, позвольте использовать несколько примеров.
Например, если мы попытаемся прикрепить к электронному письму документ размером 100 мегабайт, то не сможем это сделать, поскольку система электронной почты не поддерживает вложения такого размера.
Таким образом, эти 100 мегабайт, относящиеся к электронной почте, можно назвать большими данными.
Допустим, у нас есть около 10 терабайт файлов изображений, которые необходимо обработать. Предположим, мы хотим изменить их размер и улучшить качество в течение заданного периода времени. Если воспользуемся настольным компьютером для выполнения этой задачи, то не сможем выполнить эту задачу в отведенные сроки, поскольку вычислительных ресурсов десктопного компьютера будет недостаточно для выполнения этой задачи. Для своевременного выполнения этой задачи нам потребуется мощный сервер с высокопроизводительными вычислительными ресурсами. Потому эти 10 терабайт файлов изображений можно назвать большими данными в контексте обработки на настольном компьютере.
Надеюсь, теперь Вам совершенно ясно, что подразумевается под большими данными.
Как классифицируются большие данные?
Большие данные подразделяются на 3 категории:
- Структурированные данные – упорядоченная информация, например, базы данных, файлы CSV и электронные таблицы Excel
- Полуструктурированные данные – электронные письма, лог-файлы и текстовые документы
- Неструктурированные данные – изображения, аудио- и видеофайлы
Характеристики больших данных
Большие данные подразделяются на 3 важные характеристики:
- Объем – это размер собранных вместе данных.
- Скорость – темп сбора или генерации информации
- Разнообразие – количество типов создаваемых данных.
Традиционный подход к хранению и обработке больших данных
При традиционном подходе данные, генерируемые банками, фондовыми рынками или больницами, вводятся в систему ETL (извлечение, преобразование и загрузка). Система извлекает эти данные, преобразует их в правильный формат и, наконец, загружает в базу данных. После завершения этого процесса конечные пользователи смогут выполнять различные операции, такие как создание отчетов и аналитика.
Но по мере того, как данные увеличиваются в объеме, управление и обработка традиционными подходами становятся сложными задачами. Это одна из причин отказа от традиционного подхода к хранению и обработке больших данных.
Теперь давайте попробуем разобраться в некоторых основных недостатках, связанных с использованием традиционного подхода. Первый недостаток заключается в том, что это дорогая система и требует больших вложений для внедрения или обновления, поэтому малые и средние компании не смогут себе это позволить.
Второй недостаток – масштабируемость. По мере роста объемов данных расширение этой системы станет сложной задачей.
И последний недостаток – это трудоемкость. Обработка и извлечение ценной информации занимает много времени, поскольку вычислительные системы рассчитаны на меньшие объемы и скорости.
Проблемы, связанные с большими данными
С большими данными связаны две основные проблемы. Первая проблема заключается в том, как управлять таким огромным объемом данных аккуратно?
Вторая – как нам обрабатывать и извлекать ценную информацию из такого огромного объема данных в течение заданного периода времени? Это две основные проблемы, связанные с хранением и обработкой больших данных, которые привели к созданию фреймворка Hadoop.
Фото: @redcharlie
Автор оригинальной статьи: The Startup