Вы подписаны на Машинное обучение доступно
Отлично! завершите оплату для полного доступа к Машинное обучение доступно
Снова приветствуем Вас! Вы успешно авторизовались
Успех! Аккаунт активирован, и Вы имеете полный доступ к контенту.
Наука о данных (DS)

Наука о данных (DS)

in

Определение Википедии:

Наука о данных (Data Science) – это раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме. Объединяет методы по обработке данных в условиях больших объёмов.

Зачем нужна эта наука? Это не про построение сложных Моделей (Model) и потрясающую визуализацию. И даже не про код. Наука о данных – это способ принести своей компании как можно больше пользы, дохода. Польза бывает разной:

  • Программа, использующая Машинное обучение (ML) для решения конкретной задачи
  • Инсайты – этакие озарения о неочевидных взаимосвязях между событиями и явлениями
  • Набор рекомендаций

Чтобы осуществить подобное, Вам и понадобится инструментарий для построения сложных моделей, визуализации данных и создания якода. Ваша задача как дата-сайентиста – решать проблемы компании, используя данные, и стек здесь дело второстепенное.

Если вы погружались в тему, то наверняка встречали неправильное представление об этой науке. Главная причина тому – разница между легко продаваемым у СМИ и действительно востребованным в бизнес-среде. Большая пятерка (Amazon, Apple, Facebook, Google, Microsoft) действительно использует Большие данные (Big Data) для улучшения своих продуктов, но до момента взрывного роста популярности понятия использовался термин "Глубинный анализ данных" (Data Mining).

В своей статье "От глубинного анализа к развертыванию баз данных" Вильям Кливленд, профессор университета Пердью, сослался на процесс обнаружения полезной информации. Он хотел поднять статистику на новый уровень, скомбинировав компьютерные вычисления и глубинный анализ. Выражаясь проще, он сделал статистику более технологичной, чтобы дать ход инновациям нового уровня. Тогда он окрестил свое детище 'Combo Data Science'.

Speedcurve Performance Analytics
Фото: Luke Chesser / Unsplash

К тому времени заиграла методика 'Web 2.0' – идеология развития систем в интернете, основанная на принципе, что чем больше пользователей задействовано в работе над проектом, тем лучше он развивается и более жизнеспособен. В проектах на основе web 2.0 именно пользователям принадлежит важная роль в наполнении проектов контентом, а также проверки уже существующей там информации, ее исправления и дополнения. Так что активная пользовательская деятельность – посты, лайки, комментарии, шейры, выгрузки – все виды цифровых следов, помогли создать новую экосистему, которой мы с Вами сегодня пользуемся. Обилие данных стало ее последствием, и обычных вычислительных технологий стало не хватать.

Софт специально для управления, извлечения пользы из массивных объемов информации и стали называть "Большими данными". Человечество создало параллельные вычислительные системы, адаптировало целые языки программирования, такие как Python, под нужды Науки о данных. Полагаю, такой минимализм его синтаксиса – это дань специалистам,  работающих с большими объемами информации и нуждающимся в минимизации всего остального.

Чтобы бизнес мог структурировать скопившийся за долгие годы данные, науку условно сгруппировали по приложениям: Искусственный интеллект (AI), Глубокое обучение (DL), оптимизация и тестирование, эксперименты, категоризация, очистка и подготовка данных, программирование потоков, сбор данных и прочими компонентами.