3 min read

Компьютерное зрение (Computer Vision)

Компьютерное зрение (Computer Vision)
Фото: Ethan Grey / Unsplash

Компьютерное зрение (CV) – область Машинного обучения (ML), целью которой является разработка методов, помогающих компьютерам как бы понимать содержимое цифровых изображений.

Проблема компьютерного зрения кажется простой, потому что ее тривиально решают люди, даже очень маленькие дети. Тем не менее, это во многом остается нерешенной проблемой, основанной как на ограниченном понимании биологического зрения, так и на сложности зрительного восприятия в динамичном и почти бесконечно меняющемся физическом мире.

Смартфоны оснащены камерами, а снимать фото или видео и делиться ими никогда не было так просто, что привело к невероятному росту современных социальных сетей, таких как Instagram.

YouTube может быть второй по величине поисковой системой, и каждую минуту загружаются сотни часов видео, а каждый день просматриваются миллиарды видео.

Интернет состоит из текста и изображений. Индексировать и искать текст относительно просто, но для индексации и поиска изображений алгоритмам необходимо знать, что содержат изображения. В течение долгого времени содержание изображений было известно благодаря описанию и тегам, предоставленных автором.

Чтобы получить максимальную отдачу от графических данных, нам нужны компьютеры, чтобы «видеть» изображение и понимать его содержимое. Это тривиальная проблема для человека, даже маленького ребенка.

Человек может описать содержание фотографии, которую он видел однажды.
Человек может резюмировать видео, которое он видел только один раз.
Человек может узнать лицо, которое он видел только однажды.
Нам требуются, по крайней мере, те же возможности от компьютеров.

Одна конкретная проблема со зрением может быть легко решена с помощью статистического метода, созданного вручную, тогда как для другой может потребоваться большой и сложный набор обобщенных алгоритмов машинного обучения.

Компьютерное зрение как поле — это интеллектуальный рубеж. Как и любая граница, она захватывающая и неорганизованная, и часто нет надежного авторитета, к которому можно было бы обратиться. Многие полезные идеи не имеют теоретического обоснования, а некоторые теории бесполезны на практике.

Как правило, компьютерное зрение включает в себя разработку методов, которые пытаются воспроизвести возможности человеческого зрения.

Обработка изображений — это разновидность CV, процесс создания нового изображения из существующего. Это тип цифровой обработки сигналов, который не связан с пониманием содержания изображения, потому результаты работы такой Модели (Model) бывают весьма курьезными.

Подзадачи обработки изображений включают в себя:

  • Нормализация фотометрических свойств изображения, таких как яркость или цвет
  • Обрезка границ изображения, например центрирование объекта на фотографии
  • Удаление цифрового шума из изображения, например, цифровых артефактов при слабом освещении

Цель компьютерного зрения — извлечь полезную информацию из изображений. Это оказалось удивительно сложной задачей; за последние четыре десятилетия им были заняты тысячи умов, и, несмотря на это, мы все еще далеки от того, чтобы построить универсальную «видящую машину».

Компьютерное зрение кажется простым, возможно, потому, что оно не требует усилий для людей.

Первоначально считалось, что это тривиально простая задача, которую может решить студент, подключив камеру к компьютеру. После десятилетий исследований «компьютерное зрение» остается нерешенным, по крайней мере, с точки зрения соответствия возможностям человеческого зрения.

Заставить компьютер видеть было чем-то, что ведущие специалисты в области искусственного интеллекта считали на уровне сложности летнего студенческого проекта еще в шестидесятые годы. Спустя сорок лет задача все еще не решена и кажется сложнейшей.

Одна из причин заключается в том, что мы плохо понимаем, как работает человеческое зрение.

Изучение биологического зрения требует понимания органов восприятия, таких как глаза, а также интерпретации восприятия в мозге. Был достигнут значительный прогресс как в составлении схемы процесса, так и с точки зрения обнаружения приемов и сокращений, используемых системой, хотя, как и в любом исследовании, затрагивающем мозг, предстоит пройти еще долгий путь.

Перцептивные психологи потратили десятилетия, пытаясь понять, как работает зрительная система, и, хотя они могут изобретать оптические иллюзии, чтобы разобрать некоторые из ее принципов, полное решение этой загадки остается неуловимым.

Другая причина, по которой это такая сложная проблема, заключается в сложности, присущей визуальному миру.

Данный объект может быть виден с любого угла, при любых условиях освещения, с любым типом окклюзии от других объектов и так далее. Настоящая система технического зрения должна быть способна «видеть» в любой из бесконечного числа сцен и при этом извлекать что-то значимое.

Компьютеры хорошо работают с задачами с жесткими ограничениями, а не с открытыми неограниченными задачами, такими как визуальное восприятие.

Тем не менее, в этой области наблюдается прогресс, особенно в последние годы с массовыми системами оптического распознавания символов и распознавания лиц в камерах и смартфонах.

Компьютерное зрение находится на необычайной стадии своего развития. Сама тема существует с 1960-х годов, но только недавно стало возможным создавать полезные компьютерные системы, используя идеи компьютерного зрения.

Задачи компьютерного зрения:

Подари чашку кофе дата-сайентисту ↑

Автор оригинальной статьи: Jason Brownlee