Новый видеобот способен анализировать запись по текстовому запросу

Компьютерное зрение позволяет обрабатывать все большие потоки визуальной информации без участия человека. И если раньше технология использовалась для довольно ограниченного круга задач — от опознавания характерных движений или предметов до анализа небольших фрагментов видеозаписи, то теперь ее возможности значительно расширились.

Новый видеобот способен анализировать запись по текстовому запросу, фото

Видеобот от MTS AI

Фото: shutterstock

Так, видеобот от MTS AI может в записи любого объема отыскать конкретную визуальную сцену только по ее простому текстовому описанию. Например, «Найди встречу Красной Шапочки и волка». На обработку запроса уходит пара секунд. Решение создано на основе нейросетевой модели CLIP, которая работает с изображением и текстом в едином векторном пространстве. То есть она трансформирует запрос в вектор и, сравнивая его с векторами видеокадров, находит наиболее релевантные варианты с точностью до 80%. По словам технического директора MTS AI Дмитрия Буланцева, это решение станет востребованным в различных сферах: безопасности, логистике, ретейле и онлайн-кинотеатрах.

Читайте также

Фильтр