Так, видеобот от MTS AI может в записи любого объема отыскать конкретную визуальную сцену только по ее простому текстовому описанию. Например, «Найди встречу Красной Шапочки и волка». На обработку запроса уходит пара секунд. Решение создано на основе нейросетевой модели CLIP, которая работает с изображением и текстом в едином векторном пространстве. То есть она трансформирует запрос в вектор и, сравнивая его с векторами видеокадров, находит наиболее релевантные варианты с точностью до 80%. По словам технического директора MTS AI Дмитрия Буланцева, это решение станет востребованным в различных сферах: безопасности, логистике, ретейле и онлайн-кинотеатрах.
2 апреля 2024, 17:11
Новый видеобот способен анализировать запись по текстовому запросу
Компьютерное зрение позволяет обрабатывать все большие потоки визуальной информации без участия человека. И если раньше технология использовалась для довольно ограниченного круга задач — от опознавания характерных движений или предметов до анализа небольших фрагментов видеозаписи, то теперь ее возможности значительно расширились.
Видеобот от MTS AI