Технология позволяет находить различные ситуации на изображениях и кадрах из видео по текстовому описанию.
Компания VisionLabs (входит в МТС Web Services) разработала технологию мультимодального поиска на естественном языке по текстовому запросу. Она реализована в рамках платформы компьютерного зрения Luna Line, которая позволяет обучать модели искусственного интеллекта под отраслевые сценарии без программирования. Компания начала тестирование технологии с компаниями в Москве. VisionLabs рассчитывает получить от этого направления 5–10% выручки в 2027 году.
Мультимодальный поиск позволяет работать как с фотографиями с телефонов, так и с данными с видеокамер, установленных на улице и в общественном транспорте, и определять практически любые сценарии по текстовому описанию. Например, достаточно написать «разбитое стекло» или «переполненный мусорный бак» — и модель выдаст все изображения или кадры из видео, где они обнаружены.
Традиционные системы компьютерного зрения работают по заранее заданным правилам и фиксированным классам («мусор», «человек», «машина») и требуют ручной разметки под каждую задачу. В отличие от них мультимодальный поиск позволяет находить ситуации без жёсткого перечня сценариев. Пользователь может сформулировать запрос на естественном языке («мусор рядом с контейнером») — и система найдёт нужные кадры. Даже для новых или редких случаев, которые не были заранее прописаны как предмет детекции.
Модель может работать без дообучения на разных сценариях: отслеживать накопление мусора в баках, посторонние предметы во дворах и подъездах, чистоту и свет в подъездах, сломанные лавки, разбитые стёкла на остановках, затопленные или заметённые снегом участки дорог или кондиционеры на фасадах. Сейчас VisionLabs тестирует эти сценарии в Москве.
Системы мультимодального поиска построены на базе визуально-языковых моделей (VLM, visual language model), работа которых основана на понимании связи между изображением и текстом. Нейросеть анализирует все фотографии в базе и сохраняет их визуальные характеристики в виде цифровых отпечатков. Когда пользователь вводит текстовое описание, ИИ преобразует его в цифровой отпечаток, сравнивает со всеми сохранёнными отпечатками и находит наиболее похожие изображения. Благодаря оптимизированным алгоритмам поиск по базе осуществляется за доли секунды.
«Я уверен, что будущее за визуально-языковыми моделями, когда каждый сможет размечать данные и искать изображения с помощью простого текстового запроса. Мы постоянно инвестируем в перспективные направления и в прошлом году вложили в исследования и разработку 200 миллионов рублей. Один из результатов — платформа Luna Line, которая позволяет создавать ML-модели без кода, ускоряет запуск проектов на 30% и на столько же сокращает бюджет на запуск и поддержку ML-решений», — комментирует Дмитрий Марков, генеральный директор VisionLabs.
Платформа Luna Line может разворачиваться в корпоративном контуре заказчика — на собственной инфраструктуре или в частном облаке. Реализация всех ML-сценариев на одной платформе централизует использование ресурсов, улучшает коммуникацию между командами и подразделениями, а также упрощает и ускоряет масштабирование решений на всю сеть предприятия.
VisionLabs — один из мировых лидеров в области решений по распознаванию на базе компьютерного зрения. Компания реализовала более 500 проектов в 37 странах. Технологии VisionLabs применяются в финансовой, телекоммуникационной и транспортной отраслях, а также в ритейле и промышленности. Более 1,7 млн камер по всему миру используют программное обеспечение VisionLabs.
https://visionlabs.ru
Контакты:
Телеграм-канал: https://t.me/visionlabs_news
Для вопросов: pr@visionlabs.ru
MWS AI (входит в МТС Web Services) основана в 2019 году. Она разрабатывает решения для создания и запуска корпоративных приложений на базе искусственного интеллекта. Также MWS AI выступает партнёром по ИИ-трансформации для крупного бизнеса и государственных организаций. Основной продукт MWS AI — платформа MWS AI Agents Platform. С её помощью сотрудники компаний могут без навыков программирования создавать ИИ-агентов и мультиагентные системы в визуальном конструкторе бизнес-сценариев и на естественном языке по текстовому запросу. Собственные разработки компании включают большие языковые и мультимодальные модели Cotype, модели речевой аналитики, алгоритмы распознавания речи и синтеза голоса. Экспертиза MWS AI в области компьютерного зрения сосредоточена в портфельной компании VisionLabs.
