ИИ научился предугадывать взгляд человека: как работает 3D-алгоритм для AR-очков

3 Мин Чтения

18:16 03.06.2026 Ср 3 мин Технология дополненной реальности позволит смарт-очкам заранее подгружать нужные интерфейсы

Ученые представили первую трехмерную модель взгляда (фото: Magnific) Не трать время на шум! Читай только суть из РБК-Украина в Google

Американские ученые совместно с инженерами Meta разработали алгоритм, который позволяет смарт-очкам работать на опережение. Новая технология способна прогнозировать траекторию человеческого внимания в 3D-среде на несколько секунд вперед.

Об этом информирует РБК-Украина со ссылкой на материалы научного доклада с конференции CVPR в Денвере.

Больше интересного: Microsoft показала гаджет будущего: что придет на смену Android и iPhone

Новая технология базируется на переходе от анализа двумерных статических изображений к полноценному моделированию поведения человека в реальной среде.

Как это работает?

Автором исследования стала Фиона Райан, аспирантка Школы интерактивных вычислений Georgia Tech. Она разработала первую 3D-платформу для прогнозирования так называемых «сканпатов» (траекторий движения глаз) на основе видео от первого лица.

«Поскольку человек живет в трехмерном мире и постоянно находится в движении, стандартные 2D-метрики анализа картинок не способны эффективно работать в переносном устройстве типа смарт-очков», — объясняет ученая.

Новый алгоритм просчитывает вектор внимания как последовательность фиксаций взгляда, напрямую зависящих от актуальной цели человека. Например, если система фиксирует движение руки к чашке с кофе, она автоматически просчитывает следующий шаг оператора — поиск места, куда эта чашка будет поставлена.

ИИ научился предугадывать взгляд человека: как работает 3D-алгоритм для AR-очков

Визуализация работы алгоритма (скриншот: Techxsplore)

Тестирование на базе данных Meta

Основную часть практической работы исследовательница выполнила во время стажировки в компании Meta.

Для обучения ИИ использовался специализированный набор данных Aria Digital Twin. Этот датасет содержит тысячи часов видеозаписей от первого лица, на которых зафиксировано бытовое взаимодействие людей с предметами в пределах квартиры, совмещенное с высокоточной 3D-реконструкцией всего помещения.

Благодаря этому разработчикам удалось получить идеальные координаты реального направления взгляда и сопоставить их с геометрией пространства.

Практическая польза

Сейчас ПО способно стабильно прогнозировать направление взгляда в среднем на 3 секунды вперед, а в отдельных простых сценариях этот показатель достигает 10 секунд.

Этого времени вполне достаточно, чтобы графический процессор AR-очков заранее проактивно сгенерировал (отрендерил) необходимые виртуальные подсказки или элементы интерфейса в той зоне, куда человек только собирается посмотреть.

«Это полностью убирает эффект задержки картинки», — отмечает Фиона Райан.

В будущем разработчики планируют интегрировать в модель контекстные сценарии (понимание того, чем именно занят человек в данный момент). Это позволит сузить варианты прогнозирования при длительной концентрации на одном предмете.

Кроме потребительской электроники и смарт-очков, технология имеет высокий потенциал в робототехнике: ее используют для обучения алгоритмов роботов, чтобы те могли копировать естественное человеческое восприятие при выполнении бытовых или производственных задач.

Поделиться этой статьей