Оксфордский университет заявил о создании искусственного интеллекта, который способен читать по губам. Возможности новой программы уже превысили человеческие: профессиональный чтец по губам отстал от компьютера больше, чем в 4 раза. О том, как разработчики учили компьютер распознавать беззвучную речь, и где пригодится новая разработка, — в материале RT.
Вместе с британским университетом над проблемой работали представители компании DeepMind, которая специализируется на машинном обучении. За компанией числится уже много разработок в этой области, включая развитие технологий, способных распознавать эмоции людей по выражению лица и принимать решения на основе оценки ситуации с моральной точки зрения.
Для того, чтобы научить компьютер распознавать речь по движению губ, разработчики использовали записи телепередач и субтитры к ним. Количество пригодного для задачи материала сильно сократило отсутствие к большинству программ точных субтитров: для выполнения задачи необходимо было три вида данных, которые мог бы сопоставлять компьютер.
Программа должна была устанавливать соответствие движений на лице говорящего на записи человека, аналогичную звуковую информацию и напечатанный текст.
Достигли понимания
После долгого периода разработок (предварительные результаты появлялись уже в ноябре 2016 года) Оксфордские учёные заявили, что искусственный интеллект, способный читать по губам, создать удалось. С помощью автоматического распознавания образов компьютер проанализировал более 5 тыс. выпусков различных телепрограмм. В совместной работе Оксфорда и DeepMind разработчики использовали новостные передачи BBC Breakfast, Newsnight и аналитическую Question Time. В результате компьютер отследил произнесение более 118 тыс. предложений. Охваченный словарь составил около 17,5 тыс. слов.
Чтобы проверить, что усвоил и сможет использовать компьютер, ему показали фильм без звука. Аналогичную задачу — посмотреть фильм без звукового сопровождения и расшифровать речь героев — выполнял профессиональный чтец по губам. Компьютер превзошёл человека более чем в 4 раза. Искусственный интеллект без ошибок расшифровал 50% текста. В остальном ошибки были незначительные — в пределах одной неправильной буквы, включая нечётко произносимые звуки в конце слов. Человек с успехом расшифровывал всего 12% текста.
Проблемы и решения
Технологией уже заинтересовалась организация Action on Hearing Loss, которая занимается проблемами людей с потерей слуха. Программное обеспечение может помочь слабослышащим лучше ориентироваться в мире вокруг них. В частности, они смогут смотреть телепередачи с высокоточными субтитрами, которые создавались бы в режиме реального времени.
Однако пока большая часть возможных сфер применения подобной функции искусственного интеллекта сводится к улучшению уже существующих методов распознавания речи.
Так, ещё на этапе первых экспериментов DeepMind сравнила, как искусственный интеллект распознаёт текст раздельно по аудиозаписи и по губам, и что будет, если совместить эти два метода. Ожидаемо, наиболее точный текст получился при совмещении двух методов анализа. Если продолжать использовать их вместе, можно значительно усовершенствовать создание автоматических субтитров. Существующие системы, которые расшифровывают аудиоматериалы, пока допускают значительное количество ошибок.
Если же расширить словарный запас искусственного интеллекта и совершенствовать технологию дальше, в перспективе можно будет использовать разработку для того, чтобы, например, дублировать старые видеозаписи из архивов, содержание речи в которых неясно.
11:30
Среда
0
1
Праворульки стучатся в сердца россиян: Утильсбор полностью убил наш авторынок - «Авто»
Вместо запретов нужно вводить стимулирование, но для этого чиновникам мозги хорошо бы иметь
11:30
Вторник
3
Самый легкомысленный клуб страны сделал выбор: Хуан Карседо научит «Спартак» «пафосному» футболу - «Спорт»
Красно-белые нашли очередного главного тренера. Отсчет по досрочному увольнению и выплате
11:30
Понедельник
8
В Харькове не могут приземлиться американские самолёты. В Купянске разнесло командный пункт. Идут самые тяжёлые полторы недели. СВОдки с фронта - «Спецоперация»
Главком ВСУ высказал свои опасения о дроновых атаках России. Какой объект поразили русские войска
11:30
Пятница
253
Политолог Марков поддержал инициативу Кадырова о мобилизации силовиков - «Спецоперация»
Недвижимость
11:30
Воскресенье
0
3
Алгоритм крипты: Вторичка подорожала во всех крупных городах России — кроме одного - «Недвижимость»
Зарплаты в России заморозились, но цены на недвижимость продолжают рост. «За этим кто-то стоит»
