Оксфордский университет заявил о создании искусственного интеллекта, который способен читать по губам. Возможности новой программы уже превысили человеческие: профессиональный чтец по губам отстал от компьютера больше, чем в 4 раза. О том, как разработчики учили компьютер распознавать беззвучную речь, и где пригодится новая разработка, — в материале RT.
Вместе с британским университетом над проблемой работали представители компании DeepMind, которая специализируется на машинном обучении. За компанией числится уже много разработок в этой области, включая развитие технологий, способных распознавать эмоции людей по выражению лица и принимать решения на основе оценки ситуации с моральной точки зрения.
Для того, чтобы научить компьютер распознавать речь по движению губ, разработчики использовали записи телепередач и субтитры к ним. Количество пригодного для задачи материала сильно сократило отсутствие к большинству программ точных субтитров: для выполнения задачи необходимо было три вида данных, которые мог бы сопоставлять компьютер.
Программа должна была устанавливать соответствие движений на лице говорящего на записи человека, аналогичную звуковую информацию и напечатанный текст.
Достигли понимания
После долгого периода разработок (предварительные результаты появлялись уже в ноябре 2016 года) Оксфордские учёные заявили, что искусственный интеллект, способный читать по губам, создать удалось. С помощью автоматического распознавания образов компьютер проанализировал более 5 тыс. выпусков различных телепрограмм. В совместной работе Оксфорда и DeepMind разработчики использовали новостные передачи BBC Breakfast, Newsnight и аналитическую Question Time. В результате компьютер отследил произнесение более 118 тыс. предложений. Охваченный словарь составил около 17,5 тыс. слов.
Чтобы проверить, что усвоил и сможет использовать компьютер, ему показали фильм без звука. Аналогичную задачу — посмотреть фильм без звукового сопровождения и расшифровать речь героев — выполнял профессиональный чтец по губам. Компьютер превзошёл человека более чем в 4 раза. Искусственный интеллект без ошибок расшифровал 50% текста. В остальном ошибки были незначительные — в пределах одной неправильной буквы, включая нечётко произносимые звуки в конце слов. Человек с успехом расшифровывал всего 12% текста.
Проблемы и решения
Технологией уже заинтересовалась организация Action on Hearing Loss, которая занимается проблемами людей с потерей слуха. Программное обеспечение может помочь слабослышащим лучше ориентироваться в мире вокруг них. В частности, они смогут смотреть телепередачи с высокоточными субтитрами, которые создавались бы в режиме реального времени.
Однако пока большая часть возможных сфер применения подобной функции искусственного интеллекта сводится к улучшению уже существующих методов распознавания речи.
Так, ещё на этапе первых экспериментов DeepMind сравнила, как искусственный интеллект распознаёт текст раздельно по аудиозаписи и по губам, и что будет, если совместить эти два метода. Ожидаемо, наиболее точный текст получился при совмещении двух методов анализа. Если продолжать использовать их вместе, можно значительно усовершенствовать создание автоматических субтитров. Существующие системы, которые расшифровывают аудиоматериалы, пока допускают значительное количество ошибок.
Если же расширить словарный запас искусственного интеллекта и совершенствовать технологию дальше, в перспективе можно будет использовать разработку для того, чтобы, например, дублировать старые видеозаписи из архивов, содержание речи в которых неясно.
11:30
Вторник
0
1
В Китае «стальные воротнички» начали заменять человека на сложных работах - «Мир»
«Мировая фабрика» осваивает новые алгоритмы
11:30
Суббота
2
Ночной удар по Одессе: Уничтожен «Пэтриот», который тайком перебрасывали с Украины в Израиль - «Военные действия»
Зеленский командировал в ЦАХАЛ 500 «птах Мадьяра» — некоторых прихлопнули в кораблях под флагами
11:30
Суббота
3
Сводки СВО, 21 марта, главное: Дружковка, Красный Лиман, Константиновка — по окончании распутицы ВС РФ могут ударить в любом направлении - «Военные действия»
1486-й день спецоперации. Украинские волонтеры пытаются купить в России шлемы и наушники для
11:30
Воскресенье
6
Убить экс-командира Русской весны «бейрутским взрывом»: Когда ждать третьего налёта дронов ВСУ на Кирово-Чепецк? - «Общество»
Недвижимость
11:30
Четверг
0
0
Старое — это пять минут назад бывшее новое: Покупатели недвижимости сейчас предпочитают «вторичку» - «Недвижимость»
От качелей спроса на новостройки в Москве у покупателей кружится голова
