Оксфордский университет заявил о создании искусственного интеллекта, который способен читать по губам. Возможности новой программы уже превысили человеческие: профессиональный чтец по губам отстал от компьютера больше, чем в 4 раза. О том, как разработчики учили компьютер распознавать беззвучную речь, и где пригодится новая разработка, — в материале RT.
Вместе с британским университетом над проблемой работали представители компании DeepMind, которая специализируется на машинном обучении. За компанией числится уже много разработок в этой области, включая развитие технологий, способных распознавать эмоции людей по выражению лица и принимать решения на основе оценки ситуации с моральной точки зрения.
Для того, чтобы научить компьютер распознавать речь по движению губ, разработчики использовали записи телепередач и субтитры к ним. Количество пригодного для задачи материала сильно сократило отсутствие к большинству программ точных субтитров: для выполнения задачи необходимо было три вида данных, которые мог бы сопоставлять компьютер.
Программа должна была устанавливать соответствие движений на лице говорящего на записи человека, аналогичную звуковую информацию и напечатанный текст.
Достигли понимания
После долгого периода разработок (предварительные результаты появлялись уже в ноябре 2016 года) Оксфордские учёные заявили, что искусственный интеллект, способный читать по губам, создать удалось. С помощью автоматического распознавания образов компьютер проанализировал более 5 тыс. выпусков различных телепрограмм. В совместной работе Оксфорда и DeepMind разработчики использовали новостные передачи BBC Breakfast, Newsnight и аналитическую Question Time. В результате компьютер отследил произнесение более 118 тыс. предложений. Охваченный словарь составил около 17,5 тыс. слов.
Чтобы проверить, что усвоил и сможет использовать компьютер, ему показали фильм без звука. Аналогичную задачу — посмотреть фильм без звукового сопровождения и расшифровать речь героев — выполнял профессиональный чтец по губам. Компьютер превзошёл человека более чем в 4 раза. Искусственный интеллект без ошибок расшифровал 50% текста. В остальном ошибки были незначительные — в пределах одной неправильной буквы, включая нечётко произносимые звуки в конце слов. Человек с успехом расшифровывал всего 12% текста.
Проблемы и решения
Технологией уже заинтересовалась организация Action on Hearing Loss, которая занимается проблемами людей с потерей слуха. Программное обеспечение может помочь слабослышащим лучше ориентироваться в мире вокруг них. В частности, они смогут смотреть телепередачи с высокоточными субтитрами, которые создавались бы в режиме реального времени.
Однако пока большая часть возможных сфер применения подобной функции искусственного интеллекта сводится к улучшению уже существующих методов распознавания речи.
Так, ещё на этапе первых экспериментов DeepMind сравнила, как искусственный интеллект распознаёт текст раздельно по аудиозаписи и по губам, и что будет, если совместить эти два метода. Ожидаемо, наиболее точный текст получился при совмещении двух методов анализа. Если продолжать использовать их вместе, можно значительно усовершенствовать создание автоматических субтитров. Существующие системы, которые расшифровывают аудиоматериалы, пока допускают значительное количество ошибок.
Если же расширить словарный запас искусственного интеллекта и совершенствовать технологию дальше, в перспективе можно будет использовать разработку для того, чтобы, например, дублировать старые видеозаписи из архивов, содержание речи в которых неясно.
 11:30
				Пятница
			
			
				
				0
			
			
				
				495
			
		
		Talatan Си Цзиньпина заставил завидовать даже Трампа - «Мир»
Китай строит посреди пустыни «Город солнца и ветра»
			
		
		
			
				11:30
				Пятница
			
			
				
				0
			
			
				
				495
			
		
		Talatan Си Цзиньпина заставил завидовать даже Трампа - «Мир»
Китай строит посреди пустыни «Город солнца и ветра»
	
 11:30
				Суббота
			
			
				
				332
			
		
		Покровский «котел»: «Русских солдат физически рядом нет, а выйдешь из подвала — тебе конец» - «Военные действия»
Самые главные события по разгрому крупной группировки ВСУ разворачиваются сейчас в Родинском
			
		
		
			
				11:30
				Суббота
			
			
				
				332
			
		
		Покровский «котел»: «Русских солдат физически рядом нет, а выйдешь из подвала — тебе конец» - «Военные действия»
Самые главные события по разгрому крупной группировки ВСУ разворачиваются сейчас в Родинском        
	
 11:30
				Суббота
			
			
				
				320
			
		
		План США «Золотой купол»: Вашингтон впервые после Рейгана вернулся к подготовке ядерной войны в космосе - «Военные действия»
Иван Моисеев: Горбачёв выделил огромные деньги на звёздную войну против Америки, но его обманули
			
		
		
			
				11:30
				Суббота
			
			
				
				320
			
		
		План США «Золотой купол»: Вашингтон впервые после Рейгана вернулся к подготовке ядерной войны в космосе - «Военные действия»
Иван Моисеев: Горбачёв выделил огромные деньги на звёздную войну против Америки, но его обманули        
	
 11:30
				Понедельник
			
			
				
				69
			
		
		Таблетки поштучно: Наведите сначала порядок с ценами на лекарства, а потом идеям фонтанируйте - «Здоровье»
			
		
		
			
				11:30
				Понедельник
			
			
				
				69
			
		
		Таблетки поштучно: Наведите сначала порядок с ценами на лекарства, а потом идеям фонтанируйте - «Здоровье»
	
 Политика / Мероприятия / Новости дня / Технологии / ЖКХ
			
		
		
			
				11:30
				Среда
			
			
				
				0
			
			
				
				637
			
		
		Эксперты МВД предупредили о новом вирусе ClayRat, распространяющемся через WhatsApp
		Фото: Мария Лихачева Специалисты МВД зафиксировали быстро развивающуюся версию вредоносного ПО ClayRat, которое маскируется под популярные приложения WhatsApp*, Google Photos, TikTok и YouTube.
			Политика / Мероприятия / Новости дня / Технологии / ЖКХ
			
		
		
			
				11:30
				Среда
			
			
				
				0
			
			
				
				637
			
		
		Эксперты МВД предупредили о новом вирусе ClayRat, распространяющемся через WhatsApp
		Фото: Мария Лихачева Специалисты МВД зафиксировали быстро развивающуюся версию вредоносного ПО ClayRat, которое маскируется под популярные приложения WhatsApp*, Google Photos, TikTok и YouTube.
	

 
                 
				
 
			 
			 
			 
			 
			 
			