Inteligência artificial do Google supera profissionais em leitura labial

gettyimages-6163-000212

A DeepMind, empresa de inteligência artificial que pertence ao Google, conseguiu ensinar um sistema a ler os lábios de pessoas em imagens gravadas e fornecer legendas para o que elas estavam dizendo. No final do período de treinamento, o sistema conseguia realizar leitura labial de imagens gravadas com precisão superior à de profissionais treinados para isso.

Foram usadas cerca de 5 mil horas de programação da BBC, incluindo noticiários, para treinar a máquina. De acordo com a New Scientist, elas continham um total de aproximadamente 118 mil frases inteiras. Programas que foram ao ar entre janeiro de 2010 e dezembro de 2015 foram usados como conjunto de treinamento, e o sistema foi testado usando programas de entre março e setembro de 2016.

Dentre as frases que a máquina foi capaz de legendar estavam sentenças bastante complexas, como “We know there will be hundreds of journalists here as well” (sabemos que haverá centenas de jornalistas aqui também) e “According to the latest figures from the Office of National Statistics” (de acordo com os números mais recentes do escritório de estatísticas nacionais).

Organizando os estudos

Um dos desafios da máquina – além de aprender a ler lábios – foi preparar o seu próprio material de estudo. Isso porque os arquivos de programas de TV disponíveis estavam com áudio e vídeo dessincronizados; em alguns casos, havia mais de um segundo de defasagem entre as duas coisas. Isso fazia com que fosse impossível para o sistema criar associações entre os sons e a posição dos lábios das pessoas que apareciam na tela.

[…]

Aplicações

Esse tipo de sistema pode ser usado para auxiliar pessoas com deficiências auditivas a entender o que está sendo falado em vídeos, filmes e programas de TV. A possibilidade de se gerar legendas automaticamente com base em imagens é bastate útil para serviços de streaming como o YouTube e o Vimeo, que recebem diariamente milhares de novas horas de conteúdo.

Também seria possível utilizar esse método para que assistentes virtuais de smartphone pudessem ser ativados pelos lábios, e não pela voz. Se a Siri fosse capaz de ler os seus lábios usando a sua câmera frontal, por exemplo, ela jamais precisaria ouvir a sua voz de novo. Isso seria bastante útil, pois permitiria que os assistentes virtuais fossem usados mesmo em espaços públicos, sem que a voz do usuário incomodasse ou causasse estranhamento às pessoas próximas.

No entanto, há também um risco associado ao uso malicioso dessa tecnologia. Isso porque basta que uma câmera ligada a esse sistema consiga ver o rosto de um usuário para que ela consiga entender o que ele está falando. Nesse caso, preocupações sobre sigilo de informações se tornariam ainda mais importantes.


Matéria completa em: http://olhardigital.uol.com.br/noticia/inteligencia-artificial-do-google-supera-profissionais-em-leitura-labial/64089

GOSTOU DO CONTEÚDO?
Receba nosso conteúdo semanalmente por email!
Odiamos SPAM! Seu email nunca será compartilhado.