A audiência da Netflix é cada vez mais global, já que a empresa conseguiu chegar a todos os cantos do planeta, ou quase todos, já que não conseguiu entrar na China, na Crimeia, na Coreia do Norte e na Síria.

Chegar a tantos países tem um problema: a língua. Até agora, conseguiram quebrar a barreira linguística, mas o grande desafio consiste em assegurar que as traduções sejam exatas.

Um grupo de investigadores da Netflix Machine Learning introduziu uma nova abordagem para tratar esta questão, denominada Pré-processamento Automático ou APP. Este processo, dizem os investigadores, vai originar traduções muito próximas da língua materna em questão.


Por exemplo, se uma frase em inglês for «The Vice-Presidente should feel free to jump in» quando traduzido com Google Translate para Hindi aparece como «Vice-Presidente deve sentir-se livre para saltar para dentro«. Não se obtêm bons resultados.

Os sistemas de tradução automática (MT) gerados em conjuntos de formação mais pequenos dão frequentemente resultados que se desviam do contexto. Por conseguinte, os investigadores chegaram à conclusão de que a traduzir as traduções posteriores é mais fácil do que a tradução de frases originais.

A avaliação do sistema foi feita com um conjunto de GIGS, Wikilarge e Open Subtitles. O conjunto de dados FIGS é derivado das legendas que aparecem em 12.301 programas de televisão e filmes de um fornecedor de VOD por assinatura.

Os investigadores têm utilizado arquiteturas de transformação através da biblioteca tensor2tensor. Todas as experiências foram realizadas utilizando a estrutura de base do transformador com 6 blocos no codificador e descodificador e executadas em 4 GPUs NVIDIA V100.

O sistema centra-se principalmente nas legendas em inglês, mas pode ser utilizado com outros idiomas.

Mantenha-se informado das notícias mais relevantes em nosso canal Telegram