Pesquisadores da Columbia Engineering descobrem uma técnica de visão computacional IA que permite às máquinas prever o que vai acontecer a seguir.
Prever o que alguém fará a seguir com base na sua linguagem corporal é algo natural para os humanos, mas não para os computadores. Quando conhecemos outra pessoa, ela pode cumprimentar-nos com um «olá», um aperto de mão ou até mesmo uma palmadinha nas costas. Podemos não saber que gesto usar, mas podemos ler a situação e responder apropriadamente.
Num novo estudo, os pesquisadores da Columbia Engineering revelam uma técnica de visão computacional que permite às máquinas saber o que acontecerá a seguir, aproveitando as associações de alto nível entre pessoas, animais e objetos.
Colaboração humana e robô
«O nosso algoritmo é um passo para permitir que as máquinas façam melhores previsões sobre o comportamento humano e, assim, coordenem melhor as suas ações com as nossas», disse Carl Vondrick, professor associado de ciência da computação da Universidade de Columbia, que liderou o estudo, apresentado na Conferência Internacional de Computação Visão e reconhecimento de padrões. «Os nossos resultados abrem uma série de possibilidades para a colaboração entre humanos e robôs, veículos autónomos e tecnologia de assistência.»
Ao analisar milhares de horas de filmes, jogos e programas televisivos, o sistema aprende a prever centenas de atividades, como apertos de mão. Quando não consegue prever a ação concreta, encontra o conceito de nível superior que os relaciona, neste caso, a palavra «saudação».
As tentativas anteriores de machine learning preditivo concentraram-se em prever apenas uma ação de cada vez. Os algoritmos decidem classificar a ação como um abraço, um high-five, um aperto de mão ou até mesmo uma não ação como «ignorar». Mas quando a incerteza é alta, a maioria dos modelos de machine learning não conseguem encontrar um terreno comum entre as opções possíveis.