Aplicações Futuras das Tecnologias de Visão Artificial (Uma Visão – 2025)

Apresento aqui a minha visão do futuro para esta área e das suas aplicações, aproveitando para fazer uma reflexão crítica sobre o seu estado atual e apontando possíveis caminhos a explorar.

A Visão Artificial (ou Visão por Computador) tem como objetivo fornecer à máquina (computador) a capacidade de ver e interpretar o mundo, tal como os humanos o fazem. Para tal, analisa as imagens, recolhida(s) pela(s) câmara(s), e tenta interpretar/identificar/relacionar padrões de modo a obter informação sobre a cena que está a observar. Este processo é designado por Processamento de Imagem, tendo sido a base da Visão por Computador durante muitos anos.

Hoje em dia, fruto da evolução das técnicas de machine learning, tem-se assistido a uma transição para a aplicação, quase em exclusivo de técnicas de inteligência artificial (IA), mais propriamente de machine learning, na área da Visão por Computador.

A CB Insights refere que a cobertura noticiosa dada à Visão por Computador aumentou mais de 500% desde 2015, tornando-se numa booming industry. Este interesse crescente por esta área resulta, em larga maioria, dos avanços que a utilização da IA permitiu, tornando-a mainstream.

Espera-se que o mercado global de visão por computador ultrapasse a valorização de 48.300 milhões de dólares até 2023 e que a IA no mercado de visão por computador chegue a 25,32 mil milhões de dólares até esse mesmo ano.*

*Fonte: MarketsandMarkets Analysis

Imagem. katemangostar

 

Desafios futuros a vencer

Destaco aqui alguns dos desafios futuros que devem ser atacados e que derivam, de certa forma, dos problemas/limitações existentes nos algoritmos e técnicas atuais de visão por computador.

Em primeiro lugar, muitas das abordagens não têm, ainda, precisão suficiente (ou têm problemas de robustez) para a sua utilização no mundo real. O mundo real é imperfeito, diverso e imprevisível, o que influencia fortemente o desempenho dos algoritmos. As técnicas de visão por computador funcionam muito bem em ambiente controlado, mas quando passamos para o mundo real tudo se complica. É necessário melhorar a precisão dos algoritmos e encontrar formas de lidar com a imprevisibilidade e a diversidade.

A maior parte das técnicas atuais é altamente dependente dos dados, isto é, funcionam muito bem se forem fornecidos os dados necessários para tal, pois estão assentes em técnicas de machine learning. Estas técnicas funcionam devidamente quando há uma base de dados diversa, que abrange todas as possibilidades, de modo a que se consiga aprender e responder a todas as questões e situações que possam ocorrer.

Por outro lado, a maior parte dessas abordagens são utilizadas de uma forma cega: não percebemos bem o que se está a passar em termos de algoritmo, muito mais quando são utilizadas técnicas de deep learning em que as features que são extraídas das imagens também são aprendidas pelas próprias técnicas. Isso pode trazer alguns problemas, por exemplo a classificação errada das imagens, mesmo em situações que para nós, humanos, é extremamente simples.

Por último, temos de melhorar a performance dos algoritmos. Apesar da utilização de técnicas de machine learning ter permitido progredir muito neste aspeto, existe a necessidade de se investir neste campo.

Alguns investigadores, em que eu me incluo, consideram que há uma utilização excessiva (ou pouco cuidada), em alguns casos, de técnicas de machine learning em termos da visão por computador, o que tem colocado vários problemas.

Necessitamos de voltar a olhar para as técnicas do passado, que eram baseadas no conhecimento, naquilo que era o real, e fazer um merge com as técnicas de machine learning – tentar perceber o que é que está por detrás da imagem, aquilo que estou a tentar reconhecer e usar essa informação para criar os meus modelos e não se basear unicamente nos dados de uma forma cega. Este deverá ser o caminho a seguir neste tipo de técnicas.

Tópicos quentes a ter em conta

Alguns tópicos em voga hoje em dia, e que continuarão a ser muito interessantes no futuro, e onde haverá muita investigação nesta área são:

  • Intelligent image enhancement (melhorar a qualidade da imagem através de técnicas de IA).
  • Semantic scene understanding (perceção e compreensão da cena em toda a sua extensão, isto é detetar e reconhecer os objetos e a relação entre eles, tendo em conta o contexto).
  • Human activity recognition (reconhecer a atividade executada pelos humanos, apesar de já existirem várias abordagens, os algoritmos ainda não estão perfeitos, pelo que ainda há trabalho a fazer).
  • 3D imaging (temos um mundo para trabalhar em termos de imagens 3D, é necessário repensar e criar técnicas específicas para trabalhar com imagens 3D, e não somente adaptações dos algoritmos 2D para 3D).
  • Data fusion (tirar partido dos vários dados, provenientes de diferentes sensores, e da relação entre eles, através de técnicas de fusão dos dados para obter uma melhor resposta).

Aplicações futuras da visão por computador

Imagens. Apresentação Aplicações Futuras das Tecnologias de Visão Artificial (Uma Visão – 2025)

⇒ A estimativa é que os carros autónomos irão circular nas nossas estradas entre 2020 e 2040. Há atualmente uma grande aposta nos carros autónomos, e vai continuar a haver, onde o papel da Visão por Computador é crucial, e os aspetos aqui apontados ainda mais.

⇒ A questão da segurança é muito importante, não só de vigilância, mas também na análise de vídeos. As técnicas de reconhecimento facial e de reconhecimento das ações executadas pelos humanos, por exemplo para detetar atividades ilegais, são extremamente importantes para este tema. Porém, existem questões relacionadas com o direito à privacidade que devem ser tidas em consideração (o perigo do “Big brother”).

⇒ A nível da fábrica do futuro, a aposta na implementação da indústria 4.0 vai continuar a ser uma realidade. A ideia é, por exemplo, termos várias câmaras, que estão a monitorizar a atividade executada pelos operadores humanos, assistindo-os quando necessário, recolher dados sobre o que estão a fazer as máquinas e fornecer essa informação a um sistema central.

⇒ No nosso espaço de trabalho do futuro gostaria de olhar para um documento e obter, rapidamente, um highlight sobre o que é mais importante, isto implica recorrer a técnicas de visão por computador, para saber para onde o utilizador está a olhar e reconhecer o documento, e, por exemplo, a técnicas de realidade aumentada para apresentar a informação. Outra possível aplicação será a criação de ambientes de trabalho colaborativos e híbridos, isto é que fazem a ponte entre o mundo digital e o físico, onde se correlaciona informação visual sobre os envolventes físicos e os objetos com o conhecimento digital obtido numa base de dados da empresa.

⇒ Como é que vamos fazer compras no futuro? Imaginem um mundo onde todo o conteúdo visual é comprável instantaneamente, e disponível de experimentar virtualmente antes da compra. A ideia é olhar para um determinado produto que se gosta e tirar uma fotografia, obtendo de imediato informação sobre as várias lojas onde o produto está disponível, experimentá-lo virtualmente, e realizar a compra.

⇒ Na medicina de precisão a visão por computador poderá auxiliar o médico a prescrever o melhor medicamento para um paciente específico tendo em conta todo o seu historial. A melhoria do apoio ao diagnóstico, em termos da análise de imagens, continuará a ser uma aposta e, porque não, prever doenças a partir da análise de imagens e da fusão com os restantes dados existentes sobre o paciente e sobre as doenças.

⇒ Em termos de marketing continuará a aposta em apresentar a publicidade mais relevante, através de tentar perceber quem é o utilizador, a sua história, e apresentar os anúncios relevantes consoante o seu histórico de pesquisas, isto é caminhar no sentido do marketing personalizado. Também se destaca o reconhecimento facial e de emoções para o feedback publicitário.

⇒ Na agricultura a utilização de drones e robots será uma realidade num futuro próximo, em que a visão por computador assumirá, certamente, um papel relevante. A visão por computador já é, e vai continuar a ser, usada na agricultura para monitorizar as culturas e para detetar doenças.

Mas as áreas de aplicação da Visão por Computador são muitas e diversas (ex: atividades de inspeção, robótica, assistentes domésticos, drones, dispositivos móveis, eletrónica de consumo, entretenimento) tendo sido aqui apresentadas as que têm um maior potencial de exploração.


Sobre o autor:

Luis Magalhães – coordenador científico do DIA CVIG do CCG.

Licenciado em Engenharia de Sistemas e Informática, Mestre em Informática e Doutorado em Ciências da Computação. Atualmente é Professor Auxiliar com Agregação na Universidade do Minho e membro integrado do Centro ALGORITMI. É autor ou co-autor de mais de 90 publicações científicas em revistas internacionais e em atas de conferência. Os seus interesses de investigação incluem a Visão por Computador e a Computação Gráfica. Participa e/ou participou em vários projetos de investigação relacionados com a Modelação de Ambientes Virtuais, Ambientes 3D imersivos, Ambientes Virtuais para a Educação, High Dynamic Range Imaging, Sistemas de Realidade Mista e aumentada para as indústrias da cultura e do entretenimento.