Aplicações Futuras das Tecnologias da Visão Artificial (One Vision – 2025)

Visão Artificial

Aqui apresento minha visão do futuro para esta área e suas aplicações, aproveitando a oportunidade para fazer uma reflexão crítica sobre seu estado atual e apontando possíveis maneiras de explorar.

A Visão Artificial (ou Visão por Computador) tem como objetivo proporcionar à máquina (computador) a capacidade de ver e interpretar o mundo como os seres humanos o fazem. 

Para isso, analisa as imagens tiradas pela(s) câmera(s) e tenta interpretar/identificar/relacionar padrões para obter informações sobre a cena que está assistindo. Este processo é chamado de Processamento de Imagem e tem sido a base da Computer Vision por muitos anos.

Atualmente, como resultado da evolução das técnicas de aprendizado de máquinas, houve uma transição para a aplicação, quase exclusivamente de inteligência artificial (IA), técnicas, especificamente de aprendizado de máquinas, na área de Visão Computacional.

A CB Insights informa que a cobertura de notícias Computer Vision aumentou em mais de 500% desde 2015, tornando-se uma indústria em expansão. Este interesse crescente nesta área resulta em grande parte dos avanços que a IA tornou possível, tornando-a comum.

Desafio futuro a ser superado

Destaco aqui alguns dos desafios futuros que precisam ser enfrentados e que derivam, em certa medida, dos problemas/limitações dos atuais algoritmos e técnicas de visão computacional.

Em primeiro lugar, muitas das abordagens ainda não são suficientemente precisas (ou têm problemas de robustez) para seu uso no mundo real. O mundo real é imperfeito, diverso e imprevisível, o que influencia fortemente o desempenho dos algoritmos. 

As técnicas de visão artificial ou por computador funcionam muito bem em um ambiente controlado, mas quando entramos no mundo real, tudo se complica. É necessário melhorar a precisão dos algoritmos e encontrar maneiras de lidar com a imprevisibilidade e a diversidade.

A maioria das técnicas atuais são altamente dependentes de dados, ou seja, elas funcionam muito bem se os dados necessários forem fornecidos, pois são baseadas em técnicas de aprendizagem de máquinas. 

Estas técnicas funcionam corretamente quando existe um banco de dados diversificado que cobre todas as possibilidades para que você possa aprender e responder a quaisquer perguntas e situações que possam ocorrer.

Por outro lado, a maioria destas abordagens são utilizadas cegamente: não entendemos bem o que está acontecendo em termos de algoritmo, muito mais quando são utilizadas técnicas de aprendizagem profunda onde as características que são extraídas das imagens também são aprendidas pelas próprias técnicas. 

Isto pode causar alguns problemas, por exemplo, classificando mal as imagens, mesmo em situações que para nós humanos é extremamente simples.

Finalmente, precisamos melhorar o desempenho dos algoritmos. Embora o uso de técnicas de aprendizagem de máquinas tenha feito muitos progressos neste sentido, há necessidade de investir neste campo.

Precisamos olhar para trás, para as técnicas do passado, que eram baseadas no conhecimento, no que era real e se fundem com técnicas de aprendizagem de máquinas – tentando descobrir o que está por trás da imagem, o que estou aprendendo – tentar reconhecer e usar esta informação para criar meus modelos e não confiar somente nos dados de uma forma cega. Este deve ser o caminho a seguir neste tipo de técnicas.

Tópicos quentes para ter em mente

Alguns tópicos em voga hoje que continuarão a ser muito interessantes no futuro, e onde haverá muita pesquisa nesta área estão:

  • Melhoria inteligente da imagem (melhorar a qualidade da imagem através de técnicas de IA).
  • Compreensão da cena semântica (percepção e compreensão da cena em sua extensão máxima, ou seja, detectar e reconhecer objetos e sua relação, levando em conta o contexto).
  • Reconhecimento da atividade humana (reconhecer a atividade realizada pelo ser humano, embora já existam várias abordagens, os algoritmos ainda não são perfeitos, portanto ainda há trabalho a ser feito).
  • Imagens 3D (temos um mundo para trabalhar em termos de imagens 3D, precisamos repensar e criar técnicas específicas para trabalhar com imagens 3D, e não apenas adaptações de algoritmos 2D para 3D).
  • Fusão de dados para visão artificial (aproveite os vários dados de diferentes sensores e seu relacionamento através de técnicas de fusão de dados para uma melhor resposta).