Malware na AppStore e Google Play Que Usa Machine Learning

No último dia 04 de fevereiro especialistas da área de pesquisa da Karpersky detectaram um trojan (1) ativo que “rouba” dados chamado SparkCat que foi disponibilizado no Google Play e no AppStore (que é considerado menos vulnerável), possivelmente desde março de 2024. Segundo a Karpersky é a primeira vez que um malware (2) que usa OCR (3) que em português significa reconhecimento óptico de caracteres foi detectado na AppStore. O SparkCat usa machine learning (4) e pode escanear o equipamento atacado para capturar imagens/fotos/captura de tela que contenham frases (como as que são usadas para recuperar carteiras de criptomoedas quando o equipamento quebra, é roubado ou perdido) ou extrair dados confidenciais como dados bancários e/ou senhas se estiverem armazenadas no equipamento atacado.

De acordo com dados apurados pela Karpersky aplicativos infectados com esse malware já foram baixados mais de 242 mil vezes no Google Play.

O malware se espalha infectando aplicativos legítimos ou falsos (clonados que parecem originais) disponíveis nas lojas oficiais da AppStore ou no Google Play. O aplicativo pode chegar até a vítima por meio de ataques do tipo phishing (5) embutido em aplicativos de mensagens, de entregas, na forma de assistentes de Inteligência Artificial etc. Mas fica o alerta, o malware já está sendo “distribuído” por fontes não oficiais como por exemplo em sites, aplicativos de troca de mensagens e nas redes sociais.

Os países mais visados pelo malware, até o momento, são os países da Europa e Ásia. O malware consegue buscar e capturar imagens contendo palavras em idiomas como o mandarim (China), Hangul (Coreia), Japonês, Inglês, Francês, Italiano, Polonês e atenção, Português. No entanto, há risco para usuários de aplicativos em outras línguas.

Como geralmente ocorre quando um usuário instala um aplicativo, e se por acaso ou azar ele estiver infectado o aplicativo malicioso vai pedir liberação de acesso, por exemplo, a fotos do equipamento do usuário. Se o acesso for liberado o malware consegue “ler” textos mesmo que estejam sob a forma de imagem fazendo reconhecimento óptico de caracteres (OCR). O principal objetivo é varrer as imagens em busca das palavras-chave necessários para recuperação de carteiras de criptomoedas nos casos em que o equipamento quebra, é roubado ou perdido. Outra função que pode ser desempenhada pelo malware é buscar dados incluindo senhas se estiverem guardadas no formato de imagem.

A Karpersky relatou que é o primeiro caso conhecido de Trojan que usa OCR que foi encontrado em aplicativos disponíveis na AppStore. O que a Karpersky não conseguiu identificar até o momento é de que forma os aplicativos legítimos foram comprometidos. O que se sabe de forma clara é que o malware não dá sinais de atuação, atuando de forma furtiva. O pedido de acesso a galeria de imagens não desperta suspeita sinalizando que o acesso é essencial para que o aplicativo funcione corretamente. Essa furtividade pode ter contribuído para passar despercebido pelos filtros de controle das lojas de aplicativos.

Ao analisar o malware os especialistas da Karpersky encontraram palavras escritas em mandarim tanto na versão para Android como na versão para IOS. No entanto isso não significa que o malware foi criado por Chineses, pode ser uma pista falsa.

Tanto no caso dos aplicativos disponíveis na AppStore como no Google Play quando o aplicativo legítimo é baixo ele descriptografa e executa um plug-in (6) OCR usando o kit ML do Google (7) para reconhecer texto em imagens. O nome do kit ML vem de Machine Learning.

A melhor solução para não sofrer este tipo de ataque é não armazenar captura de tela ou fotos com informações críticas tais como dados bancários, senhas ou palavras-chave para recuperação de carteira de criptomoedas.

Mini dicionário

  • Trojan: mais conhecido como cavalo de Troia é um malware que se disfarça de um programa legítimo com objetivo de acessar um PC, Notebook ou Smartphone para “roubar” informações, tais como como dados bancários incluindo as senhas que não deveriam, mas estão guardados/salvos no equipamento atacado.
  • Malware: (Malicious software / Programas maliciosos) é o termo que identifica programas de computador mal-intencionados que são criados com objetivo de explorar vulnerabilidades em redes ou aparelhos que funcionam rodando softwares.
  • OCR: (Optical Character Recognition / Reconhecimento Óptico de Caracteres) é um processo que converte imagem que contém texto num formato que pode ser lido por máquina.
  • Machine Learning: aprendizado de máquina em rasa explicação é um tipo de algoritmo que é criado para analisar dados. Executando o processo de consumo de dados a máquina “aprende”. Hoje em dia esses algoritmos estão espalhados para todos os lados a ponto de não percebermos a sua existência. Entre outras áreas os segmentos que usam intensamente algoritmos de aprendizado de máquinas são bancos, lojas online e mídias sociais.
  • Phishing: não tem uma tradução oficial para o português, mas geralmente é citado como pescaria de dados ou informações. É um tipo de ciberataque que tem como objetivo obter (“roubar”) dados do equipamento atacado e geralmente é feito em massa via e-mail, sms (app de troca de mensagens), redes sociais etc.
  • Plug-in: em informática também é conhecido como extensão, add-in ou add-on é um tipo de programa auxiliar que adiciona funções adicionais para um programa de computador. É uma forma muito utilizada para personalizar um navegador web, por exemplo.
  • Kit ML do Google: de acordo com a própria Google o ML kit é um SDK (8) para aplicativos com foco em dispositivos móveis que leva a experiência em aprendizado de máquina do Google para desenvolvimento de aplicativos Android e IOS (Apple).
  • SDK: Software Development Kit ou kit de desenvolvimento de software em português é um conjunto de ferramentas para criação de aplicativos (softwares) disponibilizado para desenvolvedores ou fornecedores criarem aplicações num determinado sistema com mais agilidade e facilidade.