Novo ataque de espionagem no Android escuta suas ligações usando os sensores de movimento
Uma equipe de pesquisadores desenvolveu um ataque de espionagem para dispositivos Android que pode, em vários graus, reconhecer o gênero e a identidade do chamador e até mesmo discernir a fala privada.
Batizado de EarSpy, o ataque de canal lateral visa explorar novas possibilidades de espionagem através da captura de leituras de dados do sensor de movimento causadas por reverberações de alto-falantes auditivos em dispositivos móveis.
O EarSpy é um esforço acadêmico de pesquisadores de cinco universidades americanas Texas A & M University, New Jersey Institute of Technology, Temple University, University of Dayton e Rutgers University.
Embora esse tipo de ataque tenha sido explorado em alto-falantes de smartphones, os alto-falantes auditivos foram considerados muito fracos para gerar vibração suficiente para o risco de espionagem para transformar esse ataque de canal lateral em um ataque prático.
No entanto, os smartphones modernos usam alto-falantes estéreo mais poderosos em comparação com os modelos de alguns anos atrás, que produzem uma qualidade de som muito melhor e vibrações mais fortes.
Da mesma forma, os dispositivos modernos usam sensores de movimento e giroscópios mais sensíveis que podem gravar até mesmo as menores ressonâncias dos alto-falantes.
A prova desse progresso é mostrada abaixo, onde o fone de ouvido de um OnePlus 3T 2016 mal se registra no espectrograma, enquanto os alto-falantes estéreo de um OnePlus 7T 2019 produzem significativamente mais dados.
Experiência e resultados
Os pesquisadores usaram um dispositivo OnePlus 7T e OnePlus 9 em seus experimentos, juntamente com vários conjuntos de áudio pré-gravado que foi reproduzido apenas através dos alto-falantes auditivos dos dois dispositivos.
A equipe também usou o aplicativo de terceiros ‘Physics Toolbox Sensor Suite' para capturar dados do acelerômetro durante uma chamada simulada e, em seguida, alimentá-los ao MATLAB para análise e extração de recursos do fluxo de áudio.
Um algoritmo de aprendizado de máquina (ML), ou seja, um método de análise de dados que automatiza a construção de modelos analíticos foi treinado, usando conjuntos de dados prontamente disponíveis para reconhecer o conteúdo da fala, a identidade do chamador e o gênero.
Os dados do teste variaram dependendo do conjunto de dados e do dispositivo, mas produziram resultados promissores gerais para espionagem através do alto-falante auditivo.
A identificação do sexo do chamador no OnePlus 7T variou entre 77,7% e 98,7%, a classificação do identificador de chamadas variou entre 63,0% e 91,2% e o reconhecimento de fala variou entre 51,8% e 56,4%.
Avaliamos os recursos do domínio do tempo e da frequência com algoritmos clássicos de ML, que mostram a maior precisão de 56,42%. Como existem dez classes diferentes aqui, a precisão ainda exibe uma precisão cinco vezes maior do que um palpite aleatório, o que implica que a vibração devido ao alto-falante auditivo induziu uma quantidade razoável de impacto distinguível nos dados do acelerômetro.
explicam os pesquisadores em seu artigo.
No dispositivo OnePlus 9, a identificação de gênero ficou em 88,7%, a identificação do falante caiu para uma média de 73,6%, enquanto o reconhecimento de fala variou entre 33,3% e 41,6%.
Usando o alto-falante e o aplicativo ‘Spearphone‘ que os pesquisadores desenvolveram enquanto experimentavam um ataque semelhante em 2020, a precisão do gênero e da identificação do chamador atingiu 99%, enquanto o reconhecimento de fala atingiu uma precisão de 80%.
Limitações e soluções
Uma coisa que pode reduzir a eficácia do ataque EarSpy é o volume que os usuários escolhem para seus alto-falantes de ouvido. Um volume mais baixo pode evitar a espionagem através deste ataque de canal lateral e também é mais confortável para o ouvido.
A disposição dos componentes de hardware do dispositivo e a estanqueidade do conjunto também afetam a difusão da reverberação do alto-falante.
Finalmente, o movimento do usuário ou as vibrações introduzidas a partir do ambiente diminuem a precisão dos dados de fala derivados.
O Android 13 introduziu uma restrição na coleta de dados do sensor sem permissão para taxas de dados de amostragem além de 200 Hz. Embora isso impeça o reconhecimento de fala na taxa de amostragem padrão (400 Hz – 500 Hz), ele só diminui a precisão em cerca de 10% se o ataque for realizado a 200 Hz.
Os pesquisadores sugerem que os fabricantes de telefones devem garantir que a pressão sonora permaneça estável durante as chamadas e coloquem os sensores de movimento em uma posição em que as vibrações de origem interna não os afetem ou, pelo menos, tenham o mínimo impacto possível.
Fonte: arxiv.org