Como o HomePod usa o aprendizado de máquina para aumentar a precisão da Siri de campo distante

Em uma nova publicação publicada na segunda-feira através do blog Machine Learning Journal, a Apple detalha como o HomePod, seu alto-falante inteligente sem fio, usa o aprendizado de máquina para aumentar a precisão de campo distante, o que ajuda a Siri a desconsiderar ou suprimir sons de fundo para entender melhor o que você fala. solicitações em ambientes ruidosos.

Do artigo:

O ambiente de áudio típico para o HomePod tem muitos desafios - eco, reverberação e ruído. Ao contrário do Siri no iPhone, que opera próximo à boca do usuário, o Siri no HomePod deve funcionar bem em um cenário distante. Os usuários desejam chamar o Siri de vários locais, como o sofá ou a cozinha, sem levar em consideração a localização do HomePod.

Um sistema on-line completo, que aborda todos os problemas ambientais que o HomePod pode enfrentar, requer uma forte integração de várias tecnologias de processamento de sinal multicanal. Consequentemente, as equipes de Engenharia de software de áudio e Siri Speech construíram um sistema que integra modelos de aprendizado profundo supervisionados e algoritmos de aprendizado on-line não supervisionados e que alavanca vários sinais de microfone.

O sistema seleciona o fluxo de áudio ideal para o reconhecedor de fala usando o conhecimento de cima para baixo dos detectores de frase de acionamento 'Hey Siri'.

O restante do artigo discute o uso das várias técnicas de aprendizado de máquina para processamento de sinal on-line, bem como os desafios enfrentados pela Apple e suas soluções para obter robustez ambiental e algorítmica, garantindo a eficiência energética.

Para encurtar a história, o Siri on HomePod implementa o algoritmo de cancelamento de eco multicanal (MCEC), que usa um conjunto de filtros adaptativos lineares para modelar os vários caminhos acústicos entre os alto-falantes e os microfones para cancelar o acoplamento acústico.

Devido à proximidade dos alto-falantes aos microfones no HomePod, o sinal de reprodução pode ser significativamente mais alto que o comando de voz do usuário nas posições do microfone, principalmente quando o usuário se afasta do dispositivo. De fato, os sinais de eco podem ser 30-40 dB mais altos que os sinais de fala de campo distante, resultando na frase de acionamento indetectável nos microfones durante a reprodução de música alta.

TLDR: o MCEC sozinho não pode remover completamente o sinal de reprodução do seu comando de voz.


Comando Siri gravado na presença de música alta em reprodução: sinal de microfone (em cima), saída de MCEC (em meio) e sinal aprimorado pela supressão de eco baseada em máscara da Apple (em baixo)

Para remover o conteúdo restante da reprodução após o MCEC, o HomePod usa uma abordagem de supressor de eco residual (RES) com uma pequena ajuda do modelo de aprendizado de máquina bem treinado da Apple. Para uma detecção bem-sucedida de frases-gatilho, o RES faz coisas como mitigar o eco linear residual, especialmente na presença de alterações de conversa dupla e caminho do eco.

Leia a postagem completa e role para baixo até a Seção 7, onde você tem imagens de várias formas de onda coloridas junto com links abaixo delas, permitindo ouvir por si mesmo quanto da solicitação de um usuário é suprimida pela música reproduzida em alto volume e pelos sinal de reprodução gerado pelos tweeters e woofer do HomePod.

Petisco: o processamento de sinal multicanal da Apple é executado em um núcleo do silício A8 dual-core de 1.4GHz e consome até 15% do desempenho de núcleo único do chip.

O HomePod usa aprendizado de máquina para muitas coisas, não apenas para a Siri.

Os algoritmos de recomendação de conteúdo executados no dispositivo se beneficiam do aprendizado de máquina, assim como as técnicas de processamento digital de áudio e otimização de som do HomePod.