Um artigo técnico altamente interessante publicado em 1º de outubro no blog Machine Learning Journal da Apple passou despercebido até hoje.
Nele, a Apple detalha como o recurso "Hey Siri" sem restrições tira proveito do hardware, software e poder do iCloud para permitir que os clientes usem o assistente sem o uso das mãos..
O sistema combina reconhecimento de fala baseado em nuvem, interpretação de linguagem natural e outros serviços com processamento no dispositivo assistido por hardware. Um dispositivo iOS executa "um reconhecedor de fala muito pequeno" o tempo todo, que ouve apenas a frase "Hey Siri".
O microfone do seu iPhone ou Apple Watch registra 16.000 fluxos de amostras instantâneas de formas de onda por segundo. Eis por que isso não sobrecarrega muito a bateria do seu iPhone nem monopoliza outros recursos do sistema, como a RAM e a CPU:
Para evitar a execução do processador principal o dia todo, apenas para ouvir a frase de acionamento, o coprocessador sempre ativo do iPhone (AOP, que é um processador auxiliar de baixa potência incorporado ao coprocessador de movimento da série M da Apple) tem acesso ao sinal do microfone no seu iPhone 6s e posterior.
Utilizamos uma pequena proporção do poder de processamento limitado da AOP para executar um detector com uma versão pequena da rede neural. Quando a pontuação excede um limite, o coprocessador de movimento ativa o processador principal, que analisa o sinal usando uma rede neural maior.
Devido à sua bateria muito menor, o Apple Watch executa o detector "Hey Siri" apenas quando o coprocessador de movimento detecta um gesto de elevação do pulso, que liga a tela - é por isso que você não pode usar "Hey Siri" no Apple Watch quando a tela está desligada.
O WatchOS aloca "Hey Siri" aproximadamente cinco por cento do orçamento limitado de computação.
Então, como eles reconhecem a frase quente "Hey Siri" real em tempo real?
Depois de capturada pelo seu dispositivo, a forma de onda é dividida em uma sequência de quadros, cada um descrevendo o espectro sonoro de aproximadamente 0,01 s. Cerca de vinte desses quadros por vez (0,2 s de áudio) são transmitidos para a rede neural profunda.
Lá, o som é convertido em uma distribuição de probabilidade em um conjunto de classes de sons de fala: aquelas usadas na frase "Hey Siri", mais silêncio e outras falas, para um total de cerca de 20 classes de sons. Em seguida, calcula uma pontuação de confiança de que a frase que você pronunciou foi "Hey Siri".
Se a pontuação for alta o suficiente, a Siri acorda.
No iPhone, eles usam uma rede neural para a detecção inicial (executando no chip de movimento que consome muita energia) e outra como verificador secundário (executando no processador principal). Para reduzir gatilhos falsos, a Apple também compara quaisquer novas expressões "Hey Siri" com as cinco frases salvas no dispositivo durante o processo de inscrição "Hey Siri".
“Esse processo não apenas reduz a probabilidade de 'Hey Siri' falado por outra pessoa acionar o seu iPhone, mas também reduz a taxa na qual outras frases com sons semelhantes acionam a Siri”, explicam o trabalho de pesquisa.
O dispositivo também carrega a forma de onda no servidor Siri.
Se o reconhecedor de fala principal em execução na nuvem ouvir como algo diferente de "Hey Siri" (por exemplo, "Hey Seriously", "Hey Syria" ou algo parecido), o servidor envia um sinal de cancelamento ao telefone para colocá-lo novamente em dormir.
“Em alguns sistemas, executamos uma versão reduzida do reconhecedor de fala principal no dispositivo para fornecer uma verificação extra mais cedo”, observa Apple. Suponho que, por "alguns sistemas", eles significam dispositivos conectados à energia, como Macs, Apple TVs e talvez até iPads.
Na foto acima: o padrão acústico conforme ele se move através do detector "Hey Siri", com um espectrograma da forma de onda do microfone mostrado na parte inferior. A pontuação final, mostrada na parte superior, é comparada com um limite para decidir se o Siri deve ser ativado..
O limite em si é de valor dinâmico, porque a Apple quer permitir que os usuários ativem o Siri em condições difíceis - se ele perder um evento genuíno "Hey Siri", o sistema entrará em um estado mais sensível por alguns segundos. Repetir a frase durante esse período acionará a Siri.
E aqui está como eles treinaram o modelo acústico do detector "Hey Siri":
Bem antes de haver um recurso Hey Siri, uma pequena proporção de usuários dizia 'Hey Siri' no início de uma solicitação, começando pressionando o botão. Usamos essas expressões 'Hey Siri' para o conjunto de treinamento inicial para o modelo de detector em inglês dos EUA.
Também incluímos exemplos gerais de fala, usados no treinamento do reconhecedor de fala principal. Nos dois casos, usamos a transcrição automática nas frases de treinamento. Os membros da equipe Siri verificaram um subconjunto das transcrições quanto à precisão.
O modelo acústico no inglês dos EUA ainda leva em consideração diferentes primeiras vogais em “Siri”, uma como em “grave” e a outra como em “Síria”.
O treinamento de um modelo leva cerca de um dia e geralmente existem alguns modelos de treinamento a qualquer momento. Eles geralmente treinam três versões: um modelo pequeno para a primeira passagem no chip de movimento, um modelo de tamanho maior para a segunda passagem e um modelo de tamanho médio para o Apple Watch.
E o último boato: o sistema é treinado para reconhecer também as frases localizadas "Hey Siri".
Por exemplo, usuários de língua francesa dizem "Dis Siri". Na Coréia, eles dizem "Siri 야", que soa como "Siri Ya". Usuários de língua russa usam a frase "привет Siri" (soa como "Privet Siri") e em tailandês "หวัด ดี Siri" (soa como "Wadi Siri").
“Fizemos gravações especialmente em várias condições, como na cozinha (perto e longe), carro, quarto e restaurante, por falantes nativos de cada idioma”, diz Apple.
Eles ainda usam podcasts e entradas Siri em muitos idiomas para representar sons de fundo (especialmente fala) e os "tipos de frases que um usuário pode dizer para outra pessoa".
“Na próxima vez que você disser 'Hey Siri', você pode pensar em tudo o que acontece para fazer com que a resposta aconteça, mas esperamos que ela 'funcione'”, resume a Apple..
O artigo altamente técnico fornece uma visão fascinante da tecnologia "Hey Siri" que damos por garantida; portanto, leia-a ou guarde-a para mais tarde, se você estiver interessado em aprender mais.