A Apple publicou na quarta-feira três novos artigos detalhando as técnicas de aprendizado profundo usadas para a criação das novas vozes sintéticas da Siri. As redações também abrangem outros tópicos de aprendizado de máquina que serão compartilhados ainda esta semana na conferência Interspeech 2017 em Estocolmo, Suécia.
Os seguintes novos artigos da equipe Siri já estão disponíveis:
- Deep Learning for Voice da Siri detalha como as redes de densidade de mistura profunda no dispositivo são usadas para a síntese de seleção de unidades híbridas
- Normalização inversa de texto - abordada a partir de uma perspectiva de rotulagem
- Melhorando os modelos acústicos de redes neurais - aproveitando a largura de banda cruzada e a inicialização em vários idiomas, se você entende o que quero dizer
Se você tiver problemas para entender os detalhes técnicos ou até mesmo entender a natureza altamente técnica do idioma usado nos últimos artigos, você não está sozinho..
Não tenho nenhum problema em mergulhar profundamente na documentação complexa da Apple para desenvolvedores e outra documentação especializada, mas me sinto absolutamente estúpido só de ler esses explicadores detalhados.
Entre outras melhorias, o iOS 11 oferece mais inteligência e uma nova voz para a Siri.
O assistente pessoal da Apple não usa mais frases e palavras gravadas por dubladores para construir frases e suas respostas. Em vez disso, o Siri no iOS 11 (e em outras plataformas) adota vozes masculinas e femininas criadas programaticamente. Essa é uma técnica de síntese de voz muito mais difícil, mas permite algumas possibilidades criativas muito legais.
Por exemplo, as novas vozes da Siri aproveitam o aprendizado de máquina no dispositivo e a inteligência artificial para ajustar a entonação, o tom, a ênfase e o andamento enquanto falam, em tempo real, levando em consideração o contexto da conversa. O artigo da Apple intitulado “Deep Learning for Siri's Voice” detalha as várias técnicas de aprendizado profundo por trás das melhorias de voz do iOS 11 no Siri.
De acordo com o parágrafo inicial:
Siri é um assistente pessoal que se comunica usando síntese de fala. A partir do iOS 10 e continuando com os novos recursos do iOS 11, baseamos as vozes da Siri no aprendizado profundo. As vozes resultantes são mais naturais, mais suaves e permitem que a personalidade da Siri brilhe.
Os novos artigos foram publicados no blog oficial do Apple Machine Learning Journal, criado há algumas semanas para cobrir os esforços da empresa no campo de aprendizado de máquina, inteligência artificial e pesquisas relacionadas.
A Apple seguiu em frente com o blog após críticas de que não poderia contratar as mentes mais brilhantes em inteligência artificial e aprendizado de máquina porque não permitiria que publicassem seus trabalhos.
O post inaugural, intitulado "Melhorando o realismo das imagens sintéticas", foi publicado em julho. O artigo detalhado descreve um novo método para melhorar o realismo de imagens sintéticas de um simulador usando dados reais não rotulados, preservando as informações da anotação.