OpenAI ouve você sussurrar | Hackaday

Se você quiser experimentar o reconhecimento de voz de alta qualidade sem comprar nada, boa sorte. Claro, você pode emprestar o reconhecimento de fala em seu telefone ou coagir alguns assistentes virtuais em um Raspberry Pi para lidar com o processamento para você, mas eles não são bons para grandes trabalhos que você não deseja vincular a algum código fechado solução. A OpenAI introduziu o Whisper, que eles afirmam ser uma rede neural de código aberto que “se aproxima da robustez e precisão do nível humano no reconhecimento de fala em inglês”. Parece funcionar em pelo menos alguns outros idiomas também.

Se você experimentar as demonstrações, verá que falar rápido ou com um sotaque adorável não parece afetar os resultados. O post menciona que foi treinado em 680.000 horas de dados supervisionados. Se você falasse tanto com uma IA, levaria 77 anos sem dormir!

Internamente, a fala é dividida em trechos de 30 segundos que alimentam um espectrograma. Os codificadores processam o espectrograma e os decodificadores digerem os resultados usando algumas previsões e outras heurísticas. Cerca de um terço dos dados eram de fontes que não falam inglês e depois traduzidos. Você pode ler o artigo sobre como o treinamento generalizado tem desempenho inferior a alguns modelos especificamente treinados em benchmarks padrão, mas eles acreditam que o Whisper se sai melhor em fala aleatória além de benchmarks específicos.

O tamanho do modelo na variação “minúscula” ainda é de 39 megabytes e a variante “grande” tem mais de um show e meio. Portanto, isso provavelmente não será executado no seu Arduino tão cedo. Se você quiser codificar, porém, está tudo no GitHub.

Existem outras soluções, mas não tão robustas. Se você quiser seguir a rota baseada em assistente, aqui está alguma inspiração.

Leave a Comment