Concrete Logo
Hamburger button

Voice is the new black

  • Blog
  • 3 de Outubro de 2014
Share

Em alguns projetos aqui na Concrete Solutions, e também aos poucos individualmente, temos conseguido implementar cada vez mais o conceito de voz como interface para input de dados e comandos em softwares. No projeto da Claro Idiomas, por exemplo, Bruno Neves, Corintho Assunção e Rodrigo Caetano implementaram um exercício para quem quer aprender inglês que “entende” as palavras que são ditas pelo usuário e as compara com o texto a ser repetido (listen and repeat).

Passamos por interações cada vez mais ricas com Siri’s e Google Now’s. Peça, por exemplo, para a Siri te contar uma piada ou mandar um e-mail, ou para o Google Now te levar passo-a-passo até a sua casa e você entenderá o poder dessa interação.

Siri-vs-Now

Ok, mas por que isso é relevante? Reconhecimento de voz é algo relativamente datado. Sim! Mas quando se faz um panorama dos gadgets que estão por vir (relógios, carros, Internet das coisas), fica claro que a experiência de usuário não necessariamente acontecerá por meio de toques em um pedaço de vidro, ou por inputs usando periféricos como mouse, teclados, etc.

Com a necessidade de colocar coisas “smart” em contextos cada vez mais diversos, a língua falada, reconhecida, e finalmente traduzida em ações toma cada vez mais um papel central. Por menor que seja a tela do seu smartwatch, é vantajoso o fato de ele entender “ligue para minha casa”, e esse contexto é ainda mais crítico em carros, por exemplo, onde a atenção do motorista não pode ser distanciada da tarefa de dirigir. O caso de uso do Waze incluindo a busca de um destino por voz é emblemática nesse sentido.

comando-de-voz

Quando enxergamos o salto para uma “smarthouse”, com a expansão da Internet das Coisas, fica claro que é impossível que tudo tenha uma tela touch. Da cafeteira à geladeira temos muitos tamanhos de dispositivos e diferentes casos de uso, assim como diferentes desafios tecnológicos. Neste contexto, parece que a interface por voz vai permear essas interações e ser a nova porta para interação de usuários.

Coisas interessantes surgem daí. Por exemplo, biometria para autenticação de usuários, com a qual a voz do “dono da casa” ou do “dono do carro” permite que certos comandos sejam executados, como “ligue o carro” ou “abra a porta”. Em tempo, existem diversos softwares que permitem o reconhecimento de voz, alguns pagos, outros gratuitos, alguns melhores, outros piores, mas quase todos bem funcionais na tarefa de reconhecer diversos idiomas.

smart house

Vale lembrar que existe uma distância clara entre a voz como interface e os comandos que são executados. Quebrar as frases de maneira semântica e executar ações a partir disso é outra parte do problema que precisa ser endereçado. E já existe gente trabalhando nisso.

Outro ponto em que a voz pode auxiliar os desenvolvedores é no ato de programar. Editores de texto ou IDEs que consigam escrever instruções faladas pelo programador podem ser uma nova forma como os desenvolvedores programarão no futuro. As aplicações diretas disso em BDD são óbvias, mas também conseguimos alguns casos de uso com Python, por exemplo:

“For car in Cars”: é uma instrução bastante inteligível, tanto para o reconhecedor de voz quanto para a IDE e o programador. Tudo depende de linguagens cada vez mais alto nível, o que talvez diminua a barreira de entrada para o mundo da programação.

Parece que o mundo já está mudando, de novo, e é provável que para as próximas tecnologias você interaja com elas puramente por voz.

Se você gostou dessa ideia, fale 😉 E se quiser saber mais, seguem alguns links interessantes sobre o assunto:

https://developer.android.com/reference/android/speech/package-summary.html

https://www.talko.com

https://ifttt.com

Até a próxima!