Ahora Gboard de Pixel con dictado de voz en el dispositivo

Gboard es una solución de teclado con tecnología de Google para dispositivos Android. La mayoría de las funciones dependen del aprendizaje automático, la inteligencia artificial y las redes neuronales. Una de las características es voz a texto o dictado de voz. Anteriormente, cuando le habla a su dispositivo, envía su voz a la nube, donde se maneja, se convierte en texto y luego se envía de vuelta a su dispositivo. Pero ahora Google está transformando el método.

¿Qué se cambia?

Google ahora ha decidido utilizar algoritmos de aprendizaje automático en el dispositivo, ya que proporciona disponibilidad y baja latencia. Por lo tanto, Google ha anunciado que Gboard, la aplicación de teclado virtual disponible para múltiples plataformas, ahora utilizará un reconocedor de extremo a extremo para influir en la entrada de voz en inglés estadounidense en los teléfonos inteligentes Google Pixel.

Gboard con dictado de voz en el dispositivo
Fuente de la imagen: Venturebeat

El gigante tecnológico reveló que ahora el nuevo Gboard tendrá un reconocedor de voz Gboard totalmente neuronal en el dispositivo que asegura mejorar su reconocimiento de velocidad. El nuevo reconocedor utiliza RNN-T, también conocido como transductor de red neuronal recurrente, que puede vivir fácilmente en su teléfono, lo que significa que no hay latencia de red ya que no usa la red para su transcripción. Como reside en su teléfono, el reconocedor de voz mejorado también funciona con conexión a Internet.

RNN-T entrenó en TPU (unidad de procesamiento de tensor) de segunda generación en Google Cloud, por lo que puede manejar la transcripción en tiempo real. Además, según Google debido a su técnica de entrenamiento concebida, es un 5% menos propenso a confundir palabras durante la transcripción.

Google también mencionó que su reconocimiento de voz Gboard mejorado funciona a nivel de carácter. En otras palabras, digas lo que digas, la salida aparece carácter por carácter como si alguien escribiera las palabras cuando hablaste en tiempo real.

Ver también:-

¿Qué tiene que decir Google?

Un miembro del Equipo de voz de Google mencionado en una publicación de blog, “Esto significa que ya no hay latencia ni manchas en la red: el nuevo reconocedor siempre está disponible, incluso cuando no está conectado. El modelo funciona a nivel de carácter, de modo que mientras habla, emite palabras carácter por carácter, como si alguien estuviera escribiendo lo que dice en tiempo real, y exactamente como esperaría de un sistema de dictado de teclado. .”

Schalkwyk también dijo, “Dadas las tendencias en la industria, con la convergencia de hardware especializado y mejoras algorítmicas, tenemos la esperanza de que las técnicas presentadas aquí puedan adoptarse pronto en más idiomas y en dominios de aplicación más amplios”.

¿Cuándo llegará?

Según las noticias, Google ha anunciado que este reconocedor de voz Gboard totalmente neuronal en el dispositivo llegará a todos los teléfonos Pixel en inglés americano por ahora. Pero Google también ha dado esperanzas de extenderse a otros idiomas pronto.

¿Cuáles son las ventajas?

La nueva técnica eliminará la necesidad de conexión a Internet. Anteriormente, debe tener datos móviles o Wi-Fi para enviar o recuperar información hacia y desde la nube. El método de procesamiento fuera de línea también ha reducido la latencia y los problemas de confusión.

Deja un comentario