La nueva tecnología de 'cascadas especulativas' de Google logra una inferencia de LLM más inteligente y rápida

MADRID, 15 Sep. (Portaltic/EP) -

Google ha presentado una nueva tecnología de 'cascadas especulativas', que mejora la eficiencia y coste computacional de los modelos grandes de lenguaje (LLM), como Gemma, para lograr una inferencia más inteligente y rápida sin perder calidad, al combinar los sistemas de decodificación especulativa con los de cascadas estándar.

Los LLM disponen de altas capacidades de Inteligencia Artificial (IA) para impulsar desde funciones de búsqueda avanzada hasta asistentes de programación creativos. Sin embargo, este tipo de acciones requieren un alto nivel de inferencia, esto es, el proceso que realiza el modelo para generar una respuesta.

Dependiendo de la tarea que tenga que llevar a cabo el modelo LLM, el proceso puede ser lento y "computacionalmente costoso", algo que se agrava a medida que estos modelos se implementan para más usuarios, como ha señalado Google. Por tanto, la compañía ha puesto sobre la mesa la necesidad de lograr LLM "más rápidos y económicos sin sacrificar la calidad".

Para ello, ha desarrollado una nueva tecnología a la que se refiere como 'cascadas especulativas', que mezcla los sistemas de cascadas estándar y la codificación especulativa en los modelos para lograr una inferencia más inteligente y rápida en LLM como Gemma sin perder calidad.

En concreto, según ha explicado Google en un comunicado en su web de Investigación, las cascadas son un sistema diseñado para optimizar la eficiencia de los LLM mediante el uso estratégico de modelos más pequeños y rápidos según la tarea.

Mediante una "regla de aplazamiento", las cascadas cuentan con un enfoque en el que el modelo más pequeño decide si puede procesar una consulta o si es necesario transferir la tarea a un modelo más grande y, por tanto, más costoso, pero capaz de realizar la labor en cuestión.

Así, el objetivo es que los modelos pequeños y rápidos procesen la mayor cantidad posible de tareas de las que son capaces, para que lo hagan de forma más económica y en menor tiempo. Mientras, se deja el alto costo del LLM grande "solo para tareas complejas que realmente requieren sus capacidades avanzadas". Esto permite una asignación eficiente de recursos y prioriza la reducción de costos computacionales, según la tecnológica.

Por su parte, la decodificación especulativa, es un sistema que utiliza un modelo borrador más pequeño y rápido para predecir "una secuencia de 'tokens' futuros", que se verifican con el modelo "objetivo" más grande.

Si el modelo grande acepta el borrador, genera múltiples tokens en un solo paso, acelerando el proceso y "garantizando que el resultado sea idéntico al que el modelo grande habría producido por sí solo", tal y como ha explicado la compañía. Por tanto, se reduce la latencia y se aumenta la velocidad.

Teniendo todo ello en cuenta, el nuevo enfoque de 'cascadas especulativas' de Google combina lo mejor de ambos sistemas y, con ello, logra ofrece "una mayor calidad de salida LLM a un menor coste computacional", en comparación con el uso de estas técnicas por separado.

La tecnológica ha probado esta nueva técnica utilizando los modelos Gemma y T5 en diversas tareas lingüísticas, como los resúmenes, traducciones, el razonamiento o la codificación y respuestas a preguntas. Como resultado, Google ha asegurado que los resultados ofrecidos logran "un mejor equilibrio entre coste y calidad", ya que generan una mayor aceleración y mejores métricas de calidad "en comparación con las líneas base".

La diferencia se basa, en parte, en que la cascada especulativa admite el uso de respuestas útiles de los modelos pequeños, aunque a la hora de llevar a cabo la decodificación especulativa, no coincidan los tokens con el modelo grande.

Al replantear la interacción entre las cascadas y la decodificación especulativa, las cascadas especulativas "ofrecen una herramienta más potente y flexible para los desarrolladores", ha señalado Google, al tiempo que ha matizado que este enfoque híbrido "permite un control preciso del equilibrio entre coste y calidad, allanando el camino para aplicaciones más inteligentes y rápidas".