IA local on-device: Google presenta Gemma 4 y AI Edge Gallery

Camino al ApplAI 2026: Faktoria estará en el Kursaal el 13 de mayo

6 mayo, 2026

Cómo Esergui-AVIA automatizó la gestión de pedidos mediante un asistente conversacional con IA

18 mayo, 2026

Gemma 4 y AI Edge Gallery: la IA local on-device deja de ser una promesa

11 mayo, 2026

Actualidad, Faktoria, Tendencias

Hace unas semanas, Google DeepMind anunció oficialmente Gemma 4, su nueva familia de modelos abiertos, y publicó la app Google AI Edge Gallery en Google Play y App Store: una aplicación que permite ejecutar modelos directamente en el móvil, sin conexión a internet, sin enviar datos a ningún servidor y sin coste por inferencia. Para quien siga la actualidad de la IA esto puede sonar a un anuncio más en una semana cualquiera. Pero leído con un poco de perspectiva, marca un punto de inflexión que conviene no pasar por alto: la IA local on-device deja de ser un experimento de developers y empieza a ser una opción real para producto. En Faktoria llevamos tiempo defendiendo que el futuro pasa exactamente por ahí. Y aquí va el porqué.

Qué es Gemma 4 y por qué importa

Gemma 4 es la cuarta generación de la familia de modelos abiertos de Google. Se publica bajo licencia Apache 2.0 y comparte la misma investigación base que Gemini 3, el modelo propietario de Google. Repasando la model card oficial, hay datos que merecen atención:

Cuatro tamaños: E2B y E4B (pensados para móvil y edge), y 26B MoE / 31B Dense para GPU de consumo y servidores.
Contexto largo: hasta 128K tokens en E2B/E4B y 256K tokens en los modelos grandes.
Multimodal: entiende texto, imagen y audio (los pequeños).
+140 idiomas soportados, incluido español.
Function calling nativo y modo de razonamiento («thinking mode») integrados.
Pensado de origen para flujos agénticos: planificación multi-paso, llamada autónoma a herramientas, generación de código offline.

Cabe destacar que lo relevante no es solo la potencia. Es que el E2B corre en menos de 1.5 GB de memoria en muchos dispositivos gracias al stack de Google AI Edge (LiteRT-LM con soporte de cuantización a 2 y 4 bits). Es decir: un modelo capaz de razonar, llamar a herramientas y entender imágenes y audio cabe en un móvil de gama media y se ejecuta sin enviar nada fuera. La gente de Hugging Face lo resume sin mucho rodeo: estos modelos son the real deal, verdaderamente abiertos, multimodales, y en tamaños que puedes usar en cualquier sitio, incluido on-device.

AI Edge Gallery: el escaparate del paradigma local

La Google AI Edge Gallery es la aplicación oficial de Google para probar todo este ecosistema. Está disponible en Google Play y App Store, es open source y, lo más importante, toda la inferencia ocurre en el dispositivo: nada de prompts, audios o imágenes viajan a un servidor. Lo que ofrece:

Chat multivuelta con Gemma 4 (E2B y E4B) y modo de razonamiento visible.
Ask Image: preguntas sobre fotos hechas con la cámara, en local.
Audio Scribe: transcripción y traducción de voz on-device.
Agent Skills: un primer paso hacia agentes locales que invocan herramientas (Wikipedia, mapas, fichas visuales) sin abandonar el dispositivo. El equipo de Google AI Edge lo explica en detalle en su post sobre agentic skills en el edge.
Mobile Actions y Tiny Garden: demos de function calling on-device basadas en FunctionGemma 270M, un modelo finetuneado en apenas 270 millones de parámetros para llamar funciones del sistema.

Que la app haya saltado del sideload de APKs (con cuenta de Hugging Face de por medio) a las tiendas oficiales no es un detalle menor. Como recogía Android Authority en su cobertura del lanzamiento, Google está señalando con este movimiento que la IA on-device ya está lista para el público general, no solo para developers que quieran trastear.

Por qué la IA local on-device es la tendencia de fondo

Que Google empuje fuerte en este movimiento no es una decisión aislada. Apple lleva meses preparando un Siri reforzado con LLM on-device en sus chips A19/M5. Microsoft promueve los Small Language Models (Phi-4 Mini iguala a GPT-3.5 con 3.800 millones de parámetros). Y todo el ecosistema open source está madurando a una velocidad que hace dos años parecía improbable. El hilo común que atraviesa todos estos movimientos tiene cuatro patas:

Privacidad por diseño. Si los datos no salen del dispositivo o de la infraestructura del cliente, no hay transferencia internacional, ni subencargado de tratamiento, ni superficie de fuga. El RGPD se cumple de forma determinista, no por un anexo contractual.
Latencia. Una respuesta a 90 ms desde el chip local no la iguala ninguna API en la nube, por buena que sea la red.
Coste marginal cero. Una vez amortizado el dispositivo o el servidor on-prem, cada inferencia es gratis. En cargas constantes, el modelo de pago por token deja de tener sentido económico.
Soberanía. El propio Google reconoce este punto en su post de Cloud sobre Gemma 4, donde habla explícitamente de Sovereign Cloud y de control completo sobre datos, infraestructura y modelos. Cada vez más organizaciones necesitan decidir dónde corre su IA. La nube pública no siempre es la respuesta.

Nuestra apuesta en Faktoria

Quien nos lee con regularidad ya conoce la posición. La hemos ido contando en distintos artículos, pero lo repetimos: en Faktoria no creemos en la dependencia de un único proveedor. Combinamos lo mejor del ecosistema open source con los motores de IA más avanzados, y diseñamos cada despliegue alineado con GDPR, ENS y NIS2, con opciones cloud, on-premise o híbridas. La privacidad y el control de los datos, para nosotros, no son negociables.

Que Google lance Gemma 4 con licencia Apache 2.0 y publique una app oficial para correrlo en el móvil valida exactamente esa dirección. La IA local on-device era hace año y medio una conversación de nicho. Hoy es una de las dos o tres líneas de fuerza claras del sector.

Leer otros:

18 marzo, 2026

18 marzo, 2026

IA conversacional en AAPP: cómo usarla sin perder el control

Primero el anuncio, luego las preguntas Hay un patrón que se repite. Una institución pública anuncia que ha implantado un asistente virtual. Sale en prensa, aparece en la web, se […]

27 abril, 2026

Konect Parse: de la conversación al dato útil

Hay una parte de los sistemas conversacionales de la que casi nadie habla, y que sin embargo es la que decide si todo lo demás funciona o no. Es, en […]

12 febrero, 2026

Cómo convertir tu CMS en un motor de inteligencia con Typesense y Payload

En la Parte 1 establecimos una base sólida para la gestión de contenidos: una infraestructura soberana y un esquema de datos fuertemente tipado. Pero almacenar datos es solo la mitad […]

Camino al ApplAI 2026: Faktoria estará en el Kursaal el 13 de mayo

Cómo Esergui-AVIA automatizó la gestión de pedidos mediante un asistente conversacional con IA

Gemma 4 y AI Edge Gallery: la IA local on-device deja de ser una promesa

IA conversacional en AAPP: cómo usarla sin perder el control

Konect Parse: de la conversación al dato útil

Cómo convertir tu CMS en un motor de inteligencia con Typesense y Payload

Categorías

Redes sociales

Newsletter

¿Quieres saber más sobre Faktoria?

Solicita una demo

Solicita tu auditoría

Solicita tu consultoría