Gemini 2.0 Flash Experimental: Edita y crea imágenes usando tan solo indicaciones de texto

Google presenta su nuevo modelo de inteligencia artificial multimodal, Gemini 2.0 Flash Experimental, una herramienta que revoluciona la manera en que las imágenes pueden ser creadas y editadas utilizando únicamente indicaciones de texto. Esta plataforma apuesta por simplificar la interacción con imágenes, permitiendo tareas complejas de edición en forma conversacional.

¿Qué ofrece Gemini 2.0 Flash Experimental?

Interacción multimodal avanzada: acepta texto, imágenes, video y audio para proporcionar una experiencia amplia y completa.
Contexto ampliado: maneja una ventana de contexto considerable de hasta 1 millón de tokens, lo que favorece tareas extensas y precisas de generación de contenidos.
Herramientas integradas: incorpora funciones propias de Google, como la búsqueda y la ejecución directa de código.
Conversacional y dinámica: permite editar imágenes fácilmente a través de diálogos, facilitando enormemente el proceso creativo y la colaboración.
Imágenes intercaladas: genera respuestas que incluyen imágenes y textos combinados en un formato coherente y claro.
Seguridad y protección: todas las creaciones incorporan la marca de agua SynthID, garantizando la transparencia e identificación del contenido generado.

¿Cómo empezar a generar imágenes con Gemini 2.0 Flash?

Para iniciar con esta herramienta, sigue estos sencillos pasos:

Accede a la plataforma desde Google AI Studio.
Escoge «Gemini 2.0 Flash Experimental (Image Generation)» desde la sección de modelos disponibles.
Asegúrate de seleccionar «Images and text» en el formato de salida.

Ejemplo de código usando la API

Este es un ejemplo de cómo se puede emplear esta tecnología mediante código Python:

from google import genai
from google.genai import types

client = genai.Client(api_key="GEMINI_API_KEY")

response = client.models.generate_content(
  model="gemini-2.0-flash-exp",
  contents="Generate a story about a cute baby turtle in a 3d digital art style. For each scene, generate an image.",
  config=types.GenerateContentConfig(response_modalities=["Text", "Image"])
)

Limitaciones importantes

A pesar de sus grandes ventajas, este modelo todavía está en fase experimental y tiene importantes restricciones, como la imposibilidad de generar y editar imágenes que representen personas.

De esta manera, Google continúa avanzando significativamente en la intersección de la inteligencia artificial y la creación visual, ofreciendo nuevas posibilidades para creativos, diseñadores y diversos profesionales digitales.

Para más detalles técnicos puedes visitar la página oficial de Google Developers.

Relacionado

Noticias relacionadas

Qwen-Image-Edit: cómo generar personajes consistentes desde múltiples ángulos de cámara

Tutorial para crear videos de bebés bailando con IA en 2026