Visual Capabilities

Create stunning images from text descriptions. Edit and manipulate visual content using natural language prompts.

Image Generation

Text-to-Image Synthesis

Convert natural language descriptions into photorealistic or artistic images using Gemini's advanced visual generation capabilities.

            {`curl -X POST https://api.gemini.com/v1/image \\
  -H "Authorization: Bearer YOUR_API_KEY" \\
  -H "Content-Type: application/json" \\
  -d '{"prompt":"A cyberpunk cityscape at night with neon lights and holographic billboards"}'`}

Example Outputs

Image Editing

Image Input

Upload your base image and use natural language instructions to edit elements within the image.

Supported formats: JPEG, PNG, WebP (max 10MB)

Editing Prompt

Use natural language instructions to modify specific elements in your image.

{`{
  "action": "Edit Image",
  "description": "Add a glowing hologram in the center of the image"
}`}

Additional Visual Features

🎨

Artistic Variations

Apply different artistic styles to your images with prompts like 'watercolor painting style' or 'modern digital art'.

🔍

Visual Questions

Ask detailed questions about images: "What is the main subject in this photo?" or "Describe the lighting composition".

📐

Photographic Enhancements

Automatically enhance lighting, color balance, and composition using Gemini's visual understanding.

Image Understanding

Visual Question Answering

Ask questions about any image to get detailed analysis and metadata:

{`curl -X POST https://api.gemini.com/v1/image \\
  -H "Authorization: Bearer YOUR_API_KEY" \\
  -H "Content-Type: multipart/form-data" \\
  -F "image_file=@catphoto.jpg" \\
  -F "prompt=What kind of cat is this?"`}

Example Response:

"This appears to be a Maine Coon cat with distinctive tabby patterns"

Developer Resources

API Reference

Complete documentation for the Gemini image generation and editing API endpoints. Includes detailed parameter lists, request formats, and response specifications.

View API Docs

SDKs & Tutorials

Python, Node.js, and other library integrations for visual content generation. Includes step-by-step coding examples for common use cases.

Visual Tutorials