Vercel AI SDK support for Google Gemini 2.0 Flash multimodal API

gertie01 · April 10, 2026, 4:08pm

What if the Vercel AI SDK version of google/gemini-2.0-flash exposes the multimodal API

swarnava · April 11, 2026, 8:07am

The Vercel AI SDK does expose multimodal capabilities for Gemini models. You can send images, audio, and files as input to Gemini models:

import { generateText } from "ai"

const result = await generateText({
  model: "google/gemini-2.0-flash",
  messages: [
    {
      role: "user",
      content: [
        { type: "text", text: "What's in this image?" },
        { type: "image", image: imageBuffer }, // or URL
      ],
    },
  ],
})

Multimodal Output (Image Generation)

For models that support image generation (like Gemini 3.1 Flash Image Preview / “Nano Banana 2”), you can use generateImage:

import { generateImage } from "ai"

const { image } = await generateImage({
  model: "google/gemini-3.1-flash-image-preview",
  prompt: "A futuristic city at sunset",
})

Interleaved Text + Images

For models that generate interleaved text and images, you’d use the streaming response with multimodal parts:

import { streamText } from "ai"

const result = streamText({
  model: "google/gemini-3.1-flash-image-preview",
  prompt: "Create a step-by-step recipe with images",
})

for await (const part of result.fullStream) {
  if (part.type === "text-delta") {
    // Handle text
  } else if (part.type === "file") {
    // Handle generated image
  }
}

Gemini 2.0 Flash: Multimodal input (images, files, audio)
Gemini 3.1 Flash Image Preview: Multimodal output (generates images inline)
The AI SDK abstracts provider differences, so you use the same patterns across models

Topic		Replies	Views
Idea Favor Feedback	0	17	May 11, 2026
AI Sdk Documentation AI SDK ai-sdk	1	368	August 29, 2024
Suggestion? Feedback	2	25	April 29, 2026
Request to restore gemini-2.0-flash-exp-image-generation model AI SDK ai-sdk	2	46	March 13, 2026
AI Gateway Payload size AI SDK ai-gateway	3	199	September 30, 2025

Vercel AI SDK support for Google Gemini 2.0 Flash multimodal API

Multimodal Output (Image Generation)

Interleaved Text + Images

Related topics