/
ModelsSupportEnterpriseBlog
500+ AI Model API, All In One API.Just In CometAPI
Models API
Developer
Quick StartDocumentationAPI Dashboard
Resources
AI ModelsBlogEnterpriseChangelogAbout
2025 CometAPI. All right reserved.Privacy PolicyTerms of Service
Home/Models/Google/Gemini 3.1 Flash-Lite
G

Gemini 3.1 Flash-Lite

Input:$0.2/M
Output:$1.2/M
Gemini 3.1 Flash-Lite は、Google の Gemini 3 シリーズにおける、コスト効率に優れ低レイテンシな Tier-3 モデルで、最大限の推論深度よりもスループットと速度が重視される大規模なプロダクション AI ワークフロー向けに設計されています。大きなマルチモーダルなコンテキストウィンドウと効率的な推論性能を兼ね備え、多くのフラッグシップモデルよりも低コストで提供されます。
New
Commercial Use
Playground
Overview
Features
Pricing
API
Versions

📊 技術仕様

仕様詳細
モデルファミリGemini 3 (Flash-Lite)
コンテキストウィンドウUp to 1 million tokens (multimodal text, images, audio, video)
出力トークン上限Up to 64 K tokens
入力タイプText, images, audio, video
コアアーキテクチャの基盤Based on Gemini 3 Pro
提供チャネルGemini API (Google AI Studio), Vertex AI
価格(プレビュー)~$0.25 per 1M input tokens, ~$1.50 per 1M output tokens
推論コントロールAdjustable “thinking levels” (e.g., minimal to high)

🔍 Gemini 3.1 Flash-Lite とは?

Gemini 3.1 Flash-Lite は、Google の Gemini 3 シリーズにおけるコスト効率に優れた軽量バリアントであり、特に低レイテンシ、低トークン単価、高スループットが重視される大規模 AI ワークロードに最適化されています。Gemini 3 Pro のコアとなるマルチモーダル推論の基盤を維持しつつ、翻訳、分類、コンテンツモデレーション、UI 生成、構造化データ合成といったバルク処理ユースケースをターゲットにしています。

✨ 主な機能

  1. 超大規模コンテキストウィンドウ: 最大 1 M tokens のマルチモーダル入力を処理し、長文書の推論や動画/音声のコンテキスト処理に対応。
  2. 高いコスト効率: 既存の Flash-Lite モデルや競合と比べてトークン単価が大幅に低く、大規模利用が可能。
  3. 高スループット & 低レイテンシ: Gemini 2.5 Flash 比で、最初のトークンまでの時間が約 2.5× 高速、出力スループットが約 45 % 向上。
  4. 動的な推論コントロール: 「thinking levels」により、リクエスト単位でパフォーマンスと深い推論のバランスを調整可能。
  5. マルチモーダル対応: 画像、音声、動画、テキストを単一のコンテキスト空間でネイティブに処理。
  6. 柔軟な API アクセス: Google AI Studio の Gemini API およびエンタープライズ向け Vertex AI で利用可能。

📈 ベンチマーク性能

以下の指標は、過去の Flash/Lite 系や他モデルと比較した際の、Gemini 3.1 Flash-Lite の効率性と能力を示しています(2026年3月時点の報告):

ベンチマークGemini 3.1 Flash-LiteGemini 2.5 Flash DynamicGPT-5 Mini
GPQA Diamond (scientific knowledge)86.9 %66.7 %82.3 %
MMMU-Pro (multimodal reasoning)76.8 %51.0 %74.1 %
CharXiv (complex chart reasoning)73.2 %55.5 %75.5 % (+python)
Video-MMMU84.8 %60.7 %82.5 %
LiveCodeBench (code reasoning)72.0 %34.3 %80.4 %
1M Long-Context12.3 %5.4 %Not supported

これらのスコアは、効率重視の設計でありながら、Flash-Lite が競争力のある推論力とマルチモーダル理解を維持し、主要ベンチマークにおいて旧世代 Flash 系を多くの領域で上回っていることを示しています。

⚖️ 関連モデルとの比較

機能Gemini 3.1 Flash-LiteGemini 3.1 Pro
トークン単価低い(エントリー層)高い(プレミアム)
レイテンシ / スループット速度に最適化深さとのバランス
推論の深さ調整可能だが浅め深い推論が強力
主な用途バルクパイプライン、モデレーション、翻訳ミッションクリティカルな推論タスク
コンテキストウィンドウ1 M tokens1 M tokens (same)

Flash-Lite はスケールとコストに特化、Pro は高精度で深い推論に特化。

🧠 エンタープライズユースケース

  • 大規模翻訳とモデレーション: 低レイテンシのリアルタイム言語/コンテンツパイプライン。
  • バルクなデータ抽出と分類: 大規模コーパス処理における効率的なトークン経済性。
  • UI/UX 生成: 構造化 JSON、ダッシュボードテンプレート、フロントエンドのスキャフォールディング。
  • シミュレーションプロンプティング: 長い対話にわたる論理状態の追跡。
  • マルチモーダルアプリケーション: 動画、音声、画像の情報を統合した推論。

🧪 制限事項

  • 複雑でミッションクリティカルなタスクでは、推論の深さと分析精度が Gemini 3.1 Pro に劣る場合があります。 :
  • ロングコンテキスト融合のようなベンチマークでは、フラッグシップモデルと比較して改善の余地があります。
  • 動的推論コントロールは速度と綿密さのトレードオフであり、すべてのレベルで同一の品質が保証されるわけではありません。

GPT-5.3 Chat (Alias: gpt-5.3-chat-latest) — 概要

GPT-5.3 Chat は、OpenAI の最新プロダクションチャットモデルで、公式 API では gpt-5.3-chat-latest エンドポイントとして提供され、ChatGPT の日常的な会話体験を支えるモデルです。GPT-5 ファミリから受け継いだ強力な技術能力を維持しつつ、日常のやり取りの質を高め、よりスムーズで正確、文脈に即した応答を目指しています。 :contentReference[oaicite:1]{index=1}


📊 技術仕様

仕様詳細
モデル名/エイリアスGPT-5.3 Chat / gpt-5.3-chat-latest
提供元OpenAI
コンテキストウィンドウ128,000 tokens
リクエストあたりの最大出力トークン16,384 tokens
知識のカットオフ2025年8月31日
入力モダリティText and image inputs (vision only)
出力モダリティText
関数呼び出しSupported
構造化出力Supported
ストリーミング応答Supported
ファインチューニングNot supported
蒸留 / 埋め込みDistillation not supported; embeddings supported
代表的なエンドポイントChat completions, Responses, Assistants, Batch, Realtime
関数呼び出しとツールFunction calling enabled; supports web & file search via Responses API

🧠 GPT-5.3 Chat の特長

GPT-5.3 Chat は、GPT-5 系列におけるチャット志向能力の改善を重ねたバリアントです。主な目標は、GPT-5.2 Instant などの従来モデルよりも、より自然で文脈的に一貫性があり、ユーザーフレンドリーな会話応答を提供することです。改善点は以下に重点化されています。

  • 動的で自然なトーン: 不要な但し書きが減り、より直接的な回答へ。
  • 文脈理解と関連性の向上: 日常的なチャットシナリオでの適合度が向上。
  • 豊かなチャットユースケースへのスムーズな統合: マルチターン対話、要約、会話型アシスタンスなど。

GPT-5.3 Chat は、将来的に提供予定の “Thinking” や “Pro” といった推論特化バリアントほどの深い推論は持たないものの、最新の会話品質を必要とする開発者やインタラクティブアプリケーションに推奨されます。


🚀 主な機能

  • 大きなチャットコンテキスト: 128K tokens により、豊富な会話履歴と長コンテキストの追跡が可能。 :contentReference[oaicite:17]{index=17}
  • 改善された応答品質: 不必要な但し書きや過度な拒否が減少し、会話の流れが洗練。 :contentReference[oaicite:18]{index=18}
  • 公式 API サポート: チャット、バッチ処理、構造化出力、リアルタイムワークフローなどに正式対応。
  • 多用途入力のサポート: テキストと画像入力を取り込み、マルチモーダルなチャットユースケースに適合。
  • 関数呼び出し & 構造化出力: API を通じて構造化・対話的なアプリパターンを実現。 :contentReference[oaicite:21]{index=21}
  • 広いエコシステム互換性: v1/chat/completions、v1/responses、Assistants など、最新の OpenAI API インターフェースに対応。

📈 代表的なベンチマークと挙動

📈 ベンチマーク性能

OpenAI と第三者のレポートでは、実環境での性能向上が示されています。

メトリクスGPT-5.3 Instant vs GPT-5.2 Instant
ウェブ検索ありの幻覚率−26.8%
検索なしの幻覚率−19.7%
ユーザー申告の事実誤認(ウェブ)~−22.5%
ユーザー申告の事実誤認(内部)~−9.6%

特に、GPT-5.3 の焦点は実世界の会話品質にあるため、標準化 NLP 指標のようなベンチマークスコアの改善はリリースの主眼ではありません。改善は、テストスコアよりもユーザー体験指標において最も明確に現れます。

業界比較では、GPT-5 系のチャットバリアントは、日常的なチャットの関連性とコンテキスト追跡において従来の GPT-4 モジュールを上回ることが知られていますが、専門的な推論タスクでは、専用の “Pro” バリアントや推論最適化エンドポイントが有利な場合があります。


🤖 ユースケース

GPT-5.3 Chat が適しているのは以下のケースです。

  • カスタマーサポートボットや会話アシスタント
  • インタラクティブなチュートリアル/教育エージェント
  • 要約と会話型検索
  • 内部ナレッジエージェントやチームチャットヘルパー
  • マルチモーダル Q&A(テキスト + 画像)

会話品質と API の汎用性のバランスにより、自然な対話と構造化データ出力を組み合わせるインタラクティブアプリに最適です。

🔍 制限事項

  • 最も深い推論バリアントではない: ミッションクリティカルで高度な分析には、今後提供予定の GPT-5.3 Thinking や Pro モデルがより適している場合があります。
  • マルチモーダル出力は限定的: 入力画像には対応しますが、完全な画像/動画生成やリッチなマルチモーダル出力ワークフローは主眼ではありません。
  • ファインチューニングは非対応: システムプロンプトによる行動制御は可能ですが、モデルの微調整はできません。

How to access Gemini 3.1 flash lite API

Step 1: Sign Up for API Key

cometapi.com にログインします。まだユーザーでない場合は、先に登録してください。 CometAPI console にサインインし、インターフェースのアクセス認証用 API キーを取得します。パーソナルセンターの API token で “Add Token” をクリックし、トークンキー sk-xxxxx を取得して送信します。

cometapi-key

Step 2: Send Requests to Gemini 3.1 flash lite API

“` gemini-3.1-flash-lite” エンドポイントを選択して API リクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは、当社ウェブサイトの API ドキュメントから取得できます。利便性のため、当社ウェブサイトでは Apifox テストも提供しています。<YOUR_API_KEY> をアカウントの実際の CometAPI キーに置き換えてください。base url is Gemini Generating Content

質問やリクエストを content フィールドに挿入します—モデルが応答する対象です。API レスポンスを処理して、生成された回答を取得します。

Step 3: Retrieve and Verify Results

API レスポンスを処理して生成結果を取得します。処理後、API はタスクのステータスと出力データを返します。

FAQ

What tasks is Gemini 3.1 Flash-Lite best suited for?

Gemini 3.1 Flash-Lite は、翻訳、コンテンツモデレーション、分類、UI/ダッシュボード生成、シミュレーション用プロンプトパイプラインなど、速度と低コストが優先される大量処理かつレイテンシに敏感なワークフロー向けに最適化されています。

What is the context window and output capability of Gemini 3.1 Flash-Lite?

Gemini 3.1 Flash-Lite は、テキスト、画像、音声、動画を含むマルチモーダル入力に対して、最大 100万トークン の大規模なコンテキストウィンドウをサポートし、出力は最大 64 K トークン です。

How does Gemini 3.1 Flash-Lite compare to Gemini 2.5 Flash in performance and cost?

Gemini 2.5 Flash モデルと比較すると、Gemini 3.1 Flash-Lite は、最初の回答までの時間が約2.5倍高速で、出力スループットが約45%高く、さらに入力・出力の両方で100万トークンあたりのコストが大幅に低くなっています。 }

Does Gemini 3.1 Flash-Lite support adjustable reasoning depth?

はい — 最小、低、中、高など複数の推論または「思考」レベルを提供しており、開発者は複雑なタスクにおいて、速度とより深い推論との間でトレードオフできます。 :contentReference[oaicite:3]{index=3}

What are typical benchmark strengths of Gemini 3.1 Flash-Lite?

GPQA Diamond(科学知識)や MMMU Pro(マルチモーダル理解)などのベンチマークにおいて、Gemini 3.1 Flash-Lite は以前の Flash-Lite モデルと比較して高いスコアを示しており、公式評価では GPQA 約86.9%、MMMU 約76.8%です。

How can I access Gemini 3.1 Flash-Lite via API?

CometAPI を通じて、企業向け統合のために gemini-3.1-flash-lite-preview エンドポイントを利用できます。

When should I choose Gemini 3.1 Flash-Lite vs Gemini 3.1 Pro?

大規模タスクでスループット、レイテンシ、コストを優先する場合は Flash-Lite を選択し、最高レベルの推論の深さ、分析精度、またはミッションクリティカルな理解が必要なタスクには Pro を選択してください。

Features for Gemini 3.1 Flash-Lite

Explore the key features of Gemini 3.1 Flash-Lite, designed to enhance performance and usability. Discover how these capabilities can benefit your projects and improve user experience.

Pricing for Gemini 3.1 Flash-Lite

Explore competitive pricing for Gemini 3.1 Flash-Lite, designed to fit various budgets and usage needs. Our flexible plans ensure you only pay for what you use, making it easy to scale as your requirements grow. Discover how Gemini 3.1 Flash-Lite can enhance your projects while keeping costs manageable.
Comet Price (USD / M Tokens)Official Price (USD / M Tokens)Discount
Input:$0.2/M
Output:$1.2/M
Input:$0.25/M
Output:$1.5/M
-20%

Sample code and API for Gemini 3.1 Flash-Lite

Access comprehensive sample code and API resources for Gemini 3.1 Flash-Lite to streamline your integration process. Our detailed documentation provides step-by-step guidance, helping you leverage the full potential of Gemini 3.1 Flash-Lite in your projects.
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-3.1-flash-lite-preview",
    contents="Explain how AI works in a few words",
)

print(response.text)

Versions of Gemini 3.1 Flash-Lite

The reason Gemini 3.1 Flash-Lite has multiple snapshots may include potential factors such as variations in output after updates requiring older snapshots for consistency, providing developers a transition period for adaptation and migration, and different snapshots corresponding to global or regional endpoints to optimize user experience. For detailed differences between versions, please refer to the official documentation.
モデル ID説明提供状況リクエスト
gemini-3-1-flash自動的に最新のモデルを指します✅Gemini コンテンツ生成
gemini-3-1-flash-preview公式プレビュー✅Gemini コンテンツ生成
gemini-3.1-flash-lite-preview-thinking思考版✅Gemini コンテンツ生成
gemini-3.1-flash-lite-thinking思考版✅Gemini コンテンツ生成

More Models