Gemini 2.5 Flash direka untuk memberikan respons pantas tanpa menjejaskan kualiti output. Ia menyokong input multimodal, termasuk teks, imej, audio dan video, menjadikannya sesuai untuk pelbagai aplikasi. Model ini boleh diakses melalui platform seperti Google AI Studio dan Vertex AI, menyediakan pembangun dengan alat yang diperlukan untuk integrasi lancar ke dalam pelbagai sistem.
Maklumat Asas (Ciri-ciri)
Gemini 2.5 Flash memperkenalkan beberapa ciri menonjol yang membezakannya dalam keluarga Gemini 2.5:
- Penaakulan Hibrid: Pembangun boleh menetapkan parameter thinking_budget untuk mengawal dengan teliti bilangan token yang diperuntukkan oleh model untuk penaakulan dalaman sebelum output.
- Sempadan Pareto: Diletakkan pada titik kos-prestasi optimum, Flash menawarkan nisbah harga-ke-kepintaran terbaik dalam kalangan model 2.5.
- Sokongan Multimodal: Memproses teks, imej, video dan audio secara natif, membolehkan keupayaan perbualan dan analitik yang lebih kaya.
- Konteks 1 Juta Token: Panjang konteks yang tiada tandingan membolehkan analisis mendalam dan pemahaman dokumen panjang dalam satu permintaan.
Versi Model
Gemini 2.5 Flash telah melalui versi utama berikut:
- gemini-2.5-flash-lite-preview-09-2025: Kebolehgunaaan alat dipertingkat: Prestasi lebih baik pada tugasan kompleks berbilang langkah, dengan peningkatan 5% dalam skor SWE-Bench Verified (daripada 48.9% kepada 54%). Kecekapan dipertingkat: Apabila penaakulan didayakan, output berkualiti lebih tinggi dicapai dengan lebih sedikit token, mengurangkan kependaman dan kos.
- Preview 04-17: Keluaran akses awal dengan keupayaan “thinking”, tersedia melalui gemini-2.5-flash-preview-04-17.
- Ketersediaan Umum (GA) Stabil: Mulai 17 Jun 2025, titik akhir stabil gemini-2.5-flash menggantikan pratonton, memastikan kebolehpercayaan gred produksi tanpa perubahan API daripada pratonton 20 Mei.
- Penyahgunaan Pratonton: Titik akhir pratonton dijadualkan ditutup pada 15 Julai 2025; pengguna mesti berhijrah ke titik akhir GA sebelum tarikh ini.
Mulai Julai 2025, Gemini 2.5 Flash kini tersedia kepada umum dan stabil (tiada perubahan daripada gemini-2.5-flash-preview-05-20). Jika anda menggunakan gemini-2.5-flash-preview-04-17, harga pratonton sedia ada akan diteruskan sehingga persaraan berjadual titik akhir model pada 15 Julai 2025, apabila ia akan ditutup. Anda boleh berhijrah ke model yang tersedia secara umum "gemini-2.5-flash".
Lebih pantas, lebih murah, lebih pintar:
- Matlamat reka bentuk: kependaman rendah + kadar hantaran tinggi + kos rendah;
- Peningkatan kelajuan keseluruhan dalam penaakulan, pemprosesan multimodal dan tugasan teks panjang;
- Penggunaan token dikurangkan sebanyak 20–30%, sekali gus mengurangkan kos penaakulan dengan ketara.
Spesifikasi Teknikal
Tetingkap Konteks Input: Sehingga 1 juta token, membolehkan pengekalan konteks yang meluas.
Token Output: Mampu menghasilkan sehingga 8,192 token bagi setiap respons.
Modaliti Disokong: Teks, imej, audio dan video.
Platform Integrasi: Tersedia melalui Google AI Studio dan Vertex AI.
Harga: Model harga berasaskan token yang kompetitif, memudahkan penggunaan yang kos efektif.
Perincian Teknikal
Pada asasnya, Gemini 2.5 Flash ialah model bahasa besar berasaskan transformer yang dilatih pada gabungan data web, kod, imej dan video. Spesifikasi teknikal utama termasuk:
Latihan Multimodal: Dilatih untuk menyelaraskan pelbagai modaliti, Flash boleh menggabungkan teks dengan imej, video atau audio secara lancar, berguna untuk tugasan seperti ringkasan video atau pengkapsyenan audio.
Proses Pemikiran Dinamik: Melaksanakan gelung penaakulan dalaman di mana model merancang dan memecahkan arahan kompleks sebelum output akhir.
Bajet Pemikiran Boleh Dikonfigur: thinking_budget boleh ditetapkan daripada 0 (tiada penaakulan) hingga 24,576 token, membolehkan pertukaran antara kependaman dan kualiti jawapan.
Integrasi Alat: Menyokong Grounding with Google Search, Code Execution, URL Context dan Function Calling, membolehkan tindakan dunia sebenar terus daripada arahan bahasa semula jadi.
Prestasi Penanda Aras
Dalam penilaian yang ketat, Gemini 2.5 Flash menunjukkan prestasi terkemuka industri:
- LMArena Hard Prompts: Mendapat skor kedua selepas 2.5 Pro pada penanda aras Hard Prompts yang mencabar, mempamerkan keupayaan penaakulan berbilang langkah yang kukuh.
- Skor MMLU sebanyak 0.809: Melebihi prestasi purata model dengan ketepatan MMLU 0.809, menggambarkan keluasan pengetahuan domain dan kehebatan penaakulannya.
- Kependaman dan Kadar Hantaran: Mencapai kelajuan penyahkodan 271.4 tokens/sec dengan 0.29 s Time-to-First-Token, menjadikannya sesuai untuk beban kerja sensitif kependaman.
- Peneraju Harga-berbanding-Prestasi: Pada $0.26/1 M tokens, Flash menewaskan ramai pesaing sambil menyamai atau mengatasi mereka pada penanda aras utama.
Hasil ini menunjukkan kelebihan daya saing Gemini 2.5 Flash dalam penaakulan, kefahaman saintifik, penyelesaian masalah matematik, pengaturcaraan, tafsiran visual dan keupayaan berbilang bahasa:
Batasan
Walaupun berkuasa, Gemini 2.5 Flash mempunyai beberapa batasan:
- Risiko Keselamatan: Model boleh mempamerkan nada “mengajar” dan mungkin menghasilkan output yang kedengaran munasabah tetapi tidak tepat atau berat sebelah (halusinasi), terutamanya pada pertanyaan kes tepi. Penyeliaan manusia yang ketat kekal penting.
- Had Kadar: Penggunaan API dihadkan oleh had kadar (10 RPM, 250,000 TPM, 250 RPD pada peringkat lalai), yang boleh menjejaskan pemprosesan kelompok atau aplikasi volum tinggi.
- Paras Kecerdasan Minimum: Walaupun amat berkeupayaan untuk model flash, ia masih kurang tepat berbanding 2.5 Pro bagi tugasan agen paling mencabar seperti pengaturcaraan lanjutan atau penyelarasan berbilang agen.
- Pertukaran Kos: Walaupun menawarkan harga-prestasi terbaik, penggunaan meluas mod thinking meningkatkan penggunaan token keseluruhan, sekali gus menaikkan kos untuk arahan yang memerlukan penaakulan mendalam.