امروز با هیجان، نسخه جدید مدل تولید و ویرایش تصویر Gemini 2.5 Flash Image، که با نام nano-banana نیز شناخته میشود، را معرفی میکنیم. این مدل پیشرفته به شما اجازه میدهد چندین تصویر را در یک تصویر واحد ترکیب کنید، سازگاری شخصیتها را در داستانها حفظ کنید، تغییرات دقیق را تنها با دستورات زبان طبیعی اعمال کنید و از دانش جهانی Gemini برای خلق و ویرایش تصاویر بهره ببرید.
وقتی نسخه Gemini 2.0 Flash با قابلیت تولید تصویر بومی اوایل امسال معرفی شد، کاربران گفتند که از سرعت بالا، هزینه کم و سهولت استفاده آن رضایت دارند. اما بازخوردهایی هم ارائه شد که خواستار کیفیت بالاتر تصاویر و کنترل خلاقانه قدرتمندتر بودند و نسخه 2.5 پاسخ دقیقی به همین نیازهاست.
این مدل هم اکنون از طریق Gemini API، Google AI Studio برای توسعه دهندگان و Vertex AI برای سازمانها در دسترس است. قیمت استفاده از Gemini 2.5 Flash Image برابر ۳۰ دلار به ازای هر ۱ میلیون توکن خروجی است و هر تصویر شامل ۱۲۹۰ توکن خروجی میباشد (حدود ۰٫۰۳۹ دلار به ازای هر تصویر). سایر مدالیتهها (ورودی و خروجی) مطابق با قیمت گذاری Gemini 2.5 Flash محاسبه میشوند.

قابلیتهای کاربردی و پیشرفته Gemini 2.5 Flash Image
حفظ سازگاری شخصیتها
یکی از چالشهای اصلی در تولید تصویر، حفظ ظاهر یک شخصیت یا شیء در چندین پرامپت و ویرایش است. اکنون میتوانید یک شخصیت را در محیطهای مختلف قرار دهید، یک محصول را از زاویههای مختلف و در محیطهای جدید نمایش دهید یا داراییهای برند خود را با حفظ ویژگیهای اصلی تولید کنید.
برای نمایش این قابلیت، یک اپلیکیشن نمونه در Google AI Studio ساخته شد که میتوان آن را شخصی سازی کرد و روی آن توسعه داد. علاوه بر شخصیتها، مدل در رعایت قالبهای تصویری نیز عملکرد فوقالعادهای دارد. برای مثال کارتهای آگهی املاک، کارت شناسایی کارکنان یا نمونههای داینامیک محصولات یک کاتالوگ تنها از یک قالب طراحی قابل تولید هستند.
ویرایش تصاویر با پرامپت
Gemini 2.5 Flash Image امکان ویرایش هدفمند و دقیق تصاویر با استفاده از زبان طبیعی را فراهم میکند. برای مثال میتوانید پس زمینه یک تصویر را تار کنید، لکه روی لباس را پاک کنید، یک فرد را از عکس حذف کنید، حالت بدن یک سوژه را تغییر دهید، یا به عکس سیاه و سفید رنگ اضافه کنید که همه اینها تنها با یک دستور ساده قابل انجام است.
بهرهمندی از دانش جهانی
مدلهای تولید تصویر معمولاً در خلق تصاویر زیبا موفق هستند، اما درک عمیق و معنایی از جهان واقعی ندارند. با Gemini 2.5 Flash Image، مدل از دانش جهانی Gemini بهرهمند است که کاربردهای جدیدی را ممکن میکند. برای مثال، یک اپلیکیشن نمونه در Google AI Studio میتواند یک بوم ساده را به یک معلم آموزشی تعاملی تبدیل کند. همچنین نمودارهای دست ساز را بخواند و درک کند. سپس به سوالات دنیای واقعی پاسخ دهد و دستورالعملهای خاص ویرایشی را در یک مرحله دنبال کند.
ترکیب چند تصویر (Multi-image Fusion)
Gemini 2.5 Flash Image قادر است چندین تصویر ورودی را درک و با هم ترکیب کند. میتوانید یک شیء را در صحنهای قرار دهید، یک اتاق را با رنگ یا بافت جدید باز طراحی کنید یا تصاویر را تنها با یک پرامپت با هم ادغام کنید. برای نمایش این قابلیت، یک اپلیکیشن نمونه در Google AI Studio ساخته شد که اجازه میدهد محصولات را به صحنهای جدید بکشید و یک تصویر فوتورئالیستی جدید ایجاد کنید.
سخن آخر
با معرفی Gemini 2.5 Flash Image، دنیای تولید و ویرایش تصویر وارد مرحلهای کاملاً نوین شده است. این مدل نه تنها امکان ترکیب چندین تصویر و حفظ سازگاری شخصیتها را فراهم میکند، بلکه با بهرهگیری از دستورات زبان طبیعی و دانش جهانی Gemini، خلاقیت و دقت در خلق تصاویر را به سطحی بیسابقه میرساند. به کمک این ابزار، توسعه دهندگان و هنرمندان میتوانند ایدههای خود را به سرعت و به صورت واقعگرایانه به تصویر تبدیل کنند.