Gemini 2.5 Flash Image؛ مدل هوش مصنوعی که تصاویر را زنده می‌کند!

فهرست مطالب

Gemini 2.5 Flash Image؛ مدل هوش مصنوعی که تصاویر را زنده می‌کند!

امروز با هیجان، نسخه جدید مدل تولید و ویرایش تصویر Gemini 2.5 Flash Image، که با نام nano-banana نیز شناخته می‌شود، را معرفی می‌کنیم. این مدل پیشرفته به شما اجازه می‌دهد چندین تصویر را در یک تصویر واحد ترکیب کنید، سازگاری شخصیت‌ها را در داستان‌ها حفظ کنید، تغییرات دقیق را تنها با دستورات زبان طبیعی اعمال کنید و از دانش جهانی Gemini برای خلق و ویرایش تصاویر بهره ببرید.

وقتی نسخه Gemini 2.0 Flash با قابلیت تولید تصویر بومی اوایل امسال معرفی شد، کاربران گفتند که از سرعت بالا، هزینه کم و سهولت استفاده آن رضایت دارند. اما بازخوردهایی هم ارائه شد که خواستار کیفیت بالاتر تصاویر و کنترل خلاقانه قدرتمندتر بودند و نسخه 2.5 پاسخ دقیقی به همین نیازهاست.

این مدل هم‌ اکنون از طریق Gemini API، Google AI Studio برای توسعه‌ دهندگان و Vertex AI برای سازمان‌ها در دسترس است. قیمت استفاده از Gemini 2.5 Flash Image برابر ۳۰ دلار به ازای هر ۱ میلیون توکن خروجی است و هر تصویر شامل ۱۲۹۰ توکن خروجی می‌باشد (حدود ۰٫۰۳۹ دلار به ازای هر تصویر). سایر مدالیته‌ها (ورودی و خروجی) مطابق با قیمت‌ گذاری Gemini 2.5 Flash محاسبه می‌شوند.

قابلیت‌های Gemini 2.5 Flash Image

قابلیت‌های کاربردی و پیشرفته Gemini 2.5 Flash Image

حفظ سازگاری شخصیت‌ها

یکی از چالش‌های اصلی در تولید تصویر، حفظ ظاهر یک شخصیت یا شیء در چندین پرامپت و ویرایش است. اکنون می‌توانید یک شخصیت را در محیط‌های مختلف قرار دهید، یک محصول را از زاویه‌های مختلف و در محیط‌های جدید نمایش دهید یا دارایی‌های برند خود را با حفظ ویژگی‌های اصلی تولید کنید.

برای نمایش این قابلیت، یک اپلیکیشن نمونه در Google AI Studio ساخته شد که می‌توان آن را شخصی سازی کرد و روی آن توسعه داد. علاوه بر شخصیت‌ها، مدل در رعایت قالب‌های تصویری نیز عملکرد فوق‌العاده‌ای دارد. برای مثال کارت‌های آگهی املاک، کارت شناسایی کارکنان یا نمونه‌های داینامیک محصولات یک کاتالوگ تنها از یک قالب طراحی قابل تولید هستند.

ویرایش تصاویر با پرامپت

Gemini 2.5 Flash Image امکان ویرایش هدفمند و دقیق تصاویر با استفاده از زبان طبیعی را فراهم می‌کند. برای مثال می‌توانید پس زمینه یک تصویر را تار کنید، لکه روی لباس را پاک کنید، یک فرد را از عکس حذف کنید، حالت بدن یک سوژه را تغییر دهید، یا به عکس سیاه و سفید رنگ اضافه کنید که همه این‌ها تنها با یک دستور ساده قابل انجام است.

بهره‌مندی از دانش جهانی

مدل‌های تولید تصویر معمولاً در خلق تصاویر زیبا موفق هستند، اما درک عمیق و معنایی از جهان واقعی ندارند. با Gemini 2.5 Flash Image، مدل از دانش جهانی Gemini بهره‌مند است که کاربردهای جدیدی را ممکن می‌کند. برای مثال، یک اپلیکیشن نمونه در Google AI Studio می‌تواند یک بوم ساده را به یک معلم آموزشی تعاملی تبدیل کند. همچنین نمودارهای دست‌ ساز را بخواند و درک کند. سپس به سوالات دنیای واقعی پاسخ دهد و دستورالعمل‌های خاص ویرایشی را در یک مرحله دنبال کند.

ترکیب چند تصویر (Multi-image Fusion)

Gemini 2.5 Flash Image قادر است چندین تصویر ورودی را درک و با هم ترکیب کند. می‌توانید یک شیء را در صحنه‌ای قرار دهید، یک اتاق را با رنگ یا بافت جدید باز طراحی کنید یا تصاویر را تنها با یک پرامپت با هم ادغام کنید. برای نمایش این قابلیت، یک اپلیکیشن نمونه در Google AI Studio ساخته شد که اجازه می‌دهد محصولات را به صحنه‌ای جدید بکشید و یک تصویر فوتورئالیستی جدید ایجاد کنید.

سخن آخر

با معرفی Gemini 2.5 Flash Image، دنیای تولید و ویرایش تصویر وارد مرحله‌ای کاملاً نوین شده است. این مدل نه‌ تنها امکان ترکیب چندین تصویر و حفظ سازگاری شخصیت‌ها را فراهم می‌کند، بلکه با بهره‌گیری از دستورات زبان طبیعی و دانش جهانی Gemini، خلاقیت و دقت در خلق تصاویر را به سطحی بی‌سابقه می‌رساند. به کمک این ابزار، توسعه‌ دهندگان و هنرمندان می‌توانند ایده‌های خود را به سرعت و به‌ صورت واقع‌گرایانه به تصویر تبدیل کنند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *