مایکروسافت در پژوهشی تازه اعلام کرد که روی مدلی کار میکند که میتواند تصویر و فایل صوتی را از شما بگیرد و با آن ویدیو بسازد. این مدل جدید VASA-1 نام دارد. ویدیوی خروجی میتواند حرکات لب، صورت و حتی چرخش و حرکت سر را پشتیبانی کند.
فناوری همگامسازی و حرکات لب در حال حاضر برای انویدیا و حتی RunAway موجود است، اما بهنظر میرسد این مدل بهتر عمل میکند. دقت و کیفیت این مدل میتواند انقلابی جدید برای ساخت چهرههیا انیمیشنی مجازی باشد. تمام مدلها و تصاویر بهکار رفته در این پژوهش توسط مدل DALL-E ساخته شدند. مایکروسافت میگوید اگر مدل ما میتواند تصاویر رئال هوش مصنوعی را متحرک کند پس از پس تصاویر واقعی هم برمیآید.
چنین مدلی میتواند شبیه به مدل سورا باشد و باید دید خروجی این مدل چه خواهد بود. درحال حاضر این مدل فقط برای کارمندان مایکروسافت در دسترس است و دیگران اجازه کار کردن با آن را ندارند.
VASA-1 در دمو بسیار چشمگیر عمل میکند. حرکات لب تقریبا طبیعی است و سر طوری حرکت میکند انگار مقابل دوربین قرار دارد. چنین فناوریای میتواند برای NPCها و سازندگان بازیها بسیار مفید باشد. آواتارهای مجازی که در سطح اینترنت میبینیم هم میتواند با مجهز شدن به این فناوری بسیار طبیعیتر و چشمنوازتر شوند.
در ویدیوهای تبلیغاتی و پژوهش انجام شده نتایج بسیار واقعی هستند. باید دید اگر این مدل در دسترس عموم قرار بگیرد همینطور دقیق و با کیفیت خواهد بود یا نه.