درحال حاضر مدلهای تولید ویدیو زیادی در بازار هوش مصنوعی وجود دارد. بسیاری از آنها مانند سورا وظیفه خود را به خوبی انجام میدهند. اما مشکل این مدلها این است که تمام ویدیوهای تولیدی آنها بیصدا است. گوگل دیپ مایند مدل V2A را رونمایی میکند.
مدل V2A میتواند همزمان برای کابران ویدیو و صوت هماهنگ با آن را تولید کند. در واقع مدل V2A میتواند پیکسلهای ویدیویی را با صوت هماهنگ و تنظیم کند. در نتیجه میتواند صدایی تولید کرد که با ویدیو هماهنگ باشد. این مدل با همکاری مدلهایی مثل Veo استفاده میکند تا جلوههای صوتی که ایجاد میکند با ویدیوی کاربر هماهنگ باشد.
این مدل میتواند برای طیف وسیعی از فیلمهای قدیمی و یا از بین رفته و مخدوش صوتی مناسب ایجاد کند. مدل V2A قادر است برای ویدیوها موسیقی متن نیز تولید کند. این ویژگی در دیگر مدلها به چشم نمیخورد یا آن میزان که گوگل ادعا میکند قوی و خوب نیستند.
یکی دیگر از ویژگیهایی که گوگل دیپ مایند از V2A رونمایی کرد این است که کاربر میتواند در طول مدت ساخت صوت با دکمههای اعلان مثبت و منفی به مدل بگوید کدام قسمت خوب یا بد است.
گوگل دیپ مایند در نهایت اعلام کرد که ابزار SynthID را نیز در این مدل گنجانده است. این ابزار صوت تولید شده را نشانه گذاری میکند تا مشخص باشد هوش مصنوعی در تولید آن نقش دارد. اینگونه از سواستفادهها جلوگیری میشود.