چهارشنبه / ۳۱ اردیبهشت ۱۴۰۴ / ۰۹:۵۵
دسته‌بندی: هوش مصنوعی
کد مطلب: 1404023122378
چاپ

رویداد I/O 2025

رونمایی از هوش مصنوعی ویدئوساز گوگل

مدل هوش مصنوعی «Veo 3» گوگل می‌تواند ویدئوهایی با صدا تولید کند.

به گزارش ایسنا، شرکت گوگل به عنوان بخشی از اعلامیه‌های امسال خود در کنفرانس توسعه دهندگان I/O، جدیدترین مدل‌های رسانه‌ای خود را معرفی کرده است که قابل توجه‌ترین آنها شاید «Veo 3» باشد که اولین نسخه از این مدل است که می‌تواند ویدئوهایی با صدا تولید کند.

برای مثال، می‌تواند ویدئویی از پرندگان با صدای آوازشان یا یک خیابان شهری با صدای ترافیک در پس‌زمینه ایجاد کند.

گوگل می‌گوید «Veo 3» همچنین در تجسم فیزیک دنیای واقعی و در همگام سازی لب‌ها عملکرد خوبی دارد.

در حال حاضر، این مدل فقط برای مشترکین Gemini Ultra در ایالات متحده در برنامه جمینای(Gemini) و برای کاربران سازمانی در «Vertex AI» در دسترس است. همچنین در «Flow» (ابزار جدید ساخت فیلم هوش مصنوعی گوگل) نیز در دسترس است.

ابزار «Flow»، مدل Veo، Imagen و Gemini را برای ساختن کلیپ‌ها و صحنه‌های سینمایی گرد هم می‌آورد. کاربران می‌توانند خروجی نهایی را که می‌خواهند به زبان طبیعی توصیف کنند و «Flow» دست به کار خواهد شد تا آن را برای آنها بسازد.

این ابزار جدید در حال حاضر فقط برای مشترکین گوگل AI Pro و Ultra در ایالات متحده در دسترس خواهد بود، اما گوگل می‌گوید که به زودی در کشورهای بیشتری عرضه خواهد شد.

در حالی که این شرکت یک مدل کاملاً جدید تولید کننده ویدئو را منتشر کرده است، اما هنوز «Veo 2» را رها نکرده است. کاربران می‌توانند تصاویری از افراد، صحنه‌ها، سبک‌ها و اشیاء به «Veo 2» بدهند تا به عنوان مرجع برای خروجی مورد نظر خود در «Flow» استفاده کنند. آنها به کنترل‌های دوربین دسترسی خواهند داشت که به آنها اجازه می‌دهد صحنه‌ها را بچرخانند و روی اشیاء خاص برای «Flow» بزرگنمایی کنند.

به‌علاوه، اگر بخواهند می‌توانند فریم‌های خود را از عمودی به افقی تغییر دهند و اشیاء را از ویدئوهای خود اضافه یا حذف کنند.

گوگل همچنین آخرین مدل تولید کننده تصویر خود موسمو به «Imagen 4» را در این مراسم معرفی کرد. این شرکت گفت «Imagen 4» جزئیات ظریفی مانند پیچ و تاب پارچه‌ها و خز حیوانات را با شفافیت قابل توجه نشان می‌دهد و در تولید تصاویر فوتورئالیستی و انتزاعی برتری دارد.

همچنین می‌تواند تصاویری در نسبت‌های مختلف با وضوح تا 2K ایجاد کند.

مدل «Imagen 4» اکنون از طریق برنامه Gemini، Vertex AI و در برنامه‌های Workspace از جمله Docs و Slides در دسترس است.

گوگل همچنین اعلام کرد که به زودی نسخه‌ای از «Imagen 4» را که 10 برابر سریعتر از «Imagen 3» است، منتشر خواهد کرد.

در نهایت، گوگل برای کمک به مردم برای شناسایی محتوای تولید شده توسط هوش مصنوعی که این روزها سخت‌تر از هر زمانی شده است، ابزار «SynthID Detector» را راه‌اندازی کرده است که پورتالی است که در آن کاربران می‌توانند قطعه‌ای از یک محتوای رسانه‌ای را که فکر می‌کنند با هوش مصنوعی تولید شده است، آپلود کنند و گوگل تعیین می‌کند که آیا کار هوش مصنوعی است یا خیر.

انتهای پیام