به گزارش ایسنا، «دمیس حسابیس»(Demis Hassabis) مدیرعامل شرکت «دیپمایند»(DeepMind) زیرمجموعه گوگل اخیرا گفت که این غول فناوری قصد دارد در نهایت مدلهای هوش مصنوعی «جمینای»(Gemini) را با مدل تولید ویدیو «وئو»(Veo) خود ترکیب کند تا درک آن را از دنیای فیزیکی بهبود ببخشد.
به نقل از تک کرانچ، حسابیس گفت: ما از ابتدا جمینای را به گونهای ساختیم که چندوجهی باشد. دلیل ما این بود که چشماندازی را برای ایده ساخت یک دستیار دیجیتال جهانی داریم؛ دستیاری که در دنیای واقعی به شما کمک میکند.
صنعت هوش مصنوعی به تدریج به سمت مدلهای «اومنی»(omni) حرکت میکند. به عبارت دیگر، به سوی مدلهایی میرود که میتوانند بسیاری از اشکال رسانه را درک و ترکیب کنند. جدیدترین مدلهای جمینای گوگل میتوانند علاوه بر تصویر و متن، صدا نیز تولید کنند؛ در حالی که مدل پیشفرض «چتجیپیتی»(ChatGPT) شرکت «اوپنایآی»(OpenAI) در حال حاضر میتواند تصاویر را ایجاد کند. شرکت «آمازون» نیز اعلام کرده است که قصد دارد مدل «any-to-any» را در اواخر سال جاری میلادی راهاندازی کند.
مدلهای اومنی به دادههای آموزشی زیادی مانند تصاویر، ویدیوها، صدا و متن نیاز دارند. حسابیس تلویحا گفت دادههای ویدیویی برای وئو عمدتا از پلتفرم یوتیوب که گوگل مالک آن است، تأمین میشوند. حسابیس گفت: اساسا «وئو ۲» با تماشای ویدیوهای یوتیوب - تعداد زیادی ویدیوی یوتیوب - میتواند فیزیک جهان را بفهمد.
گوگل پیش از این در مصاحبه با تک کرانچ گفته بود که مدلهایش ممکن است طبق توافق آن با سازندگان محتوای یوتیوب، با برخی از محتوای این پلتفرم آموزش ببینند. براساس گزارشها، این شرکت سال گذشته شرایط خدمات خود را گسترش داده است تا بتواند از دادههای بیشتری برای آموزش مدلهای هوش مصنوعی خود استفاده کند.
انتهای پیام
نظرات