۱۴۰۵-۰۲-۰۲ | ۱۷:۵۵

توانایی شگفت‌آور مدل مولد تصویر «چت‌جی‌پی‌تی» در تولید متن

بررسی‌ها نشان می‌دهند که مدل جدید مولد تصویر «چت‌جی‌پی‌تی» به طور شگفت‌آوری در تولید متن خوب عمل می‌کند.

به گزارش ایسنا، پیشتر تشخیص تصاویر ساخته دست بشر و تصاویر تولیدشده توسط هوش مصنوعی به اندازه کافی آسان بود. دو سال پیش، شما نمی‌توانستید از مدل‌های تصویری برای ایجاد منوی یک رستوران مکزیکی بدون اختراع غذاهای لذیذ جدیدی مانند «انچویتا»، «چوریروس»، «بورتو» و «مارگارتا» استفاده کنید.

به نقل از تک کرانچ، حالا وقتی از مدل کاملاً جدید «چت‌جی‌پی‌تی ایمیجز ۲.۰»(ChatGPT Images 2.0) بخواهید منوی غذای مکزیکی بسازد، چیزی ایجاد می‌کند که می‌توان بلافاصله از آن در رستوران استفاده کرد؛ بدون این که مشتریان متوجه شوند چیزی اشتباه است.

«آماندا سیلبرلینگ»(Amanda Silberling) گزارشگر تک کرانچ نوشت: برای مقایسه، این نتیجه‌ای است که من دو سال پیش از «دال ئی ۳»(DALL-E 3) گرفتم. در آن زمان، چت‌جی‌پی‌تی تصاویر را تولید نمی‌کرد.

مولدهای تصویر هوش مصنوعی همیشه در هجی کردن واژه‌ها مشکل داشته‌اند، زیرا عموماً از مدل‌های انتشار استفاده می‌کردند که با بازسازی تصاویر از نویز کار می‌کنند.

«آسملاش تکا هادگو»(Asmelash Teka Hadgu)، بنیان‌گذار و مدیرعامل شرکت «Lesan AI» در سال ۲۰۲۴ به تک کرانچ، گفت: مدل‌ها در حال بازسازی یک ورودی مشخص هستند. می‌توانیم فرض کنیم نوشته‌های روی یک تصویر، بخش بسیار کوچکی هستند. بنابراین مولد تصویر، الگوهایی را یاد می‌گیرد که بخش بیشتری از این پیکسل‌ها را پوشش می‌دهند.

پژوهشگران از آن زمان تاکنون مکانیسم‌های دیگری را برای تولید تصویر مانند «مدل‌های خودهمبسته»(Autoregressive) بررسی کرده‌اند که پیش‌بینی‌هایی را درباره شکل ظاهری یک تصویر ارائه می‌دهند و بیشتر شبیه یک مدل زبانی بزرگ عمل می‌کنند.

شرکت «اوپن‌ای‌آی»(OpenAI) در نشست مطبوعاتی این هفته از پاسخ دادن به پرسش درباره این که چه نوع مدلی در ایمیجز ۲.۰ به کار رفته است، خودداری کرد.

این شرکت توضیح داد که مدل جدید دارای قابلیت‌های تفکر است که امکان جست‌وجو در وب، ایجاد چندین تصویر از یک دستور و بررسی مجدد ساخته‌های خود را به آن می‌دهند. این به ایمیجز ۲.۰ امکان می‌دهد تا داده‌های بازاریابی را در اندازه‌های گوناگون و همچنین به صورت داستان‌های مصور ایجاد کند.

همچنین، اوپن‌ای‌آی می‌گوید که ایمیجز ۲.۰ درک قوی‌تری را از متن غیر لاتین در زبان‌هایی مانند ژاپنی، کره‌ای، هندی و بنگالی دارد. دانش این مدل در دسامبر ۲۰۲۵ متوقف می‌شود که می‌تواند بر دقت آن در تولید برخی از پیام‌های فوری مربوط به اخبار اخیر تأثیر بگذارد.

اوپن‌ای‌آی در یک بیانیه مطبوعاتی اعلام کرد: ایمیجز ۲.۰ سطح بی‌سابقه‌ای از دقت و وفاداری را به تولید تصویر می‌آورد. این نرم‌افزار نه تنها می‌تواند تصاویر پیچیده‌تری را مفهوم‌سازی کند، بلکه در واقع آن دیدگاه را به طور مؤثر به واقعیت تبدیل می‌کند و قادر است دستورالعمل‌ها را دنبال کند، جزئیات درخواستی را حفظ کند و عناصر جزیی مانند متن کوچک، شمایل‌نگاری، عناصر رابط کاربری، ترکیبات متراکم و محدودیت‌های ظریف در سبک را که اغلب مدل‌های مولد تصویر از دست می‌دهند با وضوح حداکثر 2K پردازش کند.

مجهز شدن به این قابلیت‌ها به این معناست که تولید تصویر به سرعت تایپ کردن یک پرسش در چت‌جی‌پی‌تی نیست، اما تولید چیزی پیچیده مانند یک داستان‌ مصور فقط چند دقیقه طول می‌کشد.

همه کاربران چت‌جی‌پی‌تی و «کدکس»(Codex) می‌توانند به ایمیجز ۲.۰ دسترسی داشته باشند. کاربران نسخه پولی می‌توانند خروجی‌های پیشرفته‌تری را تولید کنند. اوپن‌ای‌آی API مربوط به ایمیجز ۲.۰ را نیز در دسترس قرار خواهد داد که قیمت‌گذاری آن به کیفیت و وضوح خروجی‌ها بستگی دارد.

انتهای پیام

شناسهٔ خبر: 1405020201226