به گزارش ایسنا، پیشتر تشخیص تصاویر ساخته دست بشر و تصاویر تولیدشده توسط هوش مصنوعی به اندازه کافی آسان بود. دو سال پیش، شما نمیتوانستید از مدلهای تصویری برای ایجاد منوی یک رستوران مکزیکی بدون اختراع غذاهای لذیذ جدیدی مانند «انچویتا»، «چوریروس»، «بورتو» و «مارگارتا» استفاده کنید.
به نقل از تک کرانچ، حالا وقتی از مدل کاملاً جدید «چتجیپیتی ایمیجز ۲.۰»(ChatGPT Images 2.0) بخواهید منوی غذای مکزیکی بسازد، چیزی ایجاد میکند که میتوان بلافاصله از آن در رستوران استفاده کرد؛ بدون این که مشتریان متوجه شوند چیزی اشتباه است.

«آماندا سیلبرلینگ»(Amanda Silberling) گزارشگر تک کرانچ نوشت: برای مقایسه، این نتیجهای است که من دو سال پیش از «دال ئی ۳»(DALL-E 3) گرفتم. در آن زمان، چتجیپیتی تصاویر را تولید نمیکرد.
مولدهای تصویر هوش مصنوعی همیشه در هجی کردن واژهها مشکل داشتهاند، زیرا عموماً از مدلهای انتشار استفاده میکردند که با بازسازی تصاویر از نویز کار میکنند.
«آسملاش تکا هادگو»(Asmelash Teka Hadgu)، بنیانگذار و مدیرعامل شرکت «Lesan AI» در سال ۲۰۲۴ به تک کرانچ، گفت: مدلها در حال بازسازی یک ورودی مشخص هستند. میتوانیم فرض کنیم نوشتههای روی یک تصویر، بخش بسیار کوچکی هستند. بنابراین مولد تصویر، الگوهایی را یاد میگیرد که بخش بیشتری از این پیکسلها را پوشش میدهند.
پژوهشگران از آن زمان تاکنون مکانیسمهای دیگری را برای تولید تصویر مانند «مدلهای خودهمبسته»(Autoregressive) بررسی کردهاند که پیشبینیهایی را درباره شکل ظاهری یک تصویر ارائه میدهند و بیشتر شبیه یک مدل زبانی بزرگ عمل میکنند.
شرکت «اوپنایآی»(OpenAI) در نشست مطبوعاتی این هفته از پاسخ دادن به پرسش درباره این که چه نوع مدلی در ایمیجز ۲.۰ به کار رفته است، خودداری کرد.
این شرکت توضیح داد که مدل جدید دارای قابلیتهای تفکر است که امکان جستوجو در وب، ایجاد چندین تصویر از یک دستور و بررسی مجدد ساختههای خود را به آن میدهند. این به ایمیجز ۲.۰ امکان میدهد تا دادههای بازاریابی را در اندازههای گوناگون و همچنین به صورت داستانهای مصور ایجاد کند.
همچنین، اوپنایآی میگوید که ایمیجز ۲.۰ درک قویتری را از متن غیر لاتین در زبانهایی مانند ژاپنی، کرهای، هندی و بنگالی دارد. دانش این مدل در دسامبر ۲۰۲۵ متوقف میشود که میتواند بر دقت آن در تولید برخی از پیامهای فوری مربوط به اخبار اخیر تأثیر بگذارد.
اوپنایآی در یک بیانیه مطبوعاتی اعلام کرد: ایمیجز ۲.۰ سطح بیسابقهای از دقت و وفاداری را به تولید تصویر میآورد. این نرمافزار نه تنها میتواند تصاویر پیچیدهتری را مفهومسازی کند، بلکه در واقع آن دیدگاه را به طور مؤثر به واقعیت تبدیل میکند و قادر است دستورالعملها را دنبال کند، جزئیات درخواستی را حفظ کند و عناصر جزیی مانند متن کوچک، شمایلنگاری، عناصر رابط کاربری، ترکیبات متراکم و محدودیتهای ظریف در سبک را که اغلب مدلهای مولد تصویر از دست میدهند با وضوح حداکثر 2K پردازش کند.
مجهز شدن به این قابلیتها به این معناست که تولید تصویر به سرعت تایپ کردن یک پرسش در چتجیپیتی نیست، اما تولید چیزی پیچیده مانند یک داستان مصور فقط چند دقیقه طول میکشد.
همه کاربران چتجیپیتی و «کدکس»(Codex) میتوانند به ایمیجز ۲.۰ دسترسی داشته باشند. کاربران نسخه پولی میتوانند خروجیهای پیشرفتهتری را تولید کنند. اوپنایآی API مربوط به ایمیجز ۲.۰ را نیز در دسترس قرار خواهد داد که قیمتگذاری آن به کیفیت و وضوح خروجیها بستگی دارد.
انتهای پیام
