به گزارش ایسنا، هوش مصنوعی «جمینای ۳.۱ پرو»(Gemini 3.1 Pro) گوگل در روز عرض ۱۰۴ ثانیه طول کشید تا به واژه «سلام» پاسخ دهد.
به نقل از تک کرانچ، جمینای ۳.۱ پرو جدیدترین مدل هوش مصنوعی گوگل است که در ۱۹ فوریه با بالاترین امتیاز معیار استدلال در صنعت عرضه شد، اما عملکرد این مدل در روز عرضه، آن را برای توسعهدهندگانی که بیشترین نیاز را دارند، غیرقابل استفاده کرد.
امتیاز ۷۷.۱ درصدی در معیار سنجش «ARC-AGI-2» واقعی است. براساس اعلام رسمی گوگل، عملکرد این مدل جدید بیش از دو برابر عملکرد «جمینای ۳ پرو» است که جهشی واقعی در توانایی استدلال به شمار میرود، اما توسعهدهندگان متوجه گردشهای کاری مختلشده، وقفههای چندساعته و ناتوانی مدل در اجرای دستورات اولیه بدون تأخیرهای چنددقیقهای شدند. مقامات گوگل برای تسلط بر جدول امتیازات تلاش کردهاند مدل را بهینهسازی کنند. آنها مدلی را ارائه دادند که محیطهای تولید واقعی را مختل میکند.
این موضوع اهمیت دارد، زیرا بازیهای امتیاز در معیار سنجش به یک ورزش صنعتی تبدیل شدهاند و امتیازهای جمینای ۳.۱ پرو نشان میداد گوگل سرانجام چیزی ساخته است که میتواند در وظایف استدلالی با هوش مصنوعی شرکتهای «آنتروپیک»(Anthropic) و «اوپنایآی»(OpenAI) رقابت کند. در عوض، کاربران اولیه یک نسخه پیشنمایش دریافت کردند که در تولید کد زمانبندی ندارد و تقریباً دو دقیقه طول میکشد تا به سلام پاسخ دهد.
مشخصات فنی جمینای ۳.۱ پرو چشمگیر هستند و یک پنجره ورودی با ظرفیت یک میلیون توکن، ظرفیت خروجی ۶۴ هزار توکن و امتیاز ۷۷.۱ درصدی ARC-AGI-2 را نشان میدهند که آن را از هر مدل تولیدی دیگری جلوتر قرار میدهد. پست وبلاگ گوگل بر حل مسائل پیچیده و عملکرد عامل هوش مصنوعی تأکید داشت. چیزی که مقامات گوگل به آن اشاره نکردند، این است که استدلال گسترده این مدل به زمان انتظار طولانی نیاز دارد و همین امر آن را برای توسعه تعاملی غیر قابل استفاده میکند.
«سیمون ویلیسون»(Simon Willison)، برنامهنویس اهل انگلستان از دریافت پاسخ سلام ۱۰۴ ثانیهای ظرف چند ساعت پس از راهاندازی خبر داد. انجمنها پر از شکایتهایی درباره عملکرد فوقالعاده کند و پیام خطاهای مهلت منقضیشده بود. یکی از کاربران در انجمن هوش مصنوعی گوگل نوشت: گروه گوگل! لطفاً این بهروزرسانی را به حالت قبل بازگردانید. این (بهروزرسانی) کاملاً خراب است. پروژه ساخت را اجرا کنید. این (مشکل) هرگز تمام نخواهد شد و برای اعتماد کاربران اولیه خوب نیست.
این اعتماد مهم است. کاربران اولیه انتظار یک ارتقای بینقص را داشتند؛ یک جمینای ۳ پرو هوشمندتر که بتواند وظایف پیچیدهتری را انجام دهد. آنها محصولی اساساً متفاوت دریافت کردند که در هر گردش کار به بازنگری نیاز دارد.
براساس تحلیل مصنوعی، با قیمت دو دلار به ازای هر یک میلیون توکن ورودی و ۱۲ دلار به ازای هر یک میلیون توکن خروجی، هزینه جمینای ۳.۱ پرو تقریباً نصف هزینه جدیدترین مدل پرچمدار شرکت آنتروپیک است. این مزیت قیمتگذاری با انفجار زمان از بین میرود.
شکایتهای مطرحشده، هزینه واقعی را آشکار میکنند. توسعهدهندگان از پاسخهای کند عصبانی نیستند، بلکه از اعتماد ازدسترفته عصبانی هستند. آنها با انتظار عملکرد بهتر، مدل را ارتقاء دادند و مدلی دریافت کردند که نمیتواند کارهای اساسی را انجام دهد. این یک مشکل عملکردی نیست، بلکه یک عدم تطابق محصول است.
انتهای پیام


نظرات