به گزارش ایسنا، «جمینای»(Gemini)، «چتجیپیتی»(ChatGPT) و دیگر چتباتهای هوش مصنوعی اغلب در خواندن انگلیسی و بسیاری از زبانهای دیگر بسیار خوب هستند اما با این که میتوانند زبان هندی را تفسیر کنند، هنگام رویایی با متون پیچیدهتر یا تفاوتهای منطقهای در میان زبانهای هندی، به مشکل دچار میشوند.
به نقل از تک رادار، یک استارتآپ مستقر در بنگلور به نام «سروم ایآی»(Sarvam AI) در حال ارائه مدلهایی است که به گفته خودش میتوانند در زمینه تشخیص نوری کاراکتر و گفتار چندزبانه به ویژه درباره زبانهای شبهقاره، از رقبای جهانی خود پیشی بگیرند.
مدلهای «سروم ویژن»(Sarvam Vision) و «بلبل وی۳»(Bulbul V3) با در نظر گرفتن پیچیدگیهای زبانی هند ساخته شدهاند. سروم ویژن میتواند جدولهای پیچیده را تفسیر کند، نمودارها را درک کند، متن را در دنیای واقعی تشخیص دهد و زیرنویس تولید کند. بلبل وی۳، سیستم تبدیل متن به گفتار را مدیریت میکند. این مدلها از هر ۲۲ زبان رسمی هند پشتیبانی میکنند.
بلبل وی۳ میتواند با ۳۵ صدا همیشه مانند یک فرد محلی صحبت کند. همان طور که بسیاری از کاربران چندزبانه میدانند، ناخوشایندی شنیدن تلفظ زبانشان میتواند باعث شود کسی تمایلی به امتحان کردن این فناوری نداشته باشد. یک مدل آموزشدیده تبدیل متن به گفتار که ریتم و لحن را دقیقتر ثبت میکند، میتواند باعث شود که افراد در استفاده از آن احساس راحتی بیشتری داشته باشند.
اگرچه تشخیص نوری کاراکتر ممکن است جذاب به نظر نرسد اما بیسروصدا همه چیز را از اسکن کردن یک سند با تلفن همراه، آپلود یک PDF یا دیجیتالی کردن یک فایل قدیمی تحت تأثیر قرار میدهد. حروف درهم، نامهای اشتباه خواندهشده و متن ازدسترفته میتواند یک مشکل واقعی باشد.
سروم میگوید که این فناوری به صاحبان مشاغل کوچک و دفاتر دولتی کمک میکند تا سوابق را سریعتر و دقیقتر از هر روش دیگری به بایگانیهای قابل جستوجو تبدیل کنند.
انتهای پیام


نظرات