• سه‌شنبه / ۱۷ تیر ۱۴۰۴ / ۱۲:۲۶
  • دسته‌بندی: اصفهان
  • کد خبر: 1404041710196
  • خبرنگار : 51012

سامانه‌ای که پاسخ سؤالات کاربران را از دل صوت استخراج می‌کند

سامانه‌ای که پاسخ سؤالات کاربران را از دل صوت استخراج می‌کند

ایسنا/اصفهان یکی از مهم‌ترین مزیت‌های سامانه هوشمند این سامانه، توانایی درک سؤالات کاربران از دل فایل‌های صوتی و ارائه پاسخ دقیق به آن‌هاست؛ قابلیتی که در هیچ‌یک از ابزارهای فارسی‌زبان موجود به‌چشم نمی‌خورد.

در دنیای امروز که حجم تعاملات صوتی در جلسات، کلاس‌های آموزشی، مصاحبه‌ها و تماس‌های تلفنی رو به افزایش است، سامانه‌های تبدیل صوت به متن به یکی از ابزارهای مهم و کاربردی در تسهیل فرایند مستندسازی، جست‌وجو و تحلیل داده‌های صوتی تبدیل شده‌اند. این سامانه‌ها با بهره‌گیری از الگوریتم‌های پیشرفته پردازش زبان طبیعی (NLP) و یادگیری ماشین، قادرند گفتار انسان را با دقت بالا به متن قابل استفاده تبدیل کنند.

کاربرد این سامانه‌ها فقط به تبدیل ساده صوت به متن محدود نمی‌شود. آن‌ها در بسیاری از حوزه‌ها، از جمله آموزش، رسانه، کسب‌وکار، خدمات مشتری، حوزه سلامت و حتی در سیستم‌های قضایی نقش تسهیل‌گر دارند. برای مثال، دانشجویان می‌توانند با استفاده از این ابزارها، محتوای کلاس‌های آموزشی را بدون نیاز به جزوه‌نویسی دستی ثبت و مرور کنند یا خبرنگاران و پژوهشگران از آن برای پیاده‌سازی دقیق مصاحبه‌ها بهره ببرند.

با این حال، چالش‌هایی نیز در این مسیر وجود دارد. لهجه‌ها و گویش‌های متنوع، کیفیت پایین ضبط، وجود نویز محیطی و ضعف برخی سامانه‌ها در درک مفاهیم و جملات پیچیده، از جمله موانعی است که هنوز بسیاری از کاربران را از رسیدن به نتیجه مطلوب بازمی‌دارد. در چنین شرایطی، نیاز به سامانه‌هایی با دقت بالاتر، توانایی تشخیص لهجه، خلاصه‌سازی هوشمند و حتی پاسخ‌گویی به پرسش‌های کاربران از درون فایل صوتی، بیش از پیش احساس می‌شود.

اینجاست که سامانه‌هایی فراتر از «تبدیل ساده» وارد عمل می‌شوند؛ ابزارهایی که نه‌تنها متن تولید می‌کنند، بلکه معنا را نیز تحلیل می‌کنند. دانشجویان دانشگاه اصفهان یکی از این سامانه‌ها را به‌عنوان پروژه دانشجویی خود آماده کرده‌اند که در این گزارش به توضیح انگیزه و ایده این تیم برای ساخت این سامانه می‌پردازیم.

سامانه‌ای که پاسخ سؤالات کاربران را از دل صوت استخراج می‌کند

شیدا مفضلی، کارشناسی مهندسی کامپیوتر دانشگاه اصفهان به ایسنا می‌گوید: من خودم پارسال از دانشگاه اصفهان در رشته مهندسی کامپیوتر فارغ‌التحصیل شدم و در حال حاضر به نوعی در جایگاه کارشناس این رشته هستم. دو نفر دیگر از اعضای تیم، عرفان نعمان و محمدحسین حیدری، همچنان دانشجوی رشته مهندسی کامپیوتر در همان دانشگاه هستند و چند ترم تا پایان تحصیل‌شان باقی مانده است. نقش من بیشتر در حوزه فروش، ارتباط با مشتری و هماهنگی‌های کلی تیم است؛ به‌عبارت دیگر، بیشتر مسئولیت مدیریت و پیشبرد پروژه بر عهده من قرار دارد، در حالی که دو نفر دیگر عمدتاً در حوزه هوش مصنوعی تخصص دارند و بخش توسعه فنی محصول، به طور عمده بر دوش آن‌هاست.

وی می‌افزاید: در زمان دانشجویی، به‌ویژه در دوران کرونا که کلاس‌ها به‌صورت آنلاین برگزار می‌شد، با مشکلات زیادی مواجه بودیم. قطع‌ و وصل صدا، نبود امکان حضور دائم و نگرانی از دست رفتن محتوای درسی باعث می‌شد که یا استاد را مجبور به ضبط جلسات می‌کردیم یا خودمان به‌ناچار کلاس‌ها را ضبط می‌کردیم. این فایل‌های صوتی علاوه بر مصرف بالای حافظه، زمان‌بر هم بودند؛ چرا که برای دست‌یابی به یک نکته مشخص، مجبور بودیم کل فایل صوتی را گوش کنیم. حتی پس از حضوری شدن کلاس‌ها نیز این مشکل ادامه یافت. عادت به ضبط صوت سر کلاس پابرجا ماند، اما روند استخراج و بازنویسی محتوا از صوت همچنان دشوار بود و زمان زیادی از ما می‌گرفت. گاهی یک کلاس یک‌ونیم ساعته، نیازمند دو تا سه ساعت زمان اضافه برای گوش دادن مجدد و نوشتن جزوه بود.

کارشناس کامپیوتر دانشگاه دانشگاه اصفهان ادامه‌ می‌دهد: در آن دوران، از ابزارهای متعددی برای تبدیل صوت به متن استفاده می‌کردیم، اما دقت کافی نداشتند یا نیاز ما را به‌طور کامل برآورده نمی‌کردند. تا اینکه در آستانه فارغ‌التحصیلی، با یک شرکت مواجه شدم که پروژه‌هایی از این دست را مطرح کرده بود. با همکاری این دو نفر تصمیم گرفتیم ایده را توسعه دهیم و خودمان پیش ببریم. این دو نفر پیش‌تر پروژه‌ای مشابه را تجربه کرده بودند و همین مسئله مسیر همکاری ما را هموارتر کرد.

مفضلی می‌گوید: نقطه شروع جدی ما، مشاهده نیاز بازار و تجربه شخصی‌مان بود. پروژه‌ای که دیدیم در واقع صرفاً یک ابزار ساده تبدیل صوت به متن برای تیم منابع انسانی بود. وقتی وارد عمل شدیم، متوجه شدیم که مشکل ما صرفاً تبدیل صوت به متن نیست. بلکه نیاز اصلی ما این است که بتوانیم از صوت، بدون گوش‌دادن کامل، پاسخ سؤالات مشخصی را استخراج کنیم. ابزارهای موجود چنین قابلیتی نداشتند یا در نسخه‌های فارسی‌شان بسیار ضعیف عمل می‌کردند؛ از جمله به دلیل لهجه، کلمات نامفهوم یا محتوای ناقص. نتیجه اینکه زمان‌مان دو برابر می‌شد؛ هم باید فایل صوتی را گوش می‌دادیم، هم متن خروجی را اصلاح می‌کردیم، اما مهم‌ترین نیازی که احساس کردیم، چیزی بود که کمتر در ابزارهای دیگر دیده می‌شد؛ توانایی پرسیدن سؤال از فایل صوتی. مثلاً از یک فایل سی‌دقیقه‌ای یا یک‌ساعته، بتوانیم یک پرسش مشخص مطرح کنیم و ابزار، همان بخش از صوت را تحلیل کرده و پاسخ را ارائه دهد. این قابلیت دقیقاً همان چیزی است که ما بر آن تمرکز کردیم و تفاوت اصلی ابزار ما با ابزارهای رایج نیز در همین نقطه نهفته است.

وی اظهار می‌کند: به‌مرور زمان و طی فرایند توسعه، دیدیم این ابزار کاربردهای گسترده‌ای در حوزه‌های گوناگون دارد. برای مثال در تیم‌های منابع انسانی در سازمان‌هایی نظیر شهرداری‌ها یا حتی در کار روزمره خبرنگاران، این قابلیت می‌تواند تحولی جدی ایجاد کند.

کارشناس کامپیوتر دانشگاه اصفهان با بیان اینکه ما برای انتخاب نام سامانه، به دنبال واژه‌ای بودیم که در زبان فارسی خوش‌معنی و خوش‌آوا باشد و در عین حال در زبان انگلیسی نیز قابلیت برندینگ داشته باشد، می‌گوید: پس از بررسی فهرستی از حدود ۳۰ اسم، در نهایت نام «صوتا» انتخاب شد. در زبان فارسی، به واژه «صوت» اشاره دارد و در زبان انگلیسی نیز به‌صورت اختصاری (SOTA) به معنی State of the Art یعنی «لبه‌ دانش» است. این عبارت به خوبی با هدف ما از این سامانه، یعنی رسیدن به تحلیل دانش از طریق صوت، هماهنگ است.

مفضلی ادامه می‌دهد: ما نسخه‌ای بسیار ابتدایی (MVP) از سامانه را تولید کردیم تا هسته عملکرد و دقت آن را بسنجیم. در چند مرحله، آن را در اختیار افراد مختلف برای تست قرار دادیم و نتایج را بررسی کردیم. در حال حاضر توسعه پروژه موقتاً متوقف شده تا بتوانیم مشتری واقعی پیدا کنیم و مسیر توسعه را دقیقاً بر اساس نیازهای آن‌ها پیش ببریم. چرا که می‌خواهیم به جای تحمیل ایده، واقعاً بدانیم بازار به چه نیاز دارد. فعلاً حدس ما این است که این نیاز واقعی وجود دارد، اما برای اولویت‌بندی ویژگی‌ها، باید بر اساس بازخورد کاربران و سازمان‌ها تصمیم بگیریم.

وی اضافه می‌کند: در مرحله تست، سامانه توانست لهجه‌های مختلف مانند اصفهانی، تهرانی و حتی کردی را به‌خوبی پردازش کند. دقت عملکرد آن نیز در مقایسه با ابزارهای مشهور دیگر، در برخی موارد بسیار بالاتر بوده است. برای نمونه، فایل‌هایی کمتر از ۳۰ ثانیه را در ابزار ما و سایر ابزارهای رایج بررسی کردیم و دیدیم که در تشخیص کلمات، حتی در شرایطی مثل لهجه یا قطع و وصل صدا، سامانه ما بهتر عمل کرده است.

کارشناس کامپیوتر دانشگاه اصفهان بیان می‌کند: ما دو کاربرد اصلی برای ابزار متصور شدیم؛ یکی برای حوزه خبرگزاری‌ها و دیگری برای بخش‌های پشتیبانی و اپراتورهای سازمان‌ها. در حالت دوم، سامانه می‌تواند تماس‌های متعدد با مشتری را دسته‌بندی و تحلیل کند. به‌جای گوش‌دادن به تک‌تک تماس‌ها، کافی‌ست برچسب‌هایی مانند "قطعی اینترنت"، "ضعف سرعت"، یا "قیمت بسته" تعریف شود. ابزار به‌صورت خودکار تماس‌ها را پردازش کرده، متن را استخراج می‌کند و تماس‌ها را بر اساس موضوع دسته‌بندی می‌کند. سپس می‌توان با یک سؤال ساده، مثلاً «بیشترین شکایت امروز چه بوده؟» پاسخ را دریافت کرد. در حوزه خبر و رسانه نیز، با توجه به ضبط مصاحبه‌ها و تولید گزارش، این ابزار می‌تواند بسیار مفید باشد. متن را با دقت بالا استخراج می‌کند، خلاصه‌ای مفهومی ارائه می‌دهد و حتی امکان آن را فراهم می‌سازد که سؤالات از متن را مستقیماً از فایل صوتی استخراج کنیم.

مفضلی می‌گوید: ما نسبت به رقابت جهانی نیز واقع‌بین هستیم. در حوزه زبان انگلیسی یا زبان‌های جهانی دیگر، ابزارهای مطرح نظیر گوگل با سرعت بالایی در حال توسعه هستند و شاید رقابت با آن‌ها در سطح جهانی دشوار باشد، اما در بازار ایران و کشورهای اطراف، هنوز جای خالی این نوع ابزار با دقت و کاربرد محلی احساس می‌شود. به همین دلیل تمرکز ما بر زبان فارسی و گسترش منطقه‌ای آن باقی خواهد ماند.

وی می‌افزاید: از نظر مدل تجاری، فعلاً ایده اشتراک‌محور برای ما پررنگ‌تر است، چون امکان به‌روزرسانی مداوم را فراهم می‌کند، البته برای برخی سازمان‌ها، ارائه نسخه اختصاصی و شخصی‌سازی‌شده نیز در نظر گرفته‌ایم که بتوانند با اتصال از طریق API یا خرید نسخه خاص، نیازهای ویژه خود را برآورده کنند.

کارشناس مهندسی کامپیوتر دانشگاه اصفهان در پایان اضافه می‌کند: هدف ما این نیست که صرفاً یک ابزار تبدیل صوت به متن بسازیم. می‌خواهیم به سمت یک سامانه هوشمند و تحلیلی حرکت کنیم که بتواند دانشی واقعی از صوت‌ها استخراج کرده و به‌صورت یک دستیار تخصصی، در اختیار کاربر قرار گیرد. داشبورد مدیریتی، آرشیو صوتی و متنی، امکان جست‌وجوی دقیق و تحلیل آماری تماس‌ها یا گفتگوها از جمله قابلیت‌هایی‌ست که به‌تدریج به آن خواهیم افزود.

سامانه‌ای که پاسخ سؤالات کاربران را از دل صوت استخراج می‌کند

ساختار فنی و سازوکار حفظ حریم خصوصی در سامانه صوتا

عرفان نعمان، دانشجوی کارشناسی کامپیوتر دانشگاه اصفهان و متخصص در حوزه یادگیری عمیق و طراحی مدل‌های گفتار به متن این پروژه نیز به ایسنا می‌گوید: سامانه طراحی‌شده از دو بخش اصلی تشکیل شده است؛ بخش کاربر و بخش سرور. در بخش کاربر، همه چیز از طریق یک مرورگر انجام می‌شود؛ بدون نیاز به نصب هیچ نرم‌افزار یا افزونه‌ای. کاربر نهایی تنها به یک دستگاه (رایانه یا تلفن همراه) مجهز به میکروفون فعال نیاز دارد تا بتواند فایل صوتی مورد نظر خود را ضبط و ارسال کند. عملیات فشرده‌سازی فایل‌های صوتی حجیم نیز پیش از ارسال، در همان مرورگر انجام می‌شود، بنابراین استفاده از دستگاهی نسبتاً جدید، می‌تواند سرعت و کیفیت این فرایند را به‌طور محسوسی افزایش دهد.

وی می‌افزاید: در بخش سرور، چنانچه نیازی به انجام محلی پردازش‌ها نباشد، بار اصلی پردازش توسط زیرساخت‌های قدرتمند شرکت گوگل انجام می‌گیرد. به همین دلیل، سرور سامانه نیازمند منابع سخت‌افزاری سنگین نیست و می‌تواند به‌راحتی بر روی پلتفرم‌های میزبانی مدرن اجرا شود.

این دانشجوی کارشناسی کامپیوتر ادامه می‌دهد: تمرکز اصلی در طراحی این سامانه، حفظ کامل حریم خصوصی کاربران بوده است. نسخه‌ فعلی سامانه هیچ‌یک از اطلاعات مربوط به کاربران، شامل فایل‌های صوتی، متون تبدیل‌شده، خلاصه‌ها یا خروجی‌های پرسش‌وپاسخ را در هیچ پایگاه داده‌ای ذخیره نمی‌کند. پردازش فایل‌ها به‌صورت آنی انجام می‌شود؛ بدین صورت که فایل صوتی از طریق ارتباطی امن (HTTPS) به سرورهای گوگل ارسال می‌شود و پس از پردازش، نتیجه به مرورگر کاربر بازمی‌گردد. فایل اصلی نیز بلافاصله از حافظه سرور پاک می‌شود. تمامی اطلاعات تنها در طول یک نشست (session) در حافظه مرورگر باقی می‌مانند و پس از آن حذف خواهند شد.

نعمان می‌گوید: داده‌هایی که به مدل‌های هوش مصنوعی گوگل ارسال می‌شوند، تابع سیاست‌های حریم خصوصی این شرکت هستند و طبق مقررات فعلی، بدون اجازه کاربران برای آموزش مدل‌ها مورد استفاده قرار نمی‌گیرند.

وی ادامه می‌دهد: از منظر ظرفیت، این سامانه به دلیل بهره‌گیری از زیرساخت‌های مقیاس‌پذیر گوگل، هیچ محدودیت فنی برای پردازش حجم بالای فایل‌های صوتی ندارد. تنها محدودیت احتمالی، مربوط به سقف مصرف کلیدهای API گوگل و هزینه‌های مرتبط است که با توجه به مقیاس نیاز، می‌توان از کلیدهای متنوع بهره گرفت، بنابراین سامانه از هر نظر برای استفاده در ابعاد وسیع آماده است.

انتهای پیام

  • در زمینه انتشار نظرات مخاطبان رعایت چند مورد ضروری است:
  • -لطفا نظرات خود را با حروف فارسی تایپ کنید.
  • -«ایسنا» مجاز به ویرایش ادبی نظرات مخاطبان است.
  • - ایسنا از انتشار نظراتی که حاوی مطالب کذب، توهین یا بی‌احترامی به اشخاص، قومیت‌ها، عقاید دیگران، موارد مغایر با قوانین کشور و آموزه‌های دین مبین اسلام باشد معذور است.
  • - نظرات پس از تأیید مدیر بخش مربوطه منتشر می‌شود.

نظرات

شما در حال پاسخ به نظر «» هستید.
لطفا عدد مقابل را در جعبه متن وارد کنید
captcha