در دنیای امروز که حجم تعاملات صوتی در جلسات، کلاسهای آموزشی، مصاحبهها و تماسهای تلفنی رو به افزایش است، سامانههای تبدیل صوت به متن به یکی از ابزارهای مهم و کاربردی در تسهیل فرایند مستندسازی، جستوجو و تحلیل دادههای صوتی تبدیل شدهاند. این سامانهها با بهرهگیری از الگوریتمهای پیشرفته پردازش زبان طبیعی (NLP) و یادگیری ماشین، قادرند گفتار انسان را با دقت بالا به متن قابل استفاده تبدیل کنند.
کاربرد این سامانهها فقط به تبدیل ساده صوت به متن محدود نمیشود. آنها در بسیاری از حوزهها، از جمله آموزش، رسانه، کسبوکار، خدمات مشتری، حوزه سلامت و حتی در سیستمهای قضایی نقش تسهیلگر دارند. برای مثال، دانشجویان میتوانند با استفاده از این ابزارها، محتوای کلاسهای آموزشی را بدون نیاز به جزوهنویسی دستی ثبت و مرور کنند یا خبرنگاران و پژوهشگران از آن برای پیادهسازی دقیق مصاحبهها بهره ببرند.
با این حال، چالشهایی نیز در این مسیر وجود دارد. لهجهها و گویشهای متنوع، کیفیت پایین ضبط، وجود نویز محیطی و ضعف برخی سامانهها در درک مفاهیم و جملات پیچیده، از جمله موانعی است که هنوز بسیاری از کاربران را از رسیدن به نتیجه مطلوب بازمیدارد. در چنین شرایطی، نیاز به سامانههایی با دقت بالاتر، توانایی تشخیص لهجه، خلاصهسازی هوشمند و حتی پاسخگویی به پرسشهای کاربران از درون فایل صوتی، بیش از پیش احساس میشود.
اینجاست که سامانههایی فراتر از «تبدیل ساده» وارد عمل میشوند؛ ابزارهایی که نهتنها متن تولید میکنند، بلکه معنا را نیز تحلیل میکنند. دانشجویان دانشگاه اصفهان یکی از این سامانهها را بهعنوان پروژه دانشجویی خود آماده کردهاند که در این گزارش به توضیح انگیزه و ایده این تیم برای ساخت این سامانه میپردازیم.
شیدا مفضلی، کارشناسی مهندسی کامپیوتر دانشگاه اصفهان به ایسنا میگوید: من خودم پارسال از دانشگاه اصفهان در رشته مهندسی کامپیوتر فارغالتحصیل شدم و در حال حاضر به نوعی در جایگاه کارشناس این رشته هستم. دو نفر دیگر از اعضای تیم، عرفان نعمان و محمدحسین حیدری، همچنان دانشجوی رشته مهندسی کامپیوتر در همان دانشگاه هستند و چند ترم تا پایان تحصیلشان باقی مانده است. نقش من بیشتر در حوزه فروش، ارتباط با مشتری و هماهنگیهای کلی تیم است؛ بهعبارت دیگر، بیشتر مسئولیت مدیریت و پیشبرد پروژه بر عهده من قرار دارد، در حالی که دو نفر دیگر عمدتاً در حوزه هوش مصنوعی تخصص دارند و بخش توسعه فنی محصول، به طور عمده بر دوش آنهاست.
وی میافزاید: در زمان دانشجویی، بهویژه در دوران کرونا که کلاسها بهصورت آنلاین برگزار میشد، با مشکلات زیادی مواجه بودیم. قطع و وصل صدا، نبود امکان حضور دائم و نگرانی از دست رفتن محتوای درسی باعث میشد که یا استاد را مجبور به ضبط جلسات میکردیم یا خودمان بهناچار کلاسها را ضبط میکردیم. این فایلهای صوتی علاوه بر مصرف بالای حافظه، زمانبر هم بودند؛ چرا که برای دستیابی به یک نکته مشخص، مجبور بودیم کل فایل صوتی را گوش کنیم. حتی پس از حضوری شدن کلاسها نیز این مشکل ادامه یافت. عادت به ضبط صوت سر کلاس پابرجا ماند، اما روند استخراج و بازنویسی محتوا از صوت همچنان دشوار بود و زمان زیادی از ما میگرفت. گاهی یک کلاس یکونیم ساعته، نیازمند دو تا سه ساعت زمان اضافه برای گوش دادن مجدد و نوشتن جزوه بود.
کارشناس کامپیوتر دانشگاه دانشگاه اصفهان ادامه میدهد: در آن دوران، از ابزارهای متعددی برای تبدیل صوت به متن استفاده میکردیم، اما دقت کافی نداشتند یا نیاز ما را بهطور کامل برآورده نمیکردند. تا اینکه در آستانه فارغالتحصیلی، با یک شرکت مواجه شدم که پروژههایی از این دست را مطرح کرده بود. با همکاری این دو نفر تصمیم گرفتیم ایده را توسعه دهیم و خودمان پیش ببریم. این دو نفر پیشتر پروژهای مشابه را تجربه کرده بودند و همین مسئله مسیر همکاری ما را هموارتر کرد.
مفضلی میگوید: نقطه شروع جدی ما، مشاهده نیاز بازار و تجربه شخصیمان بود. پروژهای که دیدیم در واقع صرفاً یک ابزار ساده تبدیل صوت به متن برای تیم منابع انسانی بود. وقتی وارد عمل شدیم، متوجه شدیم که مشکل ما صرفاً تبدیل صوت به متن نیست. بلکه نیاز اصلی ما این است که بتوانیم از صوت، بدون گوشدادن کامل، پاسخ سؤالات مشخصی را استخراج کنیم. ابزارهای موجود چنین قابلیتی نداشتند یا در نسخههای فارسیشان بسیار ضعیف عمل میکردند؛ از جمله به دلیل لهجه، کلمات نامفهوم یا محتوای ناقص. نتیجه اینکه زمانمان دو برابر میشد؛ هم باید فایل صوتی را گوش میدادیم، هم متن خروجی را اصلاح میکردیم، اما مهمترین نیازی که احساس کردیم، چیزی بود که کمتر در ابزارهای دیگر دیده میشد؛ توانایی پرسیدن سؤال از فایل صوتی. مثلاً از یک فایل سیدقیقهای یا یکساعته، بتوانیم یک پرسش مشخص مطرح کنیم و ابزار، همان بخش از صوت را تحلیل کرده و پاسخ را ارائه دهد. این قابلیت دقیقاً همان چیزی است که ما بر آن تمرکز کردیم و تفاوت اصلی ابزار ما با ابزارهای رایج نیز در همین نقطه نهفته است.
وی اظهار میکند: بهمرور زمان و طی فرایند توسعه، دیدیم این ابزار کاربردهای گستردهای در حوزههای گوناگون دارد. برای مثال در تیمهای منابع انسانی در سازمانهایی نظیر شهرداریها یا حتی در کار روزمره خبرنگاران، این قابلیت میتواند تحولی جدی ایجاد کند.
کارشناس کامپیوتر دانشگاه اصفهان با بیان اینکه ما برای انتخاب نام سامانه، به دنبال واژهای بودیم که در زبان فارسی خوشمعنی و خوشآوا باشد و در عین حال در زبان انگلیسی نیز قابلیت برندینگ داشته باشد، میگوید: پس از بررسی فهرستی از حدود ۳۰ اسم، در نهایت نام «صوتا» انتخاب شد. در زبان فارسی، به واژه «صوت» اشاره دارد و در زبان انگلیسی نیز بهصورت اختصاری (SOTA) به معنی State of the Art یعنی «لبه دانش» است. این عبارت به خوبی با هدف ما از این سامانه، یعنی رسیدن به تحلیل دانش از طریق صوت، هماهنگ است.
مفضلی ادامه میدهد: ما نسخهای بسیار ابتدایی (MVP) از سامانه را تولید کردیم تا هسته عملکرد و دقت آن را بسنجیم. در چند مرحله، آن را در اختیار افراد مختلف برای تست قرار دادیم و نتایج را بررسی کردیم. در حال حاضر توسعه پروژه موقتاً متوقف شده تا بتوانیم مشتری واقعی پیدا کنیم و مسیر توسعه را دقیقاً بر اساس نیازهای آنها پیش ببریم. چرا که میخواهیم به جای تحمیل ایده، واقعاً بدانیم بازار به چه نیاز دارد. فعلاً حدس ما این است که این نیاز واقعی وجود دارد، اما برای اولویتبندی ویژگیها، باید بر اساس بازخورد کاربران و سازمانها تصمیم بگیریم.
وی اضافه میکند: در مرحله تست، سامانه توانست لهجههای مختلف مانند اصفهانی، تهرانی و حتی کردی را بهخوبی پردازش کند. دقت عملکرد آن نیز در مقایسه با ابزارهای مشهور دیگر، در برخی موارد بسیار بالاتر بوده است. برای نمونه، فایلهایی کمتر از ۳۰ ثانیه را در ابزار ما و سایر ابزارهای رایج بررسی کردیم و دیدیم که در تشخیص کلمات، حتی در شرایطی مثل لهجه یا قطع و وصل صدا، سامانه ما بهتر عمل کرده است.
کارشناس کامپیوتر دانشگاه اصفهان بیان میکند: ما دو کاربرد اصلی برای ابزار متصور شدیم؛ یکی برای حوزه خبرگزاریها و دیگری برای بخشهای پشتیبانی و اپراتورهای سازمانها. در حالت دوم، سامانه میتواند تماسهای متعدد با مشتری را دستهبندی و تحلیل کند. بهجای گوشدادن به تکتک تماسها، کافیست برچسبهایی مانند "قطعی اینترنت"، "ضعف سرعت"، یا "قیمت بسته" تعریف شود. ابزار بهصورت خودکار تماسها را پردازش کرده، متن را استخراج میکند و تماسها را بر اساس موضوع دستهبندی میکند. سپس میتوان با یک سؤال ساده، مثلاً «بیشترین شکایت امروز چه بوده؟» پاسخ را دریافت کرد. در حوزه خبر و رسانه نیز، با توجه به ضبط مصاحبهها و تولید گزارش، این ابزار میتواند بسیار مفید باشد. متن را با دقت بالا استخراج میکند، خلاصهای مفهومی ارائه میدهد و حتی امکان آن را فراهم میسازد که سؤالات از متن را مستقیماً از فایل صوتی استخراج کنیم.
مفضلی میگوید: ما نسبت به رقابت جهانی نیز واقعبین هستیم. در حوزه زبان انگلیسی یا زبانهای جهانی دیگر، ابزارهای مطرح نظیر گوگل با سرعت بالایی در حال توسعه هستند و شاید رقابت با آنها در سطح جهانی دشوار باشد، اما در بازار ایران و کشورهای اطراف، هنوز جای خالی این نوع ابزار با دقت و کاربرد محلی احساس میشود. به همین دلیل تمرکز ما بر زبان فارسی و گسترش منطقهای آن باقی خواهد ماند.
وی میافزاید: از نظر مدل تجاری، فعلاً ایده اشتراکمحور برای ما پررنگتر است، چون امکان بهروزرسانی مداوم را فراهم میکند، البته برای برخی سازمانها، ارائه نسخه اختصاصی و شخصیسازیشده نیز در نظر گرفتهایم که بتوانند با اتصال از طریق API یا خرید نسخه خاص، نیازهای ویژه خود را برآورده کنند.
کارشناس مهندسی کامپیوتر دانشگاه اصفهان در پایان اضافه میکند: هدف ما این نیست که صرفاً یک ابزار تبدیل صوت به متن بسازیم. میخواهیم به سمت یک سامانه هوشمند و تحلیلی حرکت کنیم که بتواند دانشی واقعی از صوتها استخراج کرده و بهصورت یک دستیار تخصصی، در اختیار کاربر قرار گیرد. داشبورد مدیریتی، آرشیو صوتی و متنی، امکان جستوجوی دقیق و تحلیل آماری تماسها یا گفتگوها از جمله قابلیتهاییست که بهتدریج به آن خواهیم افزود.
ساختار فنی و سازوکار حفظ حریم خصوصی در سامانه صوتا
عرفان نعمان، دانشجوی کارشناسی کامپیوتر دانشگاه اصفهان و متخصص در حوزه یادگیری عمیق و طراحی مدلهای گفتار به متن این پروژه نیز به ایسنا میگوید: سامانه طراحیشده از دو بخش اصلی تشکیل شده است؛ بخش کاربر و بخش سرور. در بخش کاربر، همه چیز از طریق یک مرورگر انجام میشود؛ بدون نیاز به نصب هیچ نرمافزار یا افزونهای. کاربر نهایی تنها به یک دستگاه (رایانه یا تلفن همراه) مجهز به میکروفون فعال نیاز دارد تا بتواند فایل صوتی مورد نظر خود را ضبط و ارسال کند. عملیات فشردهسازی فایلهای صوتی حجیم نیز پیش از ارسال، در همان مرورگر انجام میشود، بنابراین استفاده از دستگاهی نسبتاً جدید، میتواند سرعت و کیفیت این فرایند را بهطور محسوسی افزایش دهد.
وی میافزاید: در بخش سرور، چنانچه نیازی به انجام محلی پردازشها نباشد، بار اصلی پردازش توسط زیرساختهای قدرتمند شرکت گوگل انجام میگیرد. به همین دلیل، سرور سامانه نیازمند منابع سختافزاری سنگین نیست و میتواند بهراحتی بر روی پلتفرمهای میزبانی مدرن اجرا شود.
این دانشجوی کارشناسی کامپیوتر ادامه میدهد: تمرکز اصلی در طراحی این سامانه، حفظ کامل حریم خصوصی کاربران بوده است. نسخه فعلی سامانه هیچیک از اطلاعات مربوط به کاربران، شامل فایلهای صوتی، متون تبدیلشده، خلاصهها یا خروجیهای پرسشوپاسخ را در هیچ پایگاه دادهای ذخیره نمیکند. پردازش فایلها بهصورت آنی انجام میشود؛ بدین صورت که فایل صوتی از طریق ارتباطی امن (HTTPS) به سرورهای گوگل ارسال میشود و پس از پردازش، نتیجه به مرورگر کاربر بازمیگردد. فایل اصلی نیز بلافاصله از حافظه سرور پاک میشود. تمامی اطلاعات تنها در طول یک نشست (session) در حافظه مرورگر باقی میمانند و پس از آن حذف خواهند شد.
نعمان میگوید: دادههایی که به مدلهای هوش مصنوعی گوگل ارسال میشوند، تابع سیاستهای حریم خصوصی این شرکت هستند و طبق مقررات فعلی، بدون اجازه کاربران برای آموزش مدلها مورد استفاده قرار نمیگیرند.
وی ادامه میدهد: از منظر ظرفیت، این سامانه به دلیل بهرهگیری از زیرساختهای مقیاسپذیر گوگل، هیچ محدودیت فنی برای پردازش حجم بالای فایلهای صوتی ندارد. تنها محدودیت احتمالی، مربوط به سقف مصرف کلیدهای API گوگل و هزینههای مرتبط است که با توجه به مقیاس نیاز، میتوان از کلیدهای متنوع بهره گرفت، بنابراین سامانه از هر نظر برای استفاده در ابعاد وسیع آماده است.
انتهای پیام
نظرات