به گزارش 598 به نقل از دبیرخانه شورای عالی اطلاعرسانی، محمدمهدی همایونپور، مدیر این پروژه در خصوص نرمافزار SESSS که به عنوان ارزیابی عملکرد سامانههای تبدیل متن به گفتار فارسی ارائه شده است، اظهار داشت: سیستم تبدیل متن به گفتار با دریافت ورودی در قالب متن، خروجی آن را در قالب دیگری از زبان طبیعی یعنی گفتار عرضه میکند. از این رو تلاش و تحقیقات بسیاری در جهت طراحی و ساخت سیستمهای تبدیل متن به گفتار و بهبود کیفیت صدای خروجی آنها صورت میگیرد و ارزیابی چگونگی عملکرد و کیفیت کار این سیستمها و اجزاء تشکیلدهنده آنها از اهمیت ویژهای برخوردار است. مشابه سیستمهای تبدیل متن به گفتار، سیستمهای کدینگ و فشردهسازی گفتار نیز در خروجی خود اقدام به تولید سیگنال گفتاری میکنند. در نتیجه ارزیابی کیفیت گفتار بازسازیشده در خروجی اینگونه سیستمها نیز حائز اهمیت است.
وی در توضیح نحوه عملکرد نرمافزار SESSS که به سفارش دبیرخانه شورای عالی اطلاعرسانی و توسط آزمایشگاه پردازش هوشمند دادههای چندرسانهای دانشکده مهندسی کامپیوتر دانشگاه صنعتی امیرکبیر انجام شده است، بیان داشت: در این نرمافزار به ارزیابی جنبههای متفاوت صوتی سیگنال بازسازی (سنتز) شده در سیستمهای سنتز و کدینگ گفتار پرداخته شده است. این ارزیابیها شامل ارزیابی میزان قابل فهم بودن اصوات تولید شده خصوصاً همخوان اول، وسط و آخر هجاها، نحوه انتقال از واکه به همخوان، میزان قابل فهم بودن واکهها، خوشههای همخوانی، کلمات در جملات و جملات است.
وی ادامه داد: در این ارزیابیها عملکرد بخش سنتزکنندههای گفتار از نقطه نظر جنبههای متفاوت صوتی بررسی میشود. آزمونهای ارزیابی ارائه شده شامل تست تشخیص قافیه، تست قافیه اصلاحشده، ارزیابی تشخیص همخوان میانی، ارزیابی قطعهای استاندارد، آزمون کلمات بیمعنی و انتقال واکه به همخوان، آزمون قابل فهم بودن جفتهای کمینه، ارزیابی در سطح جمله است.
وی افزود: علاوه بر این در نرمافزار SESSS امکان انجام ارزیابیها بصورت ذهنی با انجام تستهای شنیداری فراهم شده است. در این ارزیابیها شنوندهها با گوش دادن به صدای حاصل از سیستم تبدیل متن به گفتار و کدینگ گفتار، نسبت به مواردی چون وضوح و میزان کیفیت صوت سنتز شده از نقطهنظرهای مختلف مانند میزان خوشایند بودن، طبیعی بودن، قابل فهم و درک بودن، سرعت بیان، سلیس و روان بودن، خشن بودن و بسیاری موارد دیگر و حتی نحوه تلفظ و سرعت با استفاده از روشهای ارزیابی میانگین امتیازات نظردهی MOS، تست تخمین دستهای CE، تست ITUT و پروتکل تحلیل پروفایل گفتاری امتیاز میدهند. میانگین نظرات شنوندگان بیانگر نتیجه ارزیابی است. برای اکثر این روشهای ارزیابی دادههای ارزیابی برای زبان فارسی نیز ارائه شده است.
همایونپور با اشاره به اینکه در سیستمهای تبدیل متن به گفتار و کدینگ گفتار، کیفیت نوای گفتار از اهمیت بالایی برخوردار است، بیان داشت: عوامل متعددی چون ایجاد تکیهها، آهنگ جملات، احساسات، کنشهای گفتاری و بسیاری از حالات گفتار به نوای آن بستگی دارد. نوای مناسب در طبیعی و خوشایندبودن گفتار و نیز در انتقال مفاهیم و مقصود گوینده بسیار موثر است.
وی تاکید کرد: در نرمافزار SESSS به چگونگی ارزیابی اینگونه سیستمها در تولید نوا شامل ارزیابی زیروبمی در سطوح هجا، کلمه و جمله، ارزیابی دیرش و شدت واحدهای گفتاری و نهایتاً به چگونگی ارزیابی کیفی سیستمهای سنتز گفتار از نقطهنظر تولید تکیه و آهنگ پرداخته شده است.
به گفته وی روشهای ارزیابی نوا هم بصورت ذهنی و هم بصورت عینی ارائه شده و به کمک نرمافزار SESSS قابل اجرا هستند.
وی در خصوص ارزیابی ذهنی گفت: در این روش، جملات از نقطه نظر ویژگیهای نوایی متفاوت ارزیابی میشوند. ارزیابی ذهنی نوا با استفاده از تست امتیاز میانگین نظرات MOS انجام میشود. در این نوع آزمون، جملات سنتز شده برای شنوندگان شرکت کننده در آزمون پخش شده و آنها نسبت به کیفیت نوای گفتار سنتز شده، رعایت تکیهها، آهنگ یا احساسات و مانند آن نظر میدهند. میانگین نظرات شنوندگان بیانگر نتیجه ارزیابی است.
وی ادامه داد: در ارزیابی دوم یعنی ارزیابی عینی نوا، میتوان پارامترهای نوایی همچون زیروبمی، دیرش و شدت که یکبار از طریق مدلسازی و روشهای خودکار بدست آمدهاند و بار دیگر از گفتار گوینده واقعی استخراج شدهاند را از طریق دو معیار ضریب همبستگی و ضریب تعیین، بصورت کمی توسط نرمافزار SESSS مقایسه نمود. همچنین میتوان منحنی تغییرات هر یک از پارامترهای نوا را رسم و بصورت چشمی کار مقایسه را انجام داد.
وی با ذکر این نکته که تستهای سنتز به فرد شنونده وابسته است، گفت: با توجه به این موضوع در نرمافزار SESSS، قسمتی به نام مدیریت آزمونگر آورده شده است که در آن میتوان نام فرد آزمونگر، جنسیت و سن او را مشخص کرده و سپس به لیست آزمونگران اضافه نمود یا در صورت نیاز حذف کرد.
همایونپور در پایان بیان داشت: نرمافزار ارائه شده علاوه بر موارد فوق میتواند برای انجام بسیاری از ارزیابیهای شنیداری در حوزه سایر سیگنالهای صوتی از جمله سیگنالهای موسیقی و مانند آن، ارزیابی مشکلات شنیداری در اشخاص، آموزش اصوات به کودکان و در یادگیری زبان مورد استفاده قرار گیرد.
گفتنی است در حال حاضر نسخه بتا از نرمافزار جامع SESSS در سایت دبیرخانه ارائه شده و پس از رفع مشکلات احتمالی نسخه نهایی آن ارائه میشود.
کاربران میتوانند گزارش مشکلات احتمالی را به رایانامه دبیرخانه شورای عالی اطلاعرسانی به آدرس info@scict.ir و یا بصورت مستقیم به آزمایشگاه پردازش هوشمند دادههای چندرسانهای دانشکده مهندسی کامپیوتر دانشگاه صنعتی امیرکبیر به آدرس homayoun@aut.ac.ir ارسال کنند.