گزارش برگزاری ششمین همایش ملی زبان‌شناسی رایانشی

۰۸ آبان ۱۴۰۱ | ۱۲:۳۴ کد : ۲۲۹۵۴ آخرین عناوین

تعداد بازدید:۱۵۸۸

گزارش برگزاری ششمین همایش ملی زبان‌شناسی رایانشی

ششمین همایش ملی زبان‌شناسی رایانشی، 28 مهر ماه 1401 از سوی انجمن زبان‌شناسی ایران با همکاری پژوهشکده زبان‌شناسی پژوهشگاه علوم انسانی و مطالعات فرهنگی و پایگاه استنادی جهان اسلام با حضور علاقه‌مندان به صورت حضوری و غیرحضوری در سالن حکمت پژوهشگاه علوم انسانی و مطالعات فرهنگی برگزار شد.
به‌گزارش روابط عمومی پژوهشگاه علوم انسانی و مطالعات فرهنگی، سخنرانی‌های این همایش در چهار نشست صبح و عصر ارائه شد و مقالات ارائه شده حوزه‌های مختلفی چون ترجمه ماشینی به‌خصوص ترجمه گویش به فارسی معیار، ارائه مدلی برای تخمین کیفیت ترجمه ماشینی، نویسه‌گردانی، معناشناسی و شبکه معنایی و بررسی گفتار را پوشش دادند.
دبیران علمی همایش، دکتر مسعود قیومی و دکتر علی رضاقلی‌فامیان و دبیران اجرایی بیتا قوچانی و آزاده شکری بودند. نخست دبیران علمی همایش ضمن خوشامدگویی به حاضران با اشاره به اینکه زبان‌شناسی رایانشی امروزه در جامعۀ علمی ایران حوزه‌ای تخصصی شده که علاقه‌مندان بسیاری دارد، گزارشی از مقاله‌های رسیده به همایش ارائه دادند. به گفته دبیران علمی همایش، 14 مقاله به دبیرخانه همایش ارسال شد که 8 مورد برای ارائه و چاپ انتخاب شد.
ترجمه ماشینی زبان لری و گویش یزدی به فارسی معیار و منابع زبانی رایانشی مرتبط
اولین سخنرانی از دانشگاه صنعتی شریف با عنوان: «ترجمه ماشینی زبان لری و گویش یزدی به فارسی معیار و منابع زبانی رایانشی مرتبط» ارائه شد. به نظر نویسندگان نبود یک مجموعه داده زبانی استاندارد و دیجیتال چالشی بزرگ و مهم در کارهای رایانشی محسوب می‌شود؛ از اینرو آنان در این پژوهش برای اولین بار از دو مجموعه داده تک‌زبانه و موازی بر روی زبان لری و گویش یزدی در مقابل زبان فارسی معیار استفاده کردند. برای ارزیابی داده‌ها نیز از مدل ترجمه ماشینی با معیار BLUE استفاده شد. در پایان نویسندگان یادآور شدند برای دست یافتن به نتایج مطلوب‌تر لازم است دادگان را گسترش و پژوهش‌های بیشتری انجام داد.
ارائه یک مدل تخمین کیفیت مترجم ماشینی انگلیسی به فارسی با استفاده از یادگیری انتقالی عنوان سخنرانی دوم از دانشگاه تهران بود. به گفته این سخنران امروزه، ترجمه ماشینی کاربرد وسیعی پیدا کرده است. از اینرو ارزیابی کیفیت ترجمه ماشینی بدون داشتن ترجمه مرجع، از اهمیت بالایی برخوردار است. یکی از چالش‌های موجود در این زمینه، مخصوصاً برای زبان‌های کم‌منبع، عدم وجود داده‌های آموزشی مناسب است. برای این منظور می‌توان از روش‌های مبتنی بر شبکه عصبی که قبلاً روی مدل‌های زبانی چند زبانه آموزش‌دیده شده استفاده کرد و با کمک یادگیری انتقالی کیفیت ترجمه برای یک جفت زبان جدید را تخمین زد. براساس نتایج تحقیق نگارندگان می‌توان گفت که دادگان آموزشی تهیه‌شده از کیفیت مناسبی برای بهبود مدل تخمین کیفیت ترجمه برخوردار بوده و می‌تواند در پژوهش‌های آتی مورد استفاده قرار گیرد.

سومین سخنران دانشگاه تهران پژوهش خود را با عنوان Dialogue Management in Persian Chatbots using Rasa ارائه داد. او ابتدا به معرفی سامانه گفت‌وگو پرداخت که توانایی مکالمه به زبان انسان را داراست و طی سال‌های اخیر کاربردهای مختلفی پیدا کرده است و در بخش‌های مهمی چون مؤسسات آموزشی، مراکز بهداشتی و ... به‌کار می رود. سخنران در ادامه توضیح داد که اندازه‌گیری میزان موفقیت این سامانه براساس شباهت به عملکرد انسان در زبان فارسی در مقایسه با کارهای مشابهی که روی سایر زبان‌ها انجام شده است قابل‌قبول بوده است، اما نیاز به جمع‌آوری داده‌های بیشتر و دقیق در حوزه‌های خاص همچنان احساس می‌شود.
مقاله دوم نشست دوم
مقاله دوم نشست دوم، نیز پژوهش دیگری از دانشگاه تهران با عنوان: On the use of BERT for Intent classification and slot filling for customer support dialogue system in the Persian language بود. هدف نگارندگان بررسی توسعه واحد درک زبان طبیعی در سامانه گفت‌وگو فارسی با استفاده از برنامه BERT بود. نگارنده به طبقه‌بندی سامانه گفت‌وگو به دو دسته وظیفه‌محور و غیر وظیفه‌محور (که از آن به عنوان چت‌بات یاد می‌شود) اشاره کرد و افزود هدف چت‌بات ایجاد گفت‌وگو و ارائه پاسخ مناسب است. بنابراین درک زبان طبیعی برای دستیابی به این هدف از اهمیت بالایی برخوردار است. «پر کردن شکاف» و «تشخیص قصد» دو بخش مهم در درک زبان طبیعی و سامانه‌های گفت‌وگو هستند. این پژوهش نشان داد تشخیص قصد و پر کردن شکاف در انگاره پیشنهادی نگارندگان در مقایسه با انگاره‌های سنتی از دقت بالایی برخوردار است.
در سخنرانی‌های نوبت بعدازظهر، نخست از دانشگاه صنعتی شریف مقاله‌ای با عنوان «نویسه‌گردانی میان تاجیکی و فارسی به کمک یادگیری عمیق» ارائه شد. سخنران با اشاره به این که مهم‌ترین تفاوت فارسی ایرانی با فارسی تاجیکی در سیستم نوشتار است که موجب ایجاد گسست فرهنگی بزرگی میان دو ملت شده است، هدف از نگارش این مقاله را ساخت سامانه‌ای برای تبدیل این دو نوشتار عنوان کرد. به گفته او در این خصوص طی سال‌های اخیر تلاش‌های بسیاری صورت گرفته است، اما نتیجه کار با خطاهای قابل توجهی همراه بوده است. در این پژوهش از روش‌های مبتنی بر یادگیری عمیق بهره گرفته شده است تا سامانه‌ای دقیق برای نویسه‌گردانی بین این دو زبان ایجاد شود.
پردازش بدون مرز آذری: نویسه‌گردانی خودکار آذری با استفاده از یادگیری عمیق
سخنران دوم این نشست از دانشگاه شریف مقاله خود را که به‌صورت مشترک به نگارش درآمده بود با عنوان «پردازش بدون مرز آذری: نویسه‌گردانی خودکار آذری با استفاده از یادگیری عمیق» ارائه داد. وی با اشاره به پیشرفت مدل‌های زبانی و تحولات چشم‌گیری که در زمینه تکنولوژی‌های درک زبان‌های طبیعی رخ داده است، یادآور شد این تکنولوژی‌ها تنها برای تعداد محدودی از زبان‌ها که از نظر منابع دیجیتال غنی هستند، شکل گرفته است. در این میان زبان ترکی جزو زبان‌هایی با منابع کم محسوب می‌شود. هدف از این پژوهش جمع‌آوری و پیش‌پردازش داده‌های آذری با خطوط پارسی و خط لاتین است، مدل نویسه‌گردانی با استفاده از روش یادگیری عمیق رشته به رشته آموزش داده شد. نگارندگان با کمک این مدل به تولید منابع زبان ترکی با خط فارسی از روی خط لاتین و بالعکس پرداختند. نتایج پژوهش با توجه به منابع محدود بسیار قابل قبول بوده است.
توصیف جانشینی و هم‌نشینی شبکه معنایی واژه «دنیا» در نهج البلاغه
آخرین نشست با عنوان پژوهش «توصیف جانشینی و هم‌نشینی شبکه معنایی واژه «دنیا» در نهج البلاغه با استفاده از روش N-gram » از دانشگاه جهرم بود. سخنران توضیح داد: تنوع معانی واژ‌ها در نهج البلاغه از ساده تا بسیار عمیق، باعث شد که شبکه معنایی واژه «دنیا» در محتوای عربی نهج البلاغه محور پژوهش قرار گیرد. بدین ترتیب واژه دنیا در دو محور همنشینی و جانشینی مورد بررسی قرار گرفت. از روش N-Gram نیز برای احتمال وقوع واژه‌ها در محور هم‌نشینی استفاده شد. در کل 94 مورد استخراج شد که 29 مورد روی محور جانشینی و 65 مورد نیز در محور هم‌نشینی قرار گرفت. هم‌نشینی‌ها در روش N-Gram در سه زیر مجموعه؛ سه پشته و چهار پشته و پنج پشته مورد بررسی قرار گرفت.
بازشناسی جنسیت گوینده گفتار بر پایه ضرایب کپسترال فرکانس مِل با استفاده از شبکه‌ی عصبی مصنوعی
عنوان سخنرانی ششم و پایانی این همایش، «بازشناسی جنسیت گوینده گفتار بر پایه ضرایب کپسترال فرکانس مِل با استفاده از شبکه‌ی عصبی مصنوعی» از پژوهشگاه مطالعات علوم شناختی بود. به گفته سخنران، گفتار به‌عنوان مهم‌ترین روش ارتباطی حاوی اطلاعات فراوانی همچون سن، حالت هیجانی و جنسیت گوینده گفتار است. هدف نگارنده در این پژوهش بازشناسی جنسیت گوینده گفتار است. وی در ادامه افزود: این پژوهش از نمونه‌های گفتاری موجود در پایگاه ‌داده گفتاری برلین به عنوان داده خام استفاده کرده است. سپس 13 ضریب نخست ضرایب کپسترال فرکانس مِل برای هر نمونه محاسبه شد. در گام بعد، براساس هفت مقدار آماری شامل کمینه، بیشینه، میانگین، انحراف‌معیار، میانه، چولگی و کشیدگی که برای هر یک از این 13 ضریب محاسبه شده است، بردار ویژگی برای هر نمونه گفتاری شکل گرفته‌است. این بردارها به عنوان ورودی به دسته‌بندی‌کننده مورد استفاده قرار می‌گیرند. این پژوهش از یک شبکه‌ عصبی مصنوعی پیشخور با یک لایه‌ی پنهان برای بازشناسی جنسیت گوینده گفتار استفاده کرد. در ادامه با تغییر در تعداد نورون‌های لایه‌ی پنهان، جنسیت گوینده گفتار بازشناسی و دسته‌بندی شد. پیاده‌سازی این دسته‌بندی‌کننده در نرم‌افزار Matlab R2021b انجام گرفت. نتایج بدست آمده از بازشناسی‌ها با تعداد نورون‌های مختلف در لایه پنهان، جنسیت گوینده گفتار را با نرخ صحت بالا بازشناسی و دسته‌بندی کرد. براساس نتایج حاصل شبکه‌های عصبی مصنوعی، روش کارآمدی برای بازشناسی جنسیت گوینده گفتار هستند.
ششمین همایش ملی زبان‌شناسی رایانشی با سخنرانی اختتامیه دبیران علمی پایان یافت./پایان