گزارش نشست «کاربرد پیکره‌های زبان فارسی و اهمیت آن در پژوهش‌های ایران‌شناسی و جهان ایرانی»

۲۷ دی ۱۴۰۲ | ۱۵:۵۸ کد : ۲۵۰۱۴ آخرین عناوین گزارش نشست‌ها

تعداد بازدید:۱۴۶۰

گزارش نشست «کاربرد پیکره‌های زبان فارسی و اهمیت آن در پژوهش‌های ایران‌شناسی و جهان ایرانی»

نشست «کاربرد پیکره‌های زبان فارسی و اهمیت آن در پژوهش‌های ایران‌شناسی و جهان ایرانی» به همت پژوهشکده زبان‌شناسی پژوهشگاه علوم انسانی و مطالعات فرهنگی، برگزار شد. در این نشست که 28 آذر ماه 1402 برگزار شد، چهار سخنران حضور داشتند که با موضوع «تهیه پیکره زبان فارسی و اهمیت آن در ایران‌شناسی» نظرات و ایده‌های خود را ارائه کردند. دکتر مصطفی عاصی، دکتر مسعود قیومی، دکتر آتوسا رستم‌بیک و دکتر نادیا حاجی‌پور سخنرانان این نشست بودند ضمن اینکه مدیریت جلسه نیز برعهدۀ دکتر فرزانه گشتاسب بود.

تهیه پیکره زبان فارسی و اهمیت آن در ایران‌شناسی
نخستین سخنران دکتر عاصی بود که در آغاز سخنانش گفت: با نگاهی به پیشینة پیدایش زبان‌شناسی نوین به‌عنوان یکی از تأثیرگذارترین علوم امروزین که تنها در یک‌صد سال گذشته مجهز به‌نظریه‌های عام و تخصصی زبانی، روش‌شناسی و ابزارهای نوین علمی، رشته‌های دانشگاهی در همة مقاطع، مجامع و انجمن‌های علمی تخصصی، نشریه‌های معتبر علمی و نوشتگان بسیار زیاد شده است، درمی‌یابیم که شاخه‌های کاربردی و میان‌رشته‌ای‌های گوناگون آن و نیز به‌عنوان رکن اصلی رایاسپهر و هوش مصنوعی کم‌وبیش در همة عرصه‌های زندگی حضور یافته است.
وی ادامه داد: در ایران نیز هم‌گام و هم‌زمان با پیشرفت‌های زبان‌شناسی در جهان، دانشگاه‌ها، پژوهشگاه‌ها، فرهنگستان‌ها، بنیادها و سازمان‌های علمی، فرهنگی و فناوری بسیاری با همکاری استادان، دانشوران، پژوهشگران و متخصصان پرشماری دانش زبان‌شناسی را به‌پیش می‌برند. یکی از شاخه‌های بسیار جدید زبان‌شناسی کاربردی که میان‌رشته‌ایِ رایانشی نیز به‌شمار می‌آید، زبان‌شناسی پیکره‌ای است که خوشبختانه در ایران به‌خوبی آغاز شده و هم‌گام با پیشرفت‌های جهانی به‌پیش می‌رود.
دکتر عاصی ادامه داد: پس از تعریف‌های کوتاهی از پیکره و زبان‌شناسی پیکره‌ای به مهم‌ترین حوزه‌های کاربرد آن اشاره‌ای می‌شود و آنگاه به یکی از این زمینه‌ها یعنی فرهنگ‌نگاری با بررسی یک نمونة انجام یافته می‌پردازیم.
دو رویکرد پیکره‌ای: بررسی‌های پیکره‌بنیاد (corpus-based) و پیکره‌محور (corpus-driven)
کاربردهای پیکره و زبان‌شناسی پیکره‌ای
۱- می‌توان گفت که امروز دیگر در همة شاخه‌های نظری و کاربردی زبان‌شناسی با بهره‌گیری از روش‌ها و ابزارهای زبان‌شناسی پیکره‌ای، پژوهش با دقت و سرعت بسیار بیشتری انجام می‌گیرد.
۲- با ورود سه عامل زبان‌شناسی، رایانه و پیکره، دوران فرهنگ‌نگاری نوین فرارسیده است.
۳- نقش پیکره‌ها در آموزش زبان و تدوین منابع آموزشی آن بسیار اهمیت یافته است.
۴- کاربرد پیکره‌های زبانی در اصطلاح‌شناسی و واژه‌گزینی نیز آغاز شده است.
۵- امروز بررسی‌های گویشی و تدوین اطلس‌های زبان‌ها و گویش‌ها با فراهم آوردن پیکره‌های بزرگ گویشی و ایجاد بانک‌های دادگان گویشی بسیار کارآمدتر و سریع‌تر شده است.
۶- با مطرح‌شدن کاربرد پیکره‌های موازی در طرح‌های ترجمه ماشینی، یک‌باره تحول و جهشی بزرگ در این رشته بوجود آمد.
۷- بررسی‌های ادبی و سبک‌شناختی، تصحیح متون و تحلیل محتوا نیز با کمک زبان‌شناسی پیکره‌ای وارد دوران تازه‌ای شده است.
فرهنگ‌نگاری نوین
*   فرهنگ‌نگاری و فنّاوری اطلاعات (IT)
*   فرهنگ‌نگاری رایانشی
*   فرهنگ‌نگاری و زبان‌شناسی پیکره‌ای
*   فرهنگ‌های پیکره‌بنیاد
یک نمونه از فرهنگ‌های پیکره‌بنیاد: فرهنگ زبان‌آموز پیشرفتة فارسی
ویژگی‌ها و نوآوری‌های فرهنگ زبان‌آموز فارسی در یک نگاه:
*   نخستین فرهنگ پیکره‌بنیاد زبان‌آموز پیشرفتة فارسی
*   بیش از 31000 سرواژه و مدخل اصلی
*   نشانه‌‌های تصویری نمایندة بسامد نسبی سرواژه‌ها
*   نزدیک به 6000 عبارت اصطلاحی
*   نزدیک به 2000 نکتة کاربردی
*   896 صفحة بزرگ (قطع رحلی)
*   بیش از 15600 شاهد مثال از کاربرد واقعی زبان برگرفته از پیکرة 50 میلیون واژه‌ای پایگاه دادگان زبان فارسی
*   تعریف ساده و روشن سرواژه‌ها با واژگان محدود تعریف 2800 واژه¬ای
*   آوانگاری تلفظ رسمی و گفتاری سرواژه‌ها
*   بیش از 600 تصویر درون متن و 17 صفحه تصویرهای رنگی جداگانه برای روشن‌تر کردن معنی
*   دستور زبان و قواعد ساخت‌واژی فشردة فارسی در پیشگفتار
*   پیوست‌ها و فهرست‌های موضوعی گوناگون»

کاربرد پیکرۀ زبانی در ارتباطات بین فرهنگی
دومین سخنرانی توسط دکتر مسعود قیومی انجام شد که عنوان آن «کاربرد پیکرۀ زبانی در ارتباطات بین فرهنگی» بود. دکتر قیومی گفت: ارتباطات بین فرهنگی به مطالعۀ ارتباطات میان فرهنگ‌ها و گروه‌های اجتماعی مختلف یا چگونگی تأثیر فرهنگ بر ارتباطات و همچنین چگونگی ارتباط مردم متعلق به کشورها و فرهنگ‌های گوناگون با یکدیگر و درک از جهان پیرامون خود می‌پردازد. این موضوع ذیل موضوعات انسان‌شناسی، مطالعات فرهنگی، زبان‌شناسی، روان‌شناسی و ارتباطات مطرح و اساساً یک موضوع بین‌رشته‌ای تلقی می‌شود. موضوعاتی از قبیل هویت و فرهنگ در چارچوب رشتۀ ارتباطات برای تحلیل چگونگی تأثیر جهانی‌شدن بر شیوۀ تفکر، اعتقادات و ارزش‌ها مطرح می‌شود که خارج از موضوع بحث این سطور است.
دکتر قیومی ادامه داد: در حوزۀ ارتباطات بین فرهنگی، دو موضوع فرهنگ و ارتباطات در تعامل با یکدیگر است. هدف از این تعامل تلاش بر تعیین چارچوب و تئوریزه‌سازی فرهنگ و ارتباطات است. ازآنجاکه فرهنگ و ارتباطات به موازات تغییرات اجتماعی دچار تحول می‌شود و فرهنگ سنجش‌پذیر نیست و خصلت جهانی ندارد، نظریه‌ها باید تحولات دائمی و جنبه‌های مختلف یک جامعه مشخص را در نظر بگیرد و از تلقین دیدگاه‌هایی که از مطالعۀ یک جامعه به‌دست می‌آورد بر جامعۀ دیگر پرهیز کند. توجه به این نکته موجب توجه به ویژگی پویایی در نظریه‌پردازی می‌شود.
زبان یک ابزار و مؤلفه فرهنگی مهم برای برقراری ارتباط و تعامل میان افراد یک جامعه و همچنین گویشوران دیگر زبان‌ها است. براساس نظریۀ جبر زبانی معرفی‌شده توسط ساپیر و وورف (اوتنهایمر، 2009: 33-34)، زبان تفکر را شکل می‌دهد و بر شناخت افراد تأثیرگذار است؛ بنابراین، افراد با فرهنگ‌های مختلف به‌دلیل تفاوت در زبان‌هایشان متفاوت فکر می‌کنند. براساس همین رویکرد، «نظریه معنای معانی» (گریفین، 2000) در حوزۀ سوءتفاهم میان افراد با فرهنگ‌های مختلف مطرح می‌شود. هدف از پژوهش حاضر یافتن راه‌کاری برای مطالعۀ ارتباطات بین فرهنگی از دریچۀ زبان با کمک فناوری‌های روز ازجمله پیکرۀ زبانی، زبان‌شناسی رایانشی و هوش مصنوعی است.

قیومی تأکید کرد: یافتن درک متقابل و ایجاد تفاهم زبانی در مطالعات ارتباطات بین فرهنگی در کشورهای مختلف از اهمیت به‌سزایی برخوردار است. به‌دلیل محدودیت‌های زمانی و مکانی، امکان دسترسی به داده‌های زبانی زنده درجوامع دیگر وجود ندارد. بنابراین، رویکرد داده‌محور یا پیکره‌محور در مطالعات مربوط به ارتباطات بین فرهنگی مورد توجه قرار می‌گیرد و این امر موجب گردآوری داده‌های زبانی در قالب پیکرۀ زبانی و تحلیل آنها برای فهم زبانی در جوامع مختلف می‌شود.
ویژگی ارتباطی زبان سبب شده‌است مطالعات معناشناسی از اهمیت شایانی برخوردار گردد. مفهوم یک عبارت یا جمله از کنارهم‌قرارگرفتن معانی واژه‌های تشکیل‌دهندۀ آن عبارت یا جمله در محور هم‌نشینی درک می‌شود. گاهی ممکن است به‌دلیل ساخت زبانی یا ویژگی چندمعنایی واژه‌ها، مفهوم درک‌شده توسط شنونده از مقصود گوینده متفاوت باشد. در این صورت با پدیده‌ای به‌نام ابهام مواجه می‌شویم. ابهام عامل متمایزکننده میان زبان طبیعی و زبان‌های برنامه‌نویسی و صوری است. به عبارتی دیگر، ابهام بیانگر وجود تردید ناخواسته در معنا است که می‌تواند برخواسته از ساخت زبانی یا ویژگی معنایی خود واژه باشد. استعاره یک پدیدۀ دیگر زبانی است که می‌تواند ذیل ابهام مطرح گردد. تفاوت ابهام و استعاره در این است که استعاره بیانگر وجود یک روش خلاقانه ایجاد تردید آگاهانه و هدفمند در ابهام واژگانی است (گیلز، 1991). سوءتفاهم تعبیری است که از ابهام یا استعاره ناشی می‌شود و خود عامل سوءبرداشت نیست، بلکه نتیجۀ آن است.
دکتر قیومی در خاتمه سخنانش یادآور شد: محدودیت زمانی و مکانی سبب تهیه پیکره‌های زبانی و مطالعۀ شواهد متعلق به یک زبانی توسط افراد خبره در جوامع دیگر برای مطالعۀ یک جامعه شده‌است. استفاده از فناوری می‌تواند مطالعات بین فرهنگی را دست‌خوش تغییر کند و ضمن افزایش سرعت و دقت و همچنین کاهش زمان در تحلیل داده‌ها و رسیدن به جمع‌بندی، به دستیابی به اطلاعات جدیدی منجر شود که پیش از آن با صرف زمان زیادی میسر بود. امروزه می‌توان از توانمندی‌های زبان‌شناسی رایانشی و هوش مصنوعی در حوزۀ پردازش معنایی واژه‌ها استفاده نمود و از نتایج آن برای اهداف مورد نظر در مطالعات ارتباطات بین فرهنگی بهره برد. در این راستا به دو شیوه می‌توان عمل کرد. یک شیوه، تعیین معانی یک واژه به‌صورت استنتاجی استقرایی با استفاده از الگوریتم‌های یادگیری ماشینی بی‌نظارت و پیکرۀ زبانی عاری از هرگونه نشانه‌گذاری است. شیوۀ دوم، ابهام‌زدایی معنایی واژه است که در این حوزه باید با کمک الگوریتم‌های یادگیری ماشینی با نظارت و پیکرۀ برچسب‌گذاری‌شدۀ معنایی واژه‌ها، معنای واژه‌ها را براساس بافت زبانی از یک جدول مشخص معانی متعلق به واژۀ هدف تعیین کرد.

پیکره‌های زبانی و بازنمایی و انتقال فرهنگ
سومین سخنران نشست دکتر آتوسا رستم‌بیک مطالبش را با عنوان «پیکره‌های زبانی و بازنمایی و انتقال فرهنگ» ارائه کرد و گفت: یکی از شاخه‌های نسبتاً تازه بنیاد در رشته زبان‌شناسی که متأثر از پیشرفت تکنولوژی شکل گرفت و هم‌راستا با آن متحول می‌شود، زبان‌شناسی پیکره‌ای است. دیجیتالی‌شدن داده‌ زبانی امکان گردآوری و نگهداری حجم زیادی از داده را فراهم آورد. داده‌ای که همان ابزارهای رایاناشی و دیجیتالی امکان تحلیلش در زمان اندک را نیز فراهم می‌آورد. با گسترده شدن ابعاد کاربردی زبان‌شناسی پیکره‌ای، انواع پیکره‌های زبانی تعریف و گردآوری شدند. کاربرد و نقش این پیکره‌های زبانی، جدا از کاربرد و نقش خود زبان نیست. همان‌گونه که یکی از کارکردهای زبان انعکاس شخصیت فرد و تاریخچۀ فرهنگی او و نیز انتقال فرهنگ است، پیکره‌های زبانی نیز در بازنمایی و انتقال فرهنگی نقش مهمی دارند؛ به‌ویژه با این نقش با توجه به کاربردشان در سه حوزه زبان‌شناسی فرهنگی، آموزش زبان و ترجمه برجسته‌ترمی‌شود. پیکره‌های زبانی یکی از ابزارهایی است که در زبان‌شناسی فرهنگی که به رابطۀ بین مفهوم‌سازی فرهنگی و زبان می‌پردازد، کاربرد دارد و می‌تواند مسیر ما را در دستیابی به طرح‌واره‌ها، مقوله‌ها و استعاره‌های فرهنگی جوامع هموار سازد. پیکره‌های زبانی در یادگیری و آموزش زبان نیز نقش به‌سزایی دارند و در تدوین فرهنگ‌های لغت، دستور زبان، آزمون‎سازی، طراحی درسی و تدوین کتاب‌های درسی به‌کار می‌روند. علاوه بر این، پیکره‌های زبانی در ترجمه نیز کاربرد بسیار دارند. انواع پیکره‌های زبانی موازی، دو یا چندزبانه و قابل مقایسه به مترجم در آموزش ترجمه یا انجام پژوهش‌هایی در حوزه ترجمه یا دستیابی به معادل اصطلاحات خاص کمک می‌کنند. در ایران، با وجود اینکه در سال‌های اخیر، تهیه پیکره‌های زبانی مورد توجه قرار گرفته است، همچنان خلاء پیکره‎های زبانی تخصصی احساس می‌شود.»

دربارۀ پایگاه دادگان پارسیک
چهارمین سخنرانی نشت توسط دکتر نادیا حاجی‌پور با عنوان «دربارۀ پایگاه دادگان پارسیک (آدرس: parsigdatabase.com) و چند نمونه از پژوهش‌های آماری» ارائه شد.
دکتر حاجی‌پور سخنانش را دربارۀ پایگاه داده‌های زبان فارسی میانه آغز کرد و گفت: این پایگاه شامل تمام متون فارسی میانه خواهد بود. واژه‌های این پایگاه برچسب‌دهی شده است که شامل‌ املای پهلوی واژه، آوانویسی، حرف‌نویسی، معنای فارسی، بن‌واژه، برچسب دستوری، ارجاع به فصل و بند کتاب و ارجاع به نسخه انتقادی است. چهار نوع ‌جست‌وجو در این پایگاه امکان‌پذیر است، ‌جست‌وجوی متن، واژه، برچسب دستوری، باهمایی. در ‌جست‌وجوی متن، نتیجه ‌جست‌وجو شامل دو بخش است: الف) آوانویسی و ترجمه‌ یا ترجمه‌های متن همراه با یادداشت‌هایی است که گاه بر متن نوشته شده است؛ ب) نمایش متن پهلوی (شامل متن انتقادی و دستنویس‌های که در دسترس داشتیم). در ‌جست‌وجوی واژه، پنج روش وجود دارد: واژه به پهلوی، آوانویسی واژه، حرف‌نویسی واژه، معنای آن و بن واژه. نتیجه ‌جست‌وجو در این بخش در دو خروجی دارد: «فهرست واژگان» که شامل همه واژه‌های مورد ‌جست‌وجو است و «تنوع و بسامد واژه» که فقط شامل خود واژه است. در هر یک از انواع ‌جست‌وجوی واژه می‌توان متن مورد نظر و فصل آن را انتخاب کرد. در ‌جست‌وجوی برچسب دستوری نخست مقوله اصلی انتخاب، سپس مقولات ریزتر ظاهر انتخاب می‌شود.
2- تحلیل‌های صورت گرفته در این پایگاه عبارت است از: الف- تهیه اطلاعات آماری؛ ب- تحلیل آماری هزوارش در چند متن فارسی میانه؛ ج- تحلیل آماری افعال جعلی در متون فارسی میانه.
الف- تهیه اطلاعات آماری
در پژوهش نخست، هشت متن با حدود 7000 واژه درنظر گرفته شد. اطلاعات شامل تعداد بندها، واژه تکراری، واژه بدون تکرار، بن واژه، واژه با بسامد 1، تعداد واژه محتوایی و دستوری، تعداد هزوارش و تعداد هزوارش محتوایی بود. برخی از نتایج عبارت است از: به‌طورکلی، نسبت واژه‎های بدون تکرار به واژه‎های با تکرار که تنوع واژگانی (غنای واژگانی) نامیده می‎شود 40/38 درصد است. «بهرام ورجاوند» غنای واژگانی نسبتاً بالایی با 46/63 درصد را دارد. این تنوع واژگانی موجب دشواری درک مطلب می‌شود. واژه‎های محتوایی عبارت است از فعل، اسم، صفت، قید، ضمیر و شبه جمله؛ و واژه‎های نقشی عبارت است از حرف ربط، حرف اضافه و حرف تعریف. از میان واژه‎های متون، 4717 واژه محتوایی است که 63/65 درصد کل واژه‏ را شامل می‎شود. تعداد کل هزوارش‏ها در داده‏های تحلیل‎شده 3968 واژه است که این تعداد بیانگر این است که 21/55 درصد از کل واژه‎ها هزوارش است.

ب- تحلیل آماری هزوارش در چند متن فارسی میانه
در برچسب‌گذاری دستوری واژه‌ها، 12 مقوله دستوری اصلی تعریف شده است که شامل فعل، اسم، صفت، قید، عدد، ضمیر، حرف تعریف، پیش‌اضافه، پس‌اضافه، حرف ربط، ادات و اضافه است. در مقاله‌ای وجود هزوارش، بسامد آن و چگونگی کاربرد آن در هر واژه بر اساس این 12 مقوله استخراج و مورد بررسی قرار گرفت. داده‌های این پژوهش شامل 31046 واژۀ فارسی میانه است که از سه منبع گردآوری شده‎است. 1- 31 متن کوتاه و بلند ازکتاب متون پهلوی (Pahlavi Texts)است، 2- مینوی خرد، و 3- اندرز اوشنر دانا. شمارش هزوارش‌ها در این متون نشان می‌دهد که حدود 53 درصد از این واژه‌ها به‌صورت هزوارش و حدود 47 درصد به‌صورت پهلوی نوشته شده‌اند. نگارش حدود نیمی از یک متن پهلوی با هزوارش به‌خوبی نقش این نوع نگارش خاص واژه‌های پهلوی را نشان می‌دهد. بیش از 90 درصد واژه‌های دستوری به‌صورت هزوارش نوشته می‌شوند. در واژه‌های محتوایی، نقش هزوارش در اسم، صفت، قید و عدد بسیار کمتر از فعل و ضمیر است. ضمایر فارسی میانه نیز مانند واژه‌های دستوری تقریباً همیشه به‌صورت هزوارش نوشته می‌شوند. در فعل‌ها نیز هزوارش‌نویسی نقش مهمی دارد، حدود 16 درصد افعال با هر دو املای هزوارش و پهلوی، حدود 13 درصد فقط هزوارش و حدود 71 درصد فقط پهلوی نوشته‌ شده‌اند.
ج- تحلیل آماری افعال جعلی در متون فارسی میانه
فعل جعلی فعلی است که بر پایه اسم، صفت، قید، حروف اضافه و غیره ساخته‌ می‌شوند. پیکرۀ این مقاله مشتمل بر 46570 واژه است. افعال جعلی را از نظر ساخت، صرف و بسامد آنها در متون گوناگون بررسی شده است. پیکره این پژوهش شامل گزیده‌های زادسپرم، زند بهمن یسن، شهرستان‌های ایران، مینوی خرد، و 8 متن کوتاه و بلند اندرزی. در فارسی میانه ساخت فعل جعلی دو صورت متعدی و لازم دارد. برای ساخت فعل متعدی پسوند -ēn و برای ساخت فعل لازم پسوند -īh به انتهای اسم، صفت، قید و... اضافه می‌شود. در پیکره این پژوهش تعداد 50 ستاک فعل جعلی فهرست شد که در مجموع 137 بار در صرف‌ها و ساخت‌های مختلف به کار رفته است. این50 فعل شامل 32 فعل متعدی و 18 فعل لازم است. پایۀ ساخت آنها، اسم، صفت، ضمیر و قید بوده است. بیشترین ساختی که در مجموع از افعال جعلی در این متون به کار رفته است، 66 فعل از 137 فعل ساخت ماضی، 39 فعل مضارع، 16 مصدر و 16 مشتق (همگی از افعال متعدی) به کار رفته‌اند. بیشترین تعداد افعال جعلی در متن گزیده‌های زادسپرم به کار رفته است. از 137 فعل جعلی صرف‌شده، 97 مورد در گزیده‌های زادسپرم، 26 مورد در مینوی خرد به کار رفته است و تعداد افعال جعلی بقیه متون 3 مورد یا کمتر است. نسبت ستاک‌های افعال جعلی (50 فعل)، نسبت به کل ستاک‌ افعال شمارش‌شده در پیکره این پژوهش که 408 مورد است، 13 درصد است که نسبت قابل‌توجهی است. بالاترین نسبت در متن گزیده‌های زادسپرم مشاهده می‌شود که از 303 ستاک فعلی که در این متن به کار رفته 38 فعل جعلی است یعنی 5/12 درصد است. این تفاوت واضح در تعداد ساخت و کاربرد افعال جعلی نشان‌دهنده ویژگی زبانی متن گزیده‌های زادسپرم است که از متون تالیف‌شده بر اساس زند اوستا است و محتوای اصلی آن اساطیر و حوادث آغاز و پایان جهان است./پایان
تنظیم گزارش نادیا حاجی‌پور
کارشناس پژوهشی پژوهشکده زبان‌شناسی