سخنرانی ایوانف با عنوان «پژوهش‌های بین‌رشته‌ای زیرساخت الکترونیکی برای زبان، میراث تاریخی و فرهنگی»

۱۳ اردیبهشت ۱۴۰۰ | ۱۳:۰۸ کد : ۲۰۷۷۰ آخرین عناوین

تعداد بازدید:۱۸۲۹

پژوهش‌های بین‌رشته‌ای زیرساخت الکترونیکی برای زبان، میراث تاریخی و فرهنگی: یک مطالعه موردی برای زبان بلغاری Interdisciplinary Research E-Infrastructure for Language, Historical and Cultural Heritage: A Case Study for Bulgarian Prof. Dr. Kiril Ivanov Simov ایوانف سیموف

سخنرانی ایوانف با عنوان «پژوهش‌های بین‌رشته‌ای زیرساخت الکترونیکی برای زبان، میراث تاریخی و فرهنگی»

پژوهش‌های بین رشته‌ای زیرساخت الکترونیکی برای زبان، میراث تاریخی و فرهنگی: یک مطالعه موردی برای زبان بلغاری

Interdisciplinary Research E-Infrastructure for Language, Historical and Cultural Heritage: A Case Study for Bulgarian

Prof. Dr. Kiril Ivanov Simov

کیریل ایوانف سیموف

تاریخ:May 9, 2021

یک‌شنبه،19 اردیبهشت 1400

ساعت: 11الی 13 به وقت تهران

لینک ورود رایگان:

https://webinar.ihcs.ac.ir/b/ihc-vcm-rav-5yo

چکیده‌ی سخنرانی:

در این سخنرانی گام‌های اولیه در اجرای زیرساخت‌های تحقیقاتی برای حمایت از پژوهش‌های علوم اجتماعی و انسانی (SSH) ارائه خواهد شد. نیاز است مدیریت حجم زیادی از اطلاعات متنوع حاصل از پژوهش‌ها ازجمله انواع مختلف متون (ژانرهای مختلف، دامنه‌های متن‌ها، و دوره‌های زمانی)، مدل‌سازی‌های انجام‌شده، نمایش و توصیف شاهکارهای هنری و غیره انجام پذیرد. اصلی‌ترین عامل وحدت این داده‌ها فراداده‌های مربوط به آنها است، ولی از این طریق اطلاعات معمولی بسیار کمی را می‌توان بازنمایی کرد. از سویی دیگر، داده‌ها و ابزارهای بسیار خاص و ویژه برای مدیریت آن نیاز است مانند ایجاد این داده‌ها و ابزارها (دیجیتال سازی) ، بازنمایی، تعمیم، جستجو و غیره.

ما کار شناسایی اطلاعات مورد نظر و مشاهده همزمان آن در همان بافت که بافت‌سازی اطلاعات در مجموعه داده‌های مختلف نامیده‌ایم را به‌عنوان یکی از مراحل پژوهش در حوزه علوم اجتماعی و انسانی در نظر گرفته‌ایم. این بافت‌سازی در قالب گراف دانش اجرا می‌شود که توصیف افراد، وقایع، موجودیت‌های جغرافیایی، اشیا، اسناد، نویسندگان، نظرات و غیره را به یکدیگر پیوند می‌زند که شامل این اطلاعات است:

(1) افراد شامل داده‌های بیوگرافی - وقایع در زندگی آنها، نقش آنها؛

(2) موجودیت‌های جغرافیایی شامل تاریخچه شهرها و غیره؛

(3) اشیا شامل ایجاد، مواد، شکل، کشف؛

(4) رویدادها شامل مکان، زمان، شرکت‌کنندگان، ارتباط با سایر رویدادها؛

(5) اسناد شامل نویسندگان، محتوا، نظرات درباره مردم، رویدادها.

ایجاد این گراف دانش به ادغام منابع و فن آوری‌های مختلفی نیاز است ازجمله هستی‌شناسی، گراف‌های دانش موجود، منابع زبانی (مانند پیکره‌های حاوی نشانه‌گذاری معنایی، واژگان معنایی (مانند وردنت)، فهرست اصطلاحات، فن‌آوری‌های زبان)، ترتیب فرایندهای ابهام زدایی معنایی واژه‌ها، بازشناسایی و تعیین موجودیت‌های نامدار و استخراج دانش از متن. در این سخنرانی ما در مورد مشکلات ادغام منابع موجود و طراحی منابع جدید مورنیاز بحث خواهیم کرد. در پایان، به اجمال ابزاری که برای تهیه گراف دانش و فرایند زبانی نمایه‌سازی اسناد کاربرد دارد را نمایش خواهیم داد.

The lecture will present the first steps in implementation of a research infrastructure to support the research within Social Sciences and Humanities (SSH). It is needed to provide management of information of a huge variety of research objects including different kinds of texts (various genres, domains, time periods), artefacts models, art masterpieces representations and descriptions, etc. The top unification of these data is the metadata, but very little common information can be represented in this way. On the other end of the scale are the very specific data and tools for its management like creation (digitization), representation, generalization, search, etc.

We consider, as one of the steps of doing research within SSH, the identification of information of interest and its simultaneous observation within the same context, called contextualization of the information in different datasets. The contextualization is implemented as a knowledge graph which interlinks the descriptions of people, events, geographical entities, objects, documents, authors, opinions, etc as follows:

(1) People: biographical data – events in their life, their roles;

(2) Geographical entities: history of cities, etc;

(3) Objects: creation, materials, form, discovery;

(4) Events: place, time, participants, connection to other events;

(5) Documents: authors, contents, opinion about peoples, events.

The creation of such a knowledge graph requires integration of various resources and technologies including ontologies and existing knowledge graphs, language resources – semantically annotated corpora, semantic lexicons (WordNets), terminological lexicons, language technologies – language pipelines for word sense disambiguation, Named Entities Recognition and Identification, extraction of knowledge from text.

In this talk we will discuss the problems with the integration of the existing resources, and the design of new necessary resources. At the end, we will present briefly a tool for usage of the knowledge graph and the language pipeline for indexing of documents.