توسط محققان كشور؛

پیکره بزرگ متنی حوزه پردازش زبان طبیعی در فارسی تهیه شد

پیکره بزرگ متنی حوزه پردازش زبان طبیعی در فارسی تهیه شد

به گزارش بست روید، محققان کشور موفق به تهیه مجموعه پاک سازی شده پیکره بزرگ متنی و قابل استفاده ای در حوزه پردازش زبان طبیعی فارسی شدند.



به گزارش بست روید به نقل از مهر، محمدرضا حسینیان مدیرعامل مرکز نوآوری یک شرکت دانش بنیان با اشاره به اینکه «پیکره متنی بزرگ» یکی از مهم ترین نیازهای آموزش مدلهای شبکه عصبی عمیق بخصوص شبکه های بر پایه ترنسفورمر است، اظهار داشت: استفاده از پیکره متنی برای زبان های با منابع کمتر مانند فارسی بیشتر احساس می شود.
وی اضافه کرد: بدین منظور تیمی از لابراتوار پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به همراه محققان مرکز نوآوری یک شرکت دانش بنیان برای این مسئله چاره پیکره ناب را معرفی کردند. این پیکره، مجموعه پاک سازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است.
حسینیان با اشاره به اینکه این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است، اظهار داشت: نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیزسازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانند نسخه تمیز شده پیکره خویش را بسازند.
وی اضافه کرد: مرکز نوآوری این شرکت دانش بنیان واقع در دانشگاه صنعتی شریف آماده است تا با کمک این پیکره و تأمین بستر مناسب، ایده های پژوهشی محققان را به عرصه حقیقت پرورش دهد.
در ادامه حسین صامتی عضو هیئت علمی دانشگاه صنعتی شریف و سرپرست لابراتوار پردازش زبان طبیعی و گفتار این دانشگاه اظهار داشت: از این پیکره میتوان برای روان کردن مدلهای زبانی، که در اصل برای زبان انگلیسی تهیه شده اند هم استفاده نمود. همچون این مدلهای زبانی میتوان به BERT، BART، T۵ و... اشاره نمود.


منبع:

1401/06/20
23:10:32
5.0 / 5
505
تگهای خبر: آموزش , دانشگاه , شركت , صنعت
این مطلب بست روید چطور بود؟
(1)
(0)

تازه ترین مطالب مرتبط
نظرات کاربران در مورد این مطلب بست روید
لطفا شما هم نظر دهید
= ۷ بعلاوه ۵
BestRoid اندروید