ka | en

ავტორიზაცია

ქართული ენისათვის შეჯამების მოდელის აგება ღრმა სწავლების გამოყენებით

ავტორი: ანა შველიძე
საკვანძო სიტყვები: text summarization, BART, PEGASUS, Extractive/extractive Text Summarization, Agglutinative languages
ანოტაცია:

ნაშრომი შეეხება ქართულ ენაზე დაწერილი სტატიების, კვლევითი ნაშრომებისა თუ სხვა ტიპის დოკუმენტებში არსებული ტექსტებიდან შეჯამების გენერირებას ღრმა სწავლების მეთოდების გამოყენებით. ტექსტების შეჯამება გულისხმობს დოკუმენტში არსებული ტექსტიდან მნიშვნელოვანი ნაწილების ამოღებას და გაერთიანების მასში წარმოდგენილი ძირითადი ინფორმაციის დაკარგვის გარეშე. მისი შედეგი არის შემოკლებული ფორმით წარმოდგენილი ძირითადი ტექსტი. ქართული ენა მიეკუთვნება აგლუტინაციური ენების ჯგუფს, მას აქვს საკმაოდ რთული სტრუქტურა, რაც განსხვავებით სხვა ენებისაგან, გულისხმობს სიტყვაწარმოების და ფორმაცვალებადობის აფიქსაციის მეშვეობით განხორციელებას. ამ თავისებურების გათვალისწინებით მისი დამუშავებისთვის საჭირო ხდება ან არსებული მეთოდების და ალგორითმების მოდიფიცირება, ან საერთოდ ახალი მიდგომების ჩამოყალიბება. ამიტომ ნაშრომში წარმოდგენილი ამოცანის განხორციელებისას საჭირო გახდა არსებული მოდელების ადაპტირება ქართული ენისათვის. ეს კი თავისმხრივ მოითხოვდა დამატებით რესურსებსა და გამოცდილებას.აღსანიშნავია ის ფაქტი, რომ დღეისათვის არ არსებობს ქართული ენისათვის წინასწარ მომზადებული მოდელები, რომლებიც მოახდენენ ამ ამოცანის განხორციელებას. შეგვიძლია ვთქვათ, რომ ამ მოდელმა მოგვცა გარკვეული შედეგები, რომელიც იძლევა საფუძველს, რომ შესაძლებლობის ფარგლებში სისტემის კიდევ უფრო დახვეწის და განვითარების შედეგად მოხდეს სრულყოფილი რეზიუმეების შექმნა, რომელიც მოახდენს ქართულ ენაზე დაწერილი ნებისმიერი ტიპის ტექსტების სრულად დამუშავებას და შეჯამებას. ამ ნაშრომში განვიხილავ ტექსტების შემაჯამებელ სხვადასხვა სისტემებს, მეთოდოლოგიებსა და ინსტრუმენტებს,რომლებიც დაგვეხმარება უკეთ გავიგოთ, თუ როგორ წარმოიქმნება მოკლე შინაარსის ტექსტები გრძელი ტექსტებიდან მონაცემთა მეცნიერების მეთოდოლოგიების გამოყენებით. ვისაუბრებთ ვრცელი ტექსტური დოკუმენტების ლაკონური, თანმიმდევრული და გამართული რეზიუმეს აგების პროცესზე, რომელიც ხაზს უსვამს ტექსტის მნიშვნელოვან პუნქტებს .