Kryesore

Për një korpus elektronik të hapur të gjuhës shqipe

09:00 - 25.11.21 Gazeta Shqiptare
GSH APP Download on Apple Store Get it on Google Play

Rami Memushaj – Në faqen e internetit të Akademisë sonë të Shkencave është hedhur për diskutim një material prej 43 faqesh me titull “Kuvendi i studimeve albanologjike”, me shënimin “koncept paraprak për diskutim”. Në këtë material, që mendojmë se ka nevojë për plotësime e saktësime, të bien në sy edhe disa vlerësime e pohime që nuk i qëndrojnë së vërtetës, të cilat duhen saktësuar. Duke marrë shkas nga ftesa për diskutim, po ndalemi në një prej këtyre pohimeve që gjendet në faqen 14 të dokumentit,  në pjesën ku flitet për përpunimin kompjuterik të materialit gjuhësor të shqipes. Lidhur me korpuset elektronike, aty thuhet: “Një nga korpuset më të pasur (duhet: të pasura!), me mbi 200 milionë fjalë dhe forma të shqipes, arkivuar në rrugë elektronike dhe me kërkime në terren, është krijuar nga studiues të Akademisë së Shkencave të Rusisë. Studiuesit shqiptarë në Universitetin e Kalabrisë dhe në atë të Sicilisë F. Altimari e M. Mandalà, kanë krijuar korpusin e arbërishtes së folur e të shkruar. Korpuse të ngjashme janë krijuar edhe nga studiues që punojnë individualisht, si B. Kabashi (Gjermani).”




Në këtë fragment nuk përmendet korpusi i autorëve të vjetër, nga Buzuku e deri në shek. XVIII, që është përgatitur nga një grup studiuesish nën udhëheqjen e prof. B. Demirajt në Universitetin “Ludwig Maximilians” të Mynihut.

Së dyti, pohimi se korpusi rus ka “200 milionë fjalë dhe forma të shqipes”, nuk është i saktë. Autori i pjesës së cituar më sipër, para se ta hidhte në letër këtë pohim të dëgjuar nga kush di  sekush, duhet ta verifikonte në internet. Aty, që në krye të faqes kryesore të “National Albanian Corpus” (Korpusi Kombëtar i Shqipes) do të mësonte të vërtetën. Në paragrafin e parë të kësaj faqeje thuhet: “Kjo është faqja kryesore e Ueb-it ku ndodhet Korpusi Kombëtar i Shqipes me 31,12 milion fjalë” (This is the main page of the website where the Albanian National Corpus (ANC) with 31.12 million words is located). Dhe këto janë të dhëna të ditëve të fundit, pasi faqja e korpusit përditësohet rregullisht. Pra, jo 200 milionë, por 31 milionë fjalëforma!

Me këtë vërejtje për madhësinë e korpusit rus nuk duam aspak të mohojmë vlerën e tij. Ai është korpusi i parë dhe i vetëm i hapur i shqipes, që vjen si një ndihmesë shumë e çmuar e studiuesve të Akademisë së Shkencave të Rusisë, të cilët e kanë hedhur në internet për t’u shfrytëzuar nga kushdo që merret me studimin e gjuhës shqipe. Jo vetëm kaq, por gjuhëtarët rusë kanë demonstruar me studime të vetat edhe se si mund të shfrytëzohet ky korpus për studime leksikore, semantike, morfologjike e sintaksore. Në kushtet kur kartoteka e Institutit të Gjuhësisë në Tiranë jo vetëm që është e varfër, me vetëm rreth 5,5 milionë skeda (dmth. fjalëforma), po edhe praktikisht e pashfrytëzyeshme, korpusi rus mbetet, tani për tani, e vetmja “kartotekë” elektronike e shqipes dhe shumë më e pasur se kartoteka jonë. Veçse gjuhëtarëve shqiptarë u duhet të mësojnë se si ta shfrytëzojnë këtë burim të pasur të dhënash për studimet e tyre.

Korpus me rreth 200 milionë fjalëforma (që tani po shkon në rreth 250 milionë) është ai i krijuar nga dr. Besim Kabashi (i ndihmuar me tekste kryesisht letrare nga autori i këtij shkrimi), specialist i gjuhësisë kompjuterike në katedrën e korpuseve dhe të gjuhësisë kompjuterike të Universitetit “Friedrich-Alexander” të Erlangen-Nyrenbergut në Gjermani. Por edhe ky korpus, ashtu si korpusi i arbërishtes së shkruar e të folur dhe korpuse të tjera të shqipes të krijuara nga shqiptarë ose të huaj, është i mundshëm për t’u përdorur vetëm nga një rreth shumë i ngushtë specialistësh. Ndryshe nga korpusi rus, që ka vetëm analizues morfologjik (që tregon se ç’pjesë ligjërate është një fjalë e fjalisë dhe kuptimet e saj gramatikore), korpusi i dr. Kabashit ka edhe analizues sintaksor (që tregon edhe se ç’gjymtyrë fjalie është një fjalë), gjë që e bën më të pasur me informacion dhe më bashkëkohor.

Akademitë tona të Shkencave dhe institutet e gjuhësisë nuk mund të mburren me miell hua. As fjalorë nuk mund të bëhen duke u mbështetur në një korpus me 30 milionë fjalë. Edhe për të hartuar një fjalor të mesëm të shqipes nevojitet një korpus shumë më i madh. P.sh., autorët e fjalorit “Collins Cobuild English Language Dictionary” (1987), që është fjalori i parë i anglishtes i mbështetur në një korpus elektronik, në librin që shoqëron botimin e parë të këtij fjalori me rreth 40-45 mijë fjalë, thonë se për hartimin e të cilit u shfrytëzua një korpus prej 200 milionësh fjalësh.

Pra, nevoja për një korpus kombëtar të shqipes, të shfrytëzueshëm prej kujtdo e ngado dhe të bërë nga shqiptarët e në trevat shqiptare, është bërë urdhëruese. Për këtë duhet një bërthamë shkencore me gjuhëtarë e informatikanë. Përvoja ruse tregon se për krijimin e korpusit të shqipes kanë bashkëpunuar 12 specialistë. Meqenëse tek ne asnjë institucion nuk i ka forcat për një sipërmarrje të tillë, këtij qëllimi mund t’i arrihet nëpërmjet bashkëpunimit të forcave shkencore që merren me gjuhën shqipe, kudo që të jenë ato.

Jemi shprehur disa herë në shtypin shkencor për ngritjen pranë ndonjërit prej instituteve të gjuhësisë apo akademive e një bërthame kërkimore me gjuhëtarë e informatikanë, të pajisur me bazën e nevojshme kompjuterike, të cilët, nën drejtimin e një specialisti të gjuhësisë kompjuterike, do të punonin për krijimin e një korpusi të hapur të gjuhës shqipe. Ky do të ishte një investim me vlerë të pallogaritshme për të ardhmen e gjuhësisë shqiptare.

 

 

 


Shfaq Komentet (0)

Shkruaj nje koment

Your email address will not be published. Required fields are marked *

* *

This site uses Akismet to reduce spam. Learn how your comment data is processed.