Mila urte igaro dira Donemiliagan abade batek hainbat glosa idatzi zituenetik, latinez idazten ari zen testua azaltzeko helburuarekin. Jçioq dugu idatzi zuen orrialde batean. Guec ajutu eç dugu beste batean. Hizkuntza erromantze batean (gaztelania edo aragoiera den eztabaidan dago) eta euskaraz idatzi zituen ohar horiek. Euskarazko testu ziurrik zaharrena da, eta ez dakigu egilea nafarra, arabarra edo errioxarra ote zen.

Mila urte igaro dira eta euskarak aldaketa asko izan ditu geroztik. Egunotan 50 urte beteko dira Arantzazun Euskara Batua sortuko zuen Batzarra egin zenetik. Hiztegiak sortu ditugu. Entziklopediak eratu ditugu. Euskarazko zientzia eta teknologia tresnak ditugu. Euskarazko irratiak eta telebistak sortu dira. Euskara Ilargira iristeko prest dago ere.

Wikipedia munduko Entziklopediarik handiena da, eta euskarazko webgunerik bisitatuena. Wikipediak badu senide bat, sei urte bete dituen Wikidata. Bertan, orain arte, kontzeptuak gehitzeko aukera zegoen. Ez da lan makala egindakoa, sei urte hauetan 48.000.000 kontzeptu baino gehiago sortu dira datu-base erraldoi horretan, eta euskarazko Wikipedian horien erabilpen masiboa egiten dugu. Orain arte, baina, kontzeptuak igo ditugu eta ez hitzak, esamoldeak edo hitzen formak.

2013an bertan sortu zen lehenengo eztabaida: kontzeptuak definitzeko gai baginen, hitzak ere lexikografikoki definitzeko aukera izan beharko genuke. Baina ez zen hain erraza, eta 5 urteko eztabaida izan da gaiaren inguruan. 2016an lehen garapen plana egin zen, bi urtez softwarea prestatzeko erronkarekin. Eta eztabaidak jarraitu du: nola heldu behar zaio hizkuntza guztietako hitz guztiak bildu, antolatu eta lotzeko erronkari? Gaur, 2018ko maiatzaren 23an, lehenengo hitzak igo dira Wikidatara, eta dagoeneko komunitatea hasi da gehiago gehitzen.

Orain urtebete eskaera bat egin ziguten: posible al da euskarazko “Easter Egg” bat sortzea? Hauek txisteak izaten dira, letrak eta hitzak batzeko balio dutenak. Badira batzuk bertan. Adibidez L314 (L letrak “lexema” esan nahi du) katalanezko pi hitza da. L42 ingelesezko answer da (txistea ulertzeko pista Q42 itemean dago). L24601 frantsesezko condamné hitza da (galdetu Jean Valjeani). Euskaraz ere lehen hitza aukeratu eta Easter Egg gisako sorpresatxo bat prestatzea zen helburua. Eta zein hitz hobea izioki baino? Euskarazko lehen hitz idatzi izan bazen, hemen ere hala izan beharko litzateke, ezta? Baina sorpresaren gakoa hitzari zenbaki bat lotzea zen. LEET hizkera erabili dugu horretarako. Hizkera hau 1980ko hamarkadan garatu zen, Interneten hasieran, eta zenbakiak eta letrak nahastearen ondorioa zen. Horrela e letra 3gatik alda zit3k33n, edo a letra 4 b4t3ng4t1k. Izioki hitzan erraza zen 1710k1 idaztea, baina k hori ere ordezkatu behar zenez, 8 jartzea pentsatu genuen. L171081 da lehen lexema, euskaraz igotako lehen kodea, lehen hitz haren baliokidea.

Eta orain zer?

Oraindik probetan gaude. Beste hitz batzuk igo daitezke, adibidez, abade. Baina hizkuntza guztietako hitz guztietako forma guztiak igotzeak baditu bere arazoak. Adibidez, esan dezakegu zein den hitz baten forma singular eta plurala, baina softwarea oraindik ez dago prest mugagabea adierazteko. Laster forma (F letrarekin adieraziko dira) guztiak (deklinazioak, adibidez) automatikoki sortzeko aukera egongo da, baita bilaketak egin eta hizkuntzen arteko loturak jartzeko.

Formez gain, zentzuak ere adierazteko aukera egongo da (S letrarekin adieraziko dira). Eta erabilera adibideak jartzeko aukera. Itzulpen automatikoak egiten dituzten sistemek aukera bat izango dute hitzen baliokideak bilatzeko, eta hitzen esanahiak ulertzeko.

Eta laster ere etimologiak zehazteko aukera egongo da, gaur egun Wiktionaryn dagoen bezala. Gaur egun Etytree deitzen den tresnak dituen aukerak masiboki erabili ahal izango ditugu. Eta batek daki zer beste aukera izango ditugun etorkizunean. Hau hasi besterik ez da egin… garai interesgarriak bizi ditugu!

 

Pasa den asteburuan  Wikimedia Hackathon izan da Bartzelonan, asteburu batez Wikipedia hobetzeko tresnak helburu duen bilera. Euskal ordezkaritzan bost izan ginen eta hauek izan ziren gure ekarpen nagusiak:

Igor Leturia eta Galder Gonzalez, Hackatoian

Igor Leturiak saio berezi bat antolatu zuen ostiralean, Elhuyar Fundazioarekin batera lantzen ari garen proiektu bat azalduz: Wikispeech: Text-To-Speech technology for accessibility.

Elhuyar Fundazioa eta EWKEren artean Wikipediako artikuluak “entzuteko” aukera asmatu dute Suediako Wikilariekin, eta euskaraz ere instalatzeko lanean ari gara. Oraindik ere ezingo da entzun, hainbat software-proba pasa behar baititu martxan jarri aurretik. Besteak beste, laburdurak ondo irakurtzeko sistema bat eta irakurketa pausatzeko botoia gehitu ditu Leturiak egun hauetan.

Galder Gonzalez eta Amador Álvarez, txantiloi automatikoak lantzen

Galder Gonzalezek Amador Álvarez katalanarekin saio berezi bat antolatu zuen Wikipediako infotaula automatikoei buruz. “Supercharge your wiki: Wikidata-powered infoboxes“. Infotaula horiek zelan definitzen ari diren azaldu zuten. Lehen eskuz adierazi behar ziren propietate guztiak, orain Wikidatatik hartzen dira datu guzti horiek automatikoki. Bertan izan ziren Wikidatako hainbat arduradun, eta sorpresa ederra izan zen eurentzat katalanek eta euskaldunok garatu dugun puntako sistema hau.

Berriki sortutako Wikitekan ere lan egin genuen, aurretik Euskal Herrian gai honi buruz hizketan egon zen Carles Paredesekin. Sistema hobetu, eta falta ziren hainbat gauza instalatu genituen.

Maite Urra-k eta Oscar Sainz-ek Euskal Wikipediako artikuluen kalitatea aztertzeko laguntza teknologikoak aztertu dituzte ORES sistemarekin, urtean zehar ibili dira hori prestatzen Montse Maritxalar irakaslearekin. Hackatoian Galder Gonzalezek eta Kepa Sarasolak lagundu zieten, kalitate handiko 800 artikulu identifikatu zituzten eta 3.000 zirriborro. Editoreek artikulu batzuetan ezartzen dituzten txantiloiak ere baliagarriak izan daitezke kalitatea etiketatzeko ({{zuzendu}}, {{zirriborro}}, {{wikitu}}, {{erreferentzia falta}}{{zaharkitua}}…). Xuxen pasata, artikulu batek zenbat errore ortografiko dituen jakiteak ere laguntzen du kalitatea neurtzen. Guztira 20 irizpide kontuan hartuko dira.

Maite Urra, Oscar Sainz eta Kepa Sarasola, Wikidatako gelan ORESen lanean.

Egindako lanetik abiatuta, Wikimediako ORES sistemaren arduraduna den Aaron Halfakerrek 400 artikulutako lagin bat prestatu zuen beraien kalitatea etiketa genezan eta gero ikasketa automatiko bidez artikuluen kalitate maila aurreikusi ahal izateko: “Train/test article quality model for euwiki“.

Kepa Sarasolak Daniel Kinzler-en laguntzarekin Euskal Wikipedian eta Espainierazko Wikipedian dauden artikuluen tituluekin corpus elebidun bat sortu zuen (Wikipedia_tituluak_es_eu_2018). Hau da hasierako corpus gordina lortzeko exekutatu zuten sql galdera:

sql eswiki 'select page_title as es, ll_title as eu from langlinks join page on page_id = ll_from where ll_lang = "eu" and page_namespace = 0' > es-eu.txt

Honi esker itzulpen automatiko sistemak hobetzeko aukera bat zabalduko da ikaskuntza automatikoko sistematan.

Matxin itzultzaile automatikoa da gaztelania > euskara itzulpenak egiteko dagoen tresnarik onena. Urteetako garapena izan du IXA taldea eta Elhuyarren aldetik, eta perfektua ez bada ere (itzultzaile automatikoak ez dira perfektuak) emaitza txukunak ematen ditu testuen itzulpenean. Ia urte bateko lanaren ostean, Wikimediak sortutako Content Translation tresnan barneratu da gaur, eta dagoeneko prest dago itzulpenak egiteko.

Gehiago irakurri

Irudia: Frank Vincentz, GFDL lizentzia

Azken aldian, fakultatez fakultate nabil irakasleekin biltzen Wikipediako Hezkuntza Programa aurkezten. Irakasle askok galdera bera egiten dute: zer da nire eremuan falta dena? Ez da galdera erraza, zer dakigun baino zailago delako jakitea zer ez dakigun. Zorionez, baditugu bi tresna lan hau errazteko: Petscan eta Massviews. Lehenengoak bilaketak egitea errazten digu, artikuluen zerrendak irizpide ezberdinen arabera eginez. Bigarrenak, ordea, artikulu zerrenda batean zer den bisitatuena esaten digu. Biak batera erabilita, gure eremuan falta dena beste hizkuntza batean dituen bisita kopuruaren arabera antola dezakegu.

Gehiago irakurri

Wikipediaren inguruan sortzen diren programak kudeatzeko tresna da “Dashboard“. Berarekin editatoiak edo ikastetxeetan egiten diren lanak kudeatzeko aukera dago, artikuluak esleitu eta gainbegiratzeko erraztasunak emanez. Ingelesezko artikuluen jarraipena egiteko WhoColor izeneko tresna erabiltzen du sistema honek. Orain euskaraz izango dugu, ingelesa ez den beste hizkuntza batean instalatzen lehenengoa.

Gehiago irakurri

Euskarazko Wikipedian artikuluak hobetzeko kartografia osatzen egon gara hasieratik bertatik. OpenStreetMapen ere milaka boluntariok euren ingurunearen mapak osatzeko lana hartu dute, mapa libre eta osatuak eskaintzen. Orain Kartographer luzapenari esker Euskarazko Wikipediako artikuluetan OSMko mapa dinamiko eta interaktiboak txertatzeko aukera dugu. Wikidatatik eskuratutako datuekin osatutako txantiloiekin batera, aurrerapauso handia artikuluak osatzeko lana errazago eta aberatasagoa egiteko garaian.

Gehiago irakurri