Egunean Behin mugikorreko joko-aplikazioan euskarazko Wikipediako datu eta irudi askoren galderak agertzen direla badakite erabiltzaileek. Erantzun asmatuen zerrenda ematerakoan ere, galdera askoren argipena ikusteko Wikipediako esteka klikatzen ahal da. Jokoaren gakoetako bat izanik milaka galdera behar direla, Wikipediako datuak erabili ahal izatea funtsezkoa zaio aplikazioaren sortzaileei, CodeSyntax enpresari. Euskarazko Wikipedia ez balego, askoz zailagoa izango zen Egunean Behin programatu ahal izatea eta, dudarik gabe, askoz tristeagoa izango zen jokatzea ere. Pertsonalki, hau sinatzen duena wikipedista intermitentea da, EWKE elkarte honetako bazkide, eta CodeSyntaxeko lankidea, eta hortaz, pozik dago komunitateari azalpen batzuk emateko aukerarekin.

CodeSyntax-etik zenbait metodorekin ustiatu dugu Wikipediako informazioa, baina, Euskal Wikilarien Elkarteko Galder Gonzalez lagunaren pista batzuk tarteko, batez ere Wikidataren ustiaketan ari gara zentratzen azken aldian.

Wikidata baliatzeko, https://query.wikidata.org zerbitzua erabiltzen dugu. Bertan adibide batzuk agertzen dira, eta askoz gehiago ingelesez osatutako biltegi honetan. https://www.wikidata.org/wiki/Wikidata:Request_a_query

Bilaketa bat egindakoan, gainera, helbide labur bat eraiki dezakezu, eta horrek gogoratzeko balio dizu, bilaketa gordeta izateaz gain haren gainean beste batzuk bilatzeko. Hona adibide bat, https://w.wiki/4SB zeinak ematen dizkigun Euskal Herrian kokatutako udaletxeen irudiak (aldi berean berezko artikulua dutenak). Egin klik URL horretan, eta eman Play botoi urdinari. Ondoren, emaitzak agertzen dira, eta funtzio barra bat.

Barra honetan ezkerreko begian klikaturik, emaitzen bista desberdinak lortzen dira. Download emanik, jaitsi daitezke emaitzak, eta horra, erraz-erraz, Egunean Behin-erako galdera sorta bat: “Nongoa da udaletxe hau? <irudia> | Herria”. Galde-erantzun zuzenak behintzat, bertan leudeke; hori bai, programazio pixkat gehiago gehitu behar da erantzun okerrak sortzeko.

Udaletxeen eskaera horri begiratu diezaiogun apur bat:

Batetik, lerro luze batean Euskal Herriko eremu geografikoa definitzen da, formula baten bidez (zazpi herrialdetako estatu independente bat ez garen artean, hala beharko du), eta azpimarratu dut halaber Udaletxe bat (eraikin mota) definitzen duen Wikidata elementua. Q543654 beste elementu batzuekin ordezkatu, eta beste hainbat argazki-artikulu lortuko dituzu. Adibidez, Q16970 elementua idatziz gero, dozenaka eliza. Q199451 idatziz gero, seguruenik batere ez, pagoda bat definitzen duen wikidata elementua baita.

Beste bilaketa bat, https://w.wiki/4TT.

Kasu honetan, pertsonen gaineko bilaketa bat da, epe jakin baten artean jaioak (1960ko hamarkadan), genero propietatean (P21) emakumezko direnak (Q6651072 aldagaia) eta hiztun propietatean (P1412) euskara (Q8752) dakitenak. Era berean, emaitzak ordena jakin batean ordenatzeko irizpide bat eskatzen da. Bilaketa zehatz honen antzekoak erabili ditugu pertsonaien adinak galdetzeko Egunean Behin jokoan. Euskaldunekin egin dugu batik bat, eta bilaketa bereiziak egin ditugu gizonezko eta emakumezkoetan, kopuru berdinak izateko, 100 gizon, 100 emakumezko, berdintasunean saiatzeko.

Hortaz, horrela arakatzen dugu Wikidata, Query zerbitzuaren bidez… Esplorazioa, esan dezagun. Izatez, query horietako eskaerak Wikidatatik zuzenean ateratzeko Pywikibot Python programa erabiltzen dute nire lankide informatikariek. Hemen adibide bat dokumentatuta (honetan utziko dut hau, beste azalpen teknikoago baterako gaia da).

Wikidata arakatzea ez da Egunean Behin-eko galderak sortzeko metodo bakarra, baina bai interesgarrienetako bat. Egun hauetan lehiaketa abiatu dugu (martxoaren 15a arte) programazio bidez galde-erantzun sortak egiteko, eta azalpenak eman ditugu ideia eta adibideekin, parte-hartzaileak animatzeko: horietan bereziki aipatu dugu Wikidata eta Euskarazko Wikipedia. Inor animatzekotan:

Bestalde, kontuan izan beti: Wikidata ez dago betea berez, airetik datozen datuekin. Batzuetan kargatu dira datubase osoak beste iturri batzuetakoak, baina Wikipedia bezala, Wikidata osatzen da erabiltzaileok ezagutza dokumentatua kargatzen dugularik. Wikipedia bisitatzen duzuelarik, adi aldameneko ikono hauei:

Pagodaren artikulua hemen duzu euskaraz, baina ikonoan klikatuz iritsiko zara Wikidatako Q199451 elementura, zeinak definitzen duen zer den pagoda bat.

Hemen duzue beste orri bat, Karmele Jaio idazlearena. Berak ere badu Wikidata lotura, eta betea du hiztun propietatean (P1412) euskara dakiela… baina, adibidez, ez ote daki beste hizkuntzarik? bat edo beste susmatzen dugu baietz… Dakienak Jaiori buruz gehiago, bete beza https://www.wikidata.org/wiki/Q12261321 orri hori datuarekin! Eskerrik asko.

Gehiago irakurri

Wikipedia lan kolektibo bat da, askoren artean idatzia, garatua, zuzendua, eraldatua eta eztabaidatua. Artikulu batzuek ehunka pertsonen lana dute atzetik, beste batzuetan pertsona bakar batek edo pare batek hartu dute parte. Wikipedian aritzen diren pertsonek modu boluntarioan idazten dute, eta artikulu baten egiletza begiratzea posible bada ere, ez da izenik agertzen artikuluaren hasieran edo amaieran, beste lan batzuetan ohikoa den bezala.

Orain tresna berri batek aukera ematen digu testu baten zati bat nork idatzi duen begiratzeko, baita wikilari horrek artikuluaren zein ehunekoa idatzi duen begiratzeko ere.

Wikimedia Fundazioak, wikilariek egiten dituzten eskarien ondorioz, “Nork idatzi du hori?” izeneko Firefox eta Chrome luzapena sortu du, artikulu baten egiletza ezagutzeko aukera ematen diguna.

Luzapena instalatu ostean, “Nork idatzi du hori?” jartzen duen botoi bat agertuko da zure Wikipediako menuan, ezkerrean.

Artikulu batean gaudenean nahikoa izango da botoi horri ematea, datuak kargatzeko denbora itxoitea eta artikuluaren gainean klik eginez informazioa eskuratu ahal izango dugu.

Sistema honek “WhoColor” teknologia erabiltzen du, momentuz bost hizkuntzatan baino ez dagoena eskuragarri, tartean euskaraz. Tresna horri buruz hitz egin genizuen WhoColor, talde-lanak ebaluatzeko tresna, euskaraz artikuluan.

Gehiago irakurri

Euskal Wikilarien Kultur elkartearen eta Elhuyarren lankidetzari esker, Wikidatan dauden hizkuntza guztien artean, euskara seigarrena da hitz-erroen (lexemen) kopuruan, bigarrena hitz-formen kopuruan (hitz-erro bakoitza deklinatuta sortzen diren forma guztiak kontuan hartuta), eta hizkuntza nagusia da esanahi-kopuruari dagokionez, ingelesaren, gaztelaniaren eta frantsesaren aurretik, besteak beste.

Gehiago irakurri

Iaz hezkuntza programa martxan jarri genuenean erronka handi bat jarri genuen mahai gainean: 12-16 urteko ikasleek egunero lantzen dituzten gaiak euskarazko Wikipedian ahalik eta hobeto egotea. Zerrenda bat osatu genuen, eta 1.700 gai inguru erauztea lortu genuen. Baina gai horiek elkarren artean nola lotzen diren, ezagutza bera nola saretzen den, eta gure proiektutik kanpo zein artikulu diren garrantzitsu jakitea ariketa zaila zen. Horregatik jo genuen Talaios Kooperatibako Tanit garapen eta esperimentazio laborategira: gaien arteko loturak, hutsuneak eta ezagutza bisualizatu nahi genituen. Esfortzu horren ondorioz jaio da Zeres, artikuluen loturen azterketa egitea ahalbidetzen duen tresna.

Gehiago irakurri

Mila urte igaro dira Donemiliagan abade batek hainbat glosa idatzi zituenetik, latinez idazten ari zen testua azaltzeko helburuarekin. Jçioq dugu idatzi zuen orrialde batean. Guec ajutu eç dugu beste batean. Hizkuntza erromantze batean (gaztelania edo aragoiera den eztabaidan dago) eta euskaraz idatzi zituen ohar horiek. Euskarazko testu ziurrik zaharrena da, eta ez dakigu egilea nafarra, arabarra edo errioxarra ote zen.

Mila urte igaro dira eta euskarak aldaketa asko izan ditu geroztik. Egunotan 50 urte beteko dira Arantzazun Euskara Batua sortuko zuen Batzarra egin zenetik. Hiztegiak sortu ditugu. Entziklopediak eratu ditugu. Euskarazko zientzia eta teknologia tresnak ditugu. Euskarazko irratiak eta telebistak sortu dira. Euskara Ilargira iristeko prest dago ere.

Wikipedia munduko Entziklopediarik handiena da, eta euskarazko webgunerik bisitatuena. Wikipediak badu senide bat, sei urte bete dituen Wikidata. Bertan, orain arte, kontzeptuak gehitzeko aukera zegoen. Ez da lan makala egindakoa, sei urte hauetan 48.000.000 kontzeptu baino gehiago sortu dira datu-base erraldoi horretan, eta euskarazko Wikipedian horien erabilpen masiboa egiten dugu. Orain arte, baina, kontzeptuak igo ditugu eta ez hitzak, esamoldeak edo hitzen formak.

2013an bertan sortu zen lehenengo eztabaida: kontzeptuak definitzeko gai baginen, hitzak ere lexikografikoki definitzeko aukera izan beharko genuke. Baina ez zen hain erraza, eta 5 urteko eztabaida izan da gaiaren inguruan. 2016an lehen garapen plana egin zen, bi urtez softwarea prestatzeko erronkarekin. Eta eztabaidak jarraitu du: nola heldu behar zaio hizkuntza guztietako hitz guztiak bildu, antolatu eta lotzeko erronkari? Gaur, 2018ko maiatzaren 23an, lehenengo hitzak igo dira Wikidatara, eta dagoeneko komunitatea hasi da gehiago gehitzen.

Orain urtebete eskaera bat egin ziguten: posible al da euskarazko “Easter Egg” bat sortzea? Hauek txisteak izaten dira, letrak eta hitzak batzeko balio dutenak. Badira batzuk bertan. Adibidez L314 (L letrak “lexema” esan nahi du) katalanezko pi hitza da. L42 ingelesezko answer da (txistea ulertzeko pista Q42 itemean dago). L24601 frantsesezko condamné hitza da (galdetu Jean Valjeani). Euskaraz ere lehen hitza aukeratu eta Easter Egg gisako sorpresatxo bat prestatzea zen helburua. Eta zein hitz hobea izioki baino? Euskarazko lehen hitz idatzi izan bazen, hemen ere hala izan beharko litzateke, ezta? Baina sorpresaren gakoa hitzari zenbaki bat lotzea zen. LEET hizkera erabili dugu horretarako. Hizkera hau 1980ko hamarkadan garatu zen, Interneten hasieran, eta zenbakiak eta letrak nahastearen ondorioa zen. Horrela e letra 3gatik alda zit3k33n, edo a letra 4 b4t3ng4t1k. Izioki hitzan erraza zen 1710k1 idaztea, baina k hori ere ordezkatu behar zenez, 8 jartzea pentsatu genuen. L171081 da lehen lexema, euskaraz igotako lehen kodea, lehen hitz haren baliokidea.

Eta orain zer?

Oraindik probetan gaude. Beste hitz batzuk igo daitezke, adibidez, abade. Baina hizkuntza guztietako hitz guztietako forma guztiak igotzeak baditu bere arazoak. Adibidez, esan dezakegu zein den hitz baten forma singular eta plurala, baina softwarea oraindik ez dago prest mugagabea adierazteko. Laster forma (F letrarekin adieraziko dira) guztiak (deklinazioak, adibidez) automatikoki sortzeko aukera egongo da, baita bilaketak egin eta hizkuntzen arteko loturak jartzeko.

Formez gain, zentzuak ere adierazteko aukera egongo da (S letrarekin adieraziko dira). Eta erabilera adibideak jartzeko aukera. Itzulpen automatikoak egiten dituzten sistemek aukera bat izango dute hitzen baliokideak bilatzeko, eta hitzen esanahiak ulertzeko.

Eta laster ere etimologiak zehazteko aukera egongo da, gaur egun Wiktionaryn dagoen bezala. Gaur egun Etytree deitzen den tresnak dituen aukerak masiboki erabili ahal izango ditugu. Eta batek daki zer beste aukera izango ditugun etorkizunean. Hau hasi besterik ez da egin… garai interesgarriak bizi ditugu!

 

Gehiago irakurri

Pasa den asteburuan  Wikimedia Hackathon izan da Bartzelonan, asteburu batez Wikipedia hobetzeko tresnak helburu duen bilera. Euskal ordezkaritzan bost izan ginen eta hauek izan ziren gure ekarpen nagusiak:

Igor Leturia eta Galder Gonzalez, Hackatoian

Igor Leturiak saio berezi bat antolatu zuen ostiralean, Elhuyar Fundazioarekin batera lantzen ari garen proiektu bat azalduz: Wikispeech: Text-To-Speech technology for accessibility.

Elhuyar Fundazioa eta EWKEren artean Wikipediako artikuluak “entzuteko” aukera asmatu dute Suediako Wikilariekin, eta euskaraz ere instalatzeko lanean ari gara. Oraindik ere ezingo da entzun, hainbat software-proba pasa behar baititu martxan jarri aurretik. Besteak beste, laburdurak ondo irakurtzeko sistema bat eta irakurketa pausatzeko botoia gehitu ditu Leturiak egun hauetan.

Galder Gonzalez eta Amador Álvarez, txantiloi automatikoak lantzen

Galder Gonzalezek Amador Álvarez katalanarekin saio berezi bat antolatu zuen Wikipediako infotaula automatikoei buruz. “Supercharge your wiki: Wikidata-powered infoboxes“. Infotaula horiek zelan definitzen ari diren azaldu zuten. Lehen eskuz adierazi behar ziren propietate guztiak, orain Wikidatatik hartzen dira datu guzti horiek automatikoki. Bertan izan ziren Wikidatako hainbat arduradun, eta sorpresa ederra izan zen eurentzat katalanek eta euskaldunok garatu dugun puntako sistema hau.

Berriki sortutako Wikitekan ere lan egin genuen, aurretik Euskal Herrian gai honi buruz hizketan egon zen Carles Paredesekin. Sistema hobetu, eta falta ziren hainbat gauza instalatu genituen.

Maite Urra-k eta Oscar Sainz-ek Euskal Wikipediako artikuluen kalitatea aztertzeko laguntza teknologikoak aztertu dituzte ORES sistemarekin, urtean zehar ibili dira hori prestatzen Montse Maritxalar irakaslearekin. Hackatoian Galder Gonzalezek eta Kepa Sarasolak lagundu zieten, kalitate handiko 800 artikulu identifikatu zituzten eta 3.000 zirriborro. Editoreek artikulu batzuetan ezartzen dituzten txantiloiak ere baliagarriak izan daitezke kalitatea etiketatzeko ({{zuzendu}}, {{zirriborro}}, {{wikitu}}, {{erreferentzia falta}}{{zaharkitua}}…). Xuxen pasata, artikulu batek zenbat errore ortografiko dituen jakiteak ere laguntzen du kalitatea neurtzen. Guztira 20 irizpide kontuan hartuko dira.

Maite Urra, Oscar Sainz eta Kepa Sarasola, Wikidatako gelan ORESen lanean.

Egindako lanetik abiatuta, Wikimediako ORES sistemaren arduraduna den Aaron Halfakerrek 400 artikulutako lagin bat prestatu zuen beraien kalitatea etiketa genezan eta gero ikasketa automatiko bidez artikuluen kalitate maila aurreikusi ahal izateko: “Train/test article quality model for euwiki“.

Kepa Sarasolak Daniel Kinzler-en laguntzarekin Euskal Wikipedian eta Espainierazko Wikipedian dauden artikuluen tituluekin corpus elebidun bat sortu zuen (Wikipedia_tituluak_es_eu_2018). Hau da hasierako corpus gordina lortzeko exekutatu zuten sql galdera:

sql eswiki 'select page_title as es, ll_title as eu from langlinks join page on page_id = ll_from where ll_lang = "eu" and page_namespace = 0' > es-eu.txt

Honi esker itzulpen automatiko sistemak hobetzeko aukera bat zabalduko da ikaskuntza automatikoko sistematan.

Gehiago irakurri

Matxin itzultzaile automatikoa da gaztelania > euskara itzulpenak egiteko dagoen tresnarik onena. Urteetako garapena izan du IXA taldea eta Elhuyarren aldetik, eta perfektua ez bada ere (itzultzaile automatikoak ez dira perfektuak) emaitza txukunak ematen ditu testuen itzulpenean. Ia urte bateko lanaren ostean, Wikimediak sortutako Content Translation tresnan barneratu da gaur, eta dagoeneko prest dago itzulpenak egiteko.

Gehiago irakurri

Irudia: Frank Vincentz, GFDL lizentzia

Azken aldian, fakultatez fakultate nabil irakasleekin biltzen Wikipediako Hezkuntza Programa aurkezten. Irakasle askok galdera bera egiten dute: zer da nire eremuan falta dena? Ez da galdera erraza, zer dakigun baino zailago delako jakitea zer ez dakigun. Zorionez, baditugu bi tresna lan hau errazteko: Petscan eta Massviews. Lehenengoak bilaketak egitea errazten digu, artikuluen zerrendak irizpide ezberdinen arabera eginez. Bigarrenak, ordea, artikulu zerrenda batean zer den bisitatuena esaten digu. Biak batera erabilita, gure eremuan falta dena beste hizkuntza batean dituen bisita kopuruaren arabera antola dezakegu.

Gehiago irakurri

Wikipediaren inguruan sortzen diren programak kudeatzeko tresna da “Dashboard“. Berarekin editatoiak edo ikastetxeetan egiten diren lanak kudeatzeko aukera dago, artikuluak esleitu eta gainbegiratzeko erraztasunak emanez. Ingelesezko artikuluen jarraipena egiteko WhoColor izeneko tresna erabiltzen du sistema honek. Orain euskaraz izango dugu, ingelesa ez den beste hizkuntza batean instalatzen lehenengoa.

Gehiago irakurri

Euskarazko Wikipedian artikuluak hobetzeko kartografia osatzen egon gara hasieratik bertatik. OpenStreetMapen ere milaka boluntariok euren ingurunearen mapak osatzeko lana hartu dute, mapa libre eta osatuak eskaintzen. Orain Kartographer luzapenari esker Euskarazko Wikipediako artikuluetan OSMko mapa dinamiko eta interaktiboak txertatzeko aukera dugu. Wikidatatik eskuratutako datuekin osatutako txantiloiekin batera, aurrerapauso handia artikuluak osatzeko lana errazago eta aberatasagoa egiteko garaian.

Gehiago irakurri