Euskal Wikilarien Kultura Elkarteak EHUrekin batera lantzen duen hezkuntza programaren baitan proiektu berri bat abiatu genuen iaz Informatika Fakultatean. Kepa Sarasolaren ikasleek euskarazko hizkuntza baliabideak erabiliz programaren bat egin behar zuten, eta Wikimedia erabiliz proposamen batzuk egin genizkien. Horietako bat, katalanez egindako MineralBot programaren euskarazko bertsioa lantzea, 2019ra arte deskribatutako mineral guztien artikuluak egiteko. EUMineralBot proiektua jaio zen, MinDat webgunetik datuak atera eta euskaratzen zituena, baina mineralen artikuluak ez ziren igo, sistemak ondo funtzionatu bazuen ere, akats nahiko baitzituen.

Gehiago irakurri

iItzulpen automatikoak jauzi ikaragarria egin du kalitatean azken bi urtetan, euskararako itzultzaile neuronalek ere bai. Itzulpenaren emaitza kalitate handikoa izaten da eta gainera modu masiboan erabil daiteke. Horrek aukera ezin hobea ekarri digu, orain Euskal Wikipediara askoz artikulu gehiago, testu-eduki askoz handiagoak ekar ditzakegu eta erraztasun handiagoarekin.

Bai, hasieran halaxe dirudi, baina kontuz ibili behar da. Kalitate handikoa baldin bada ere, itzulpen automatikoaren emaitza gainbegiratu egin behar du pertsona batek, gero zuzendu egin behar da, “posteditatu” egin behar dela esaten dugu. Horrek garrantzi itzela du. Testu itzuliaren postedizioa egiten ez badugu arrisku handia dago laster batean Wikipediako testu-zati askotan  kalitatea jaisteko.Hezkuntza Programan bereziki garrantzitsua da hori. Parte hartzen duten ikasleen lana artikulu bat automatikoki itzultzea baino ez bada, itxuraz emaitza oso txukuna da baina errealitatean ez da horrela izango. Testu itzulia zuzentzea, guztiz koherentea eta ulergarria uztea, ezinbestekoa da. Ikasleak berak egiten ez badu, irakasleek (edo wikilariek) egin beharko dute gero, eta hori lan handiegia izan daiteke hauentzat. Ikasleak, itzulpena erabili nahi badu, aurrikusi behar du gero testu itzuliaren zuzenketa egin beharko duela, eta horren arabera neurtu zenbat testu gehituko duen.

Ikus dezagun adibide bat. ingelesezko Wikipediako Password artikulutik  euskal Wikipediako Pasahitz artikulura  60.000 karaktereko ekarpena egin da. Ingelesezko artikulua bikaina zen, eta orain primerako artikulua da euskaraz ere. Lan itzela, ekarpen esanguratsua izan da euskarara hori ekartzea.  Baina paragrafo eder bat nahiko ulergaitz geratu zen.  Erromatar armadan kontsignak (pasahitzak) nola erabiltzen ziren azaltzen duen pasarte historiko hau zen:

Gauerako kontsignaren pasabidea ziurtatzeko modua honako hau da: infanteriako eta zalditeriako klase bakoitzeko hamargarren kirtenetik, kalearen beheko muturrean kanpatuta dagoen kirtenetik, gizon bat aukeratzen da guardiatik kanporatua izateko, eta arratsaldero joaten da tribunako dendara, eta harengandik kontsigna jasotzen du – Egurrezko ohol bat da, bertan idatzirik hitz bat duena –. – Agur esan eta bere geletara itzultzean kontsignak eta ohola lekukoen aurrean pasatzen dizkio hurrengo mangoko komandanteari, eta honek, berriz, Denek gauza bera egiten dute lehen manikietara iristen den arte, tribunoen dendetatik gertu kanpatutakoak. Azken horiek taula eman behar diete tribunalei, ilundu baino lehen. Beraz, jaulkitako guztiak itzuliak badira, tribunoak badaki kontsigna maniki guztiei emana izan dela, eta guztiengandik pasatu dela berarengana itzultzeko bidean. Horietakoren bat falta bada, berehala ikertzen du, marken arabera badakielako zein alderditatik ez den taula itzuli, eta geldialdiaren arduradunak merezi duen zigorra jasotzen du.

Testua euskaraz ondo eratuta dago, gainetik irakurrita ondo dagoela dirudi. Baina apur bat sakonduta, ondo ulertu nahi bada paragrafoaren esanahia, arazoak agertzen dira. Adibidez, manikiak azaltzen dira testuan. Zer dira maniki horiek? Ingelesezko jatorrizko testura joanda:

The way in which they secure the passing round of the watchword for the night is as follows: from the tenth maniple of each class of infantry and cavalry, the maniple which is encamped at the lower end of the street, a man is chosen who is relieved from guard duty, and he attends every day at sunset at the tent of the tribune, and receiving from him the watchword—that is a wooden tablet with the word inscribed on it – takes his leave, and on returning to his quarters passes on the watchword and tablet before witnesses to the commander of the next maniple, who in turn passes it to the one next him. All do the same until it reaches the first maniples, those encamped near the tents of the tribunes. These latter are obliged to deliver the tablet to the tribunes before dark. So that if all those issued are returned, the tribune knows that the watchword has been given to all the maniples, and has passed through all on its way back to him. If any one of them is missing, he makes inquiry at once, as he knows by the marks from what quarter the tablet has not returned, and whoever is responsible for the stoppage meets with the punishment he merits.

Ingelesezko testuan ez dago maniki bezalakorik, hor maniple azaltzen da, Wikipediako estekarekin gainera, esteka horrek euskarazko manipulo artikulura eramaten gaitu, erromatarrek soldadu multzoak antolatzeko erabiltzen zuten unitate bat zena. Ingelesezko paragrafoan bost aldiz azaltzen zen maniple, baina euskarazko itzulpenean hiru modu desberdinetara itzuli da: kirten, mango eta maniki. Ederra zorabioa! Antzekoa gertatu tribune hitzarekin, soldaduen nagusia dena euskaraz tribunoa da, baina testuan itzuli izan da tribuna (tribunoaren denda  –> tribunako denda)  eta tribunal moduan ere (taula eman behar diete tribunoei –> taula eman behar diete tribunalei). Horixe, ederra zorabioa, hori irakurrita hartu duguna! Ulertzerik ez badago… zuzendu egin beharko da. Ziur oraindik hobekuntzarik onartuko duela, baina apur bat ulergarriago honela geratu da paragrafoa:

Gauerako kontsignaren pasabidea ziurtatzeko modua honako hau da: infanteriako eta zalditeriako klase bakoitzeko hamargarren unitatetik (manipulotik), kalearen beheko muturrean kanpatuta dagoen manipulotik, gizon bat aukeratzen da guardia-zerbitzutik salbuetsia izateko, eta arratsaldero joaten da tribunoaren dendara, eta harengandik kontsigna bat jasotzen du — hitz bat idatzirik duen egurrezko ohol bat dena—. Agur esan eta bere geletara itzultzean kontsigna eta ohola lekukoen aurrean pasatzen dizkio hurrengo manipuloko komandanteari, eta honek berriro hurrengokoari, Denek gauza bera egiten dute lehen manipuloetara iristen den arte, tribunoaren dendatik gertu kanpatutakoak. Azken horiek taula eman behar diote tribunoari, ilundu baino lehen. Beraz, jaulkitako guztiak itzuliak badira, tribunoak badaki kontsigna manipulo guztiei emana izan dela, eta guztiengandik pasatu dela berarengana itzultzeko bidean. Horietakoren bat falta bada, berehala ikertzen du, marken arabera badakielako zein alderditatik ez den taula itzuli, eta gelditzearen arduradunak merezi duen zigorra jasotzen du.

Kontua da 50 minutu behar izan direla zuzenketa hori egiteko. Irakasleak (edo wikilariak) egindako zuzentze-lana txikia izan dela dirudi, egin duen karaktere-gehikuntza ikusita bederen (ia ordubete 348 karaktere bakarrik gehitzeko). Merezi izan du, bai, orain dezente hobeto ulertzen da, baina argitaratu den itzulpen hura gordin-gordina izanik denbora eta lan asko behar izan da zuzentzeko.

Ondorioz, asumitu behar dugu itzulpen automatikoa erabiliz gero erantzukizun handia hartzen dugula, gero testu hori ondo orrazteko, ulergarri eta atsegin bihurtzeko. Itzulpen automatikoa tresna itzela da; askoz artikulu gehiago, testu-eduki askoz handiagoak ekartzen ari gara Wikipediara eta erraztasun handiagoarekin; baina, kontuz, itzulpen automatikoa erabili eta gero… ‘giza zuzenketa’ behar da.

Gehiago irakurri

Wikidata eta Wikimedia Commonsi esker artea bilatzea inoiz baino errazagoa da. Blog sarrera honetan antzeko funtzioak dituzten hiru tresna erakutsiko dizkizuegu: openArtBrowser, Crotos eta art.wikidata.link. Baina, lehenago, sarreratxo bat euren atzean dagoen funtzionamenduaren inguruan.

Wikimedian artea sailkatzen

Wikimedian artea sailkatzen aritu gara azken urteotan wikilariok. Libreak diren artelanak igo (egilea orain dela 70 urte baino gehiago hil bada, kasu gehienetan) Wikimedia Commonsera, artelan horiek katalogatu eta bertan agertzen dena deskribatu Wikidatan eta informazio horrekin Wikipediako artikuluak sortu ditugu.

Baina behin katalogoa egin dugula posible da Wikidatan dagoen datu-baseko informazioa baliatzea beste tresna batzuk sortzeko. Wikidatan, laburrean azaltzeko, artelan baten oinarrizko informazioa biltzen dugu: norena den, zein mugimendukoa, zer material, garaia, non dagoen, zer agertzen den… adibidez, hau da Giocondaren Wikidata orrialdea. Tarte bat hartzen baduzu, ikusiko duzu datu bidezko deskribapen horri esker posible dela beste bilaketa batzuk egitea: egile baten obra guztiak, mugimendu batekoak, material bat dutenak, garai batekoak, museoaren arabera, edo koadroan agertzen diren kontzeptuena. Eta artelan hori Wikimedia Commonsera igo bada, aukera izango dugu bai artelana ikusteko (kasu batzuetan erresoluzio oso altuan) zein Wikipedia artikuluak irakurtzeko existitzen badira.

Ikus ditzagun adibide batzuk.

openArtBrowser

openArtBrowser Hochschule Darmstadt unibertsitateko ikasle batek abiatutako proiektua da. Modu oso ikusgarri batean erakusten dizkigu Wikidatako eta Commonseko datuak: egileka, mugimenduka, gaika, garaiaren arabera… bilatzeko aukera izango dugu, eta emaitzak ere denbora lerro batean ikusteko aukera izango dugu.

Edozein artelan aukeratzen badugu, aukera izango dugu ere antzeko artelanak ikusteko azpian: egile berberarenak, museo berberean daudenak, gai antzekoa dutenak… eta gainera artelan horretan agertzen diren gaiak ere ikusi ahal izango ditugu, berriak aukeratuz.

Adibide gisa, saia zaitezke Bilboko Arte Eder museoan dauden artelanetako batzuk ikusten: https://openartbrowser.org/en/location/Q127064

Momentuz ez dago euskaraz, bai ingelesez, gaztelaniaz eta frantsesez.

Crotos

Crotos aurrekoak egiten duenaren antza du, baina badu berezitasun bat: filtratzeko aukera izango dugu gure bilaketatan, eta Wikipediarako loturak zein tamaina handian ikusteko aukerak askoz ikusgarriagoak dira. Euskaraz ere ez dago, baina hizkuntza askotan duzu eskuragarri.

Bilatzailean nahi duguna idatziko dugu (egile bat, kontzeptu bat, mugimendu bat…) eta ondoren emango dizkigu Wikidatan dauden emaitzak. Emaitza horietan aukera izango dugu material motaren arabera irabazteko (koadroa, eskultura, marrazkia…) eta denbora lerroan ere irabazteko (goian eskuman dagoen -40.000 – 2016 hori), baita HD, irudia badagoen edo ez, edo Wikipedian artikulurik ote dagoen ikusteko.

Hemen ikus dezakegu Louvreko museoan dauden 1700 eta 1830 arteko margolanak, HD irudia dutenak eta Wikipediako artikulu bat.

Artelan bakoitzaren azpian ikus dezakegu ea kalitate handiko irudirik ote dagoen, Wikipediako artikulua zein den eta Wikidata zein Commonserako loturak.

Lotura horien bidez aukera polita izango dugu artelanari buruz gehiago jakiteko, eta bilaketa interesgarriak egiteko.

art.wikidata.link

art.wikidata.link ez da aurrekoak bezalakoa: honetan parte hartu dezakegu eta deskribapenik ez duten artelanak deskribatu. Bertan badago aukera bilaketak egiteko (Browse jartzen duen botoian; momentuz ingelesez baino ez da existitzen), baina interesgarriena da Wikipedian kontu bat izanez gero eskaintzen dizkigun ausazko artelanak katalogatu ahal ditugula.

Honen inguruan gehiago jakiteko, ikus https://eu.wikipedia.org/wiki/Atari:Hezkuntza/Lehen_Hezkuntza/Ingelesa_ikasi_artelan_bat_deskribatuz

Gehiago irakurri

Egunean Behin mugikorreko joko-aplikazioan euskarazko Wikipediako datu eta irudi askoren galderak agertzen direla badakite erabiltzaileek. Erantzun asmatuen zerrenda ematerakoan ere, galdera askoren argipena ikusteko Wikipediako esteka klikatzen ahal da. Jokoaren gakoetako bat izanik milaka galdera behar direla, Wikipediako datuak erabili ahal izatea funtsezkoa zaio aplikazioaren sortzaileei, CodeSyntax enpresari. Euskarazko Wikipedia ez balego, askoz zailagoa izango zen Egunean Behin programatu ahal izatea eta, dudarik gabe, askoz tristeagoa izango zen jokatzea ere. Pertsonalki, hau sinatzen duena wikipedista intermitentea da, EWKE elkarte honetako bazkide, eta CodeSyntaxeko lankidea, eta hortaz, pozik dago komunitateari azalpen batzuk emateko aukerarekin.

CodeSyntax-etik zenbait metodorekin ustiatu dugu Wikipediako informazioa, baina, Euskal Wikilarien Elkarteko Galder Gonzalez lagunaren pista batzuk tarteko, batez ere Wikidataren ustiaketan ari gara zentratzen azken aldian.

Wikidata baliatzeko, https://query.wikidata.org zerbitzua erabiltzen dugu. Bertan adibide batzuk agertzen dira, eta askoz gehiago ingelesez osatutako biltegi honetan. https://www.wikidata.org/wiki/Wikidata:Request_a_query

Bilaketa bat egindakoan, gainera, helbide labur bat eraiki dezakezu, eta horrek gogoratzeko balio dizu, bilaketa gordeta izateaz gain haren gainean beste batzuk bilatzeko. Hona adibide bat, https://w.wiki/4SB zeinak ematen dizkigun Euskal Herrian kokatutako udaletxeen irudiak (aldi berean berezko artikulua dutenak). Egin klik URL horretan, eta eman Play botoi urdinari. Ondoren, emaitzak agertzen dira, eta funtzio barra bat.

Barra honetan ezkerreko begian klikaturik, emaitzen bista desberdinak lortzen dira. Download emanik, jaitsi daitezke emaitzak, eta horra, erraz-erraz, Egunean Behin-erako galdera sorta bat: “Nongoa da udaletxe hau? <irudia> | Herria”. Galde-erantzun zuzenak behintzat, bertan leudeke; hori bai, programazio pixkat gehiago gehitu behar da erantzun okerrak sortzeko.

Udaletxeen eskaera horri begiratu diezaiogun apur bat:

Batetik, lerro luze batean Euskal Herriko eremu geografikoa definitzen da, formula baten bidez (zazpi herrialdetako estatu independente bat ez garen artean, hala beharko du), eta azpimarratu dut halaber Udaletxe bat (eraikin mota) definitzen duen Wikidata elementua. Q543654 beste elementu batzuekin ordezkatu, eta beste hainbat argazki-artikulu lortuko dituzu. Adibidez, Q16970 elementua idatziz gero, dozenaka eliza. Q199451 idatziz gero, seguruenik batere ez, pagoda bat definitzen duen wikidata elementua baita.

Beste bilaketa bat, https://w.wiki/4TT.

Kasu honetan, pertsonen gaineko bilaketa bat da, epe jakin baten artean jaioak (1960ko hamarkadan), genero propietatean (P21) emakumezko direnak (Q6651072 aldagaia) eta hiztun propietatean (P1412) euskara (Q8752) dakitenak. Era berean, emaitzak ordena jakin batean ordenatzeko irizpide bat eskatzen da. Bilaketa zehatz honen antzekoak erabili ditugu pertsonaien adinak galdetzeko Egunean Behin jokoan. Euskaldunekin egin dugu batik bat, eta bilaketa bereiziak egin ditugu gizonezko eta emakumezkoetan, kopuru berdinak izateko, 100 gizon, 100 emakumezko, berdintasunean saiatzeko.

Hortaz, horrela arakatzen dugu Wikidata, Query zerbitzuaren bidez… Esplorazioa, esan dezagun. Izatez, query horietako eskaerak Wikidatatik zuzenean ateratzeko Pywikibot Python programa erabiltzen dute nire lankide informatikariek. Hemen adibide bat dokumentatuta (honetan utziko dut hau, beste azalpen teknikoago baterako gaia da).

Wikidata arakatzea ez da Egunean Behin-eko galderak sortzeko metodo bakarra, baina bai interesgarrienetako bat. Egun hauetan lehiaketa abiatu dugu (martxoaren 15a arte) programazio bidez galde-erantzun sortak egiteko, eta azalpenak eman ditugu ideia eta adibideekin, parte-hartzaileak animatzeko: horietan bereziki aipatu dugu Wikidata eta Euskarazko Wikipedia. Inor animatzekotan:

Bestalde, kontuan izan beti: Wikidata ez dago betea berez, airetik datozen datuekin. Batzuetan kargatu dira datubase osoak beste iturri batzuetakoak, baina Wikipedia bezala, Wikidata osatzen da erabiltzaileok ezagutza dokumentatua kargatzen dugularik. Wikipedia bisitatzen duzuelarik, adi aldameneko ikono hauei:

Pagodaren artikulua hemen duzu euskaraz, baina ikonoan klikatuz iritsiko zara Wikidatako Q199451 elementura, zeinak definitzen duen zer den pagoda bat.

Hemen duzue beste orri bat, Karmele Jaio idazlearena. Berak ere badu Wikidata lotura, eta betea du hiztun propietatean (P1412) euskara dakiela… baina, adibidez, ez ote daki beste hizkuntzarik? bat edo beste susmatzen dugu baietz… Dakienak Jaiori buruz gehiago, bete beza https://www.wikidata.org/wiki/Q12261321 orri hori datuarekin! Eskerrik asko.

Gehiago irakurri

Wikipedia lan kolektibo bat da, askoren artean idatzia, garatua, zuzendua, eraldatua eta eztabaidatua. Artikulu batzuek ehunka pertsonen lana dute atzetik, beste batzuetan pertsona bakar batek edo pare batek hartu dute parte. Wikipedian aritzen diren pertsonek modu boluntarioan idazten dute, eta artikulu baten egiletza begiratzea posible bada ere, ez da izenik agertzen artikuluaren hasieran edo amaieran, beste lan batzuetan ohikoa den bezala.

Orain tresna berri batek aukera ematen digu testu baten zati bat nork idatzi duen begiratzeko, baita wikilari horrek artikuluaren zein ehunekoa idatzi duen begiratzeko ere.

Wikimedia Fundazioak, wikilariek egiten dituzten eskarien ondorioz, “Nork idatzi du hori?” izeneko Firefox eta Chrome luzapena sortu du, artikulu baten egiletza ezagutzeko aukera ematen diguna.

Luzapena instalatu ostean, “Nork idatzi du hori?” jartzen duen botoi bat agertuko da zure Wikipediako menuan, ezkerrean.

Artikulu batean gaudenean nahikoa izango da botoi horri ematea, datuak kargatzeko denbora itxoitea eta artikuluaren gainean klik eginez informazioa eskuratu ahal izango dugu.

Sistema honek “WhoColor” teknologia erabiltzen du, momentuz bost hizkuntzatan baino ez dagoena eskuragarri, tartean euskaraz. Tresna horri buruz hitz egin genizuen WhoColor, talde-lanak ebaluatzeko tresna, euskaraz artikuluan.

Gehiago irakurri

Euskal Wikilarien Kultur elkartearen eta Elhuyarren lankidetzari esker, Wikidatan dauden hizkuntza guztien artean, euskara seigarrena da hitz-erroen (lexemen) kopuruan, bigarrena hitz-formen kopuruan (hitz-erro bakoitza deklinatuta sortzen diren forma guztiak kontuan hartuta), eta hizkuntza nagusia da esanahi-kopuruari dagokionez, ingelesaren, gaztelaniaren eta frantsesaren aurretik, besteak beste.

Gehiago irakurri

Iaz hezkuntza programa martxan jarri genuenean erronka handi bat jarri genuen mahai gainean: 12-16 urteko ikasleek egunero lantzen dituzten gaiak euskarazko Wikipedian ahalik eta hobeto egotea. Zerrenda bat osatu genuen, eta 1.700 gai inguru erauztea lortu genuen. Baina gai horiek elkarren artean nola lotzen diren, ezagutza bera nola saretzen den, eta gure proiektutik kanpo zein artikulu diren garrantzitsu jakitea ariketa zaila zen. Horregatik jo genuen Talaios Kooperatibako Tanit garapen eta esperimentazio laborategira: gaien arteko loturak, hutsuneak eta ezagutza bisualizatu nahi genituen. Esfortzu horren ondorioz jaio da Zeres, artikuluen loturen azterketa egitea ahalbidetzen duen tresna.

Gehiago irakurri

Mila urte igaro dira Donemiliagan abade batek hainbat glosa idatzi zituenetik, latinez idazten ari zen testua azaltzeko helburuarekin. Jçioq dugu idatzi zuen orrialde batean. Guec ajutu eç dugu beste batean. Hizkuntza erromantze batean (gaztelania edo aragoiera den eztabaidan dago) eta euskaraz idatzi zituen ohar horiek. Euskarazko testu ziurrik zaharrena da, eta ez dakigu egilea nafarra, arabarra edo errioxarra ote zen.

Mila urte igaro dira eta euskarak aldaketa asko izan ditu geroztik. Egunotan 50 urte beteko dira Arantzazun Euskara Batua sortuko zuen Batzarra egin zenetik. Hiztegiak sortu ditugu. Entziklopediak eratu ditugu. Euskarazko zientzia eta teknologia tresnak ditugu. Euskarazko irratiak eta telebistak sortu dira. Euskara Ilargira iristeko prest dago ere.

Wikipedia munduko Entziklopediarik handiena da, eta euskarazko webgunerik bisitatuena. Wikipediak badu senide bat, sei urte bete dituen Wikidata. Bertan, orain arte, kontzeptuak gehitzeko aukera zegoen. Ez da lan makala egindakoa, sei urte hauetan 48.000.000 kontzeptu baino gehiago sortu dira datu-base erraldoi horretan, eta euskarazko Wikipedian horien erabilpen masiboa egiten dugu. Orain arte, baina, kontzeptuak igo ditugu eta ez hitzak, esamoldeak edo hitzen formak.

2013an bertan sortu zen lehenengo eztabaida: kontzeptuak definitzeko gai baginen, hitzak ere lexikografikoki definitzeko aukera izan beharko genuke. Baina ez zen hain erraza, eta 5 urteko eztabaida izan da gaiaren inguruan. 2016an lehen garapen plana egin zen, bi urtez softwarea prestatzeko erronkarekin. Eta eztabaidak jarraitu du: nola heldu behar zaio hizkuntza guztietako hitz guztiak bildu, antolatu eta lotzeko erronkari? Gaur, 2018ko maiatzaren 23an, lehenengo hitzak igo dira Wikidatara, eta dagoeneko komunitatea hasi da gehiago gehitzen.

Orain urtebete eskaera bat egin ziguten: posible al da euskarazko “Easter Egg” bat sortzea? Hauek txisteak izaten dira, letrak eta hitzak batzeko balio dutenak. Badira batzuk bertan. Adibidez L314 (L letrak “lexema” esan nahi du) katalanezko pi hitza da. L42 ingelesezko answer da (txistea ulertzeko pista Q42 itemean dago). L24601 frantsesezko condamné hitza da (galdetu Jean Valjeani). Euskaraz ere lehen hitza aukeratu eta Easter Egg gisako sorpresatxo bat prestatzea zen helburua. Eta zein hitz hobea izioki baino? Euskarazko lehen hitz idatzi izan bazen, hemen ere hala izan beharko litzateke, ezta? Baina sorpresaren gakoa hitzari zenbaki bat lotzea zen. LEET hizkera erabili dugu horretarako. Hizkera hau 1980ko hamarkadan garatu zen, Interneten hasieran, eta zenbakiak eta letrak nahastearen ondorioa zen. Horrela e letra 3gatik alda zit3k33n, edo a letra 4 b4t3ng4t1k. Izioki hitzan erraza zen 1710k1 idaztea, baina k hori ere ordezkatu behar zenez, 8 jartzea pentsatu genuen. L171081 da lehen lexema, euskaraz igotako lehen kodea, lehen hitz haren baliokidea.

Eta orain zer?

Oraindik probetan gaude. Beste hitz batzuk igo daitezke, adibidez, abade. Baina hizkuntza guztietako hitz guztietako forma guztiak igotzeak baditu bere arazoak. Adibidez, esan dezakegu zein den hitz baten forma singular eta plurala, baina softwarea oraindik ez dago prest mugagabea adierazteko. Laster forma (F letrarekin adieraziko dira) guztiak (deklinazioak, adibidez) automatikoki sortzeko aukera egongo da, baita bilaketak egin eta hizkuntzen arteko loturak jartzeko.

Formez gain, zentzuak ere adierazteko aukera egongo da (S letrarekin adieraziko dira). Eta erabilera adibideak jartzeko aukera. Itzulpen automatikoak egiten dituzten sistemek aukera bat izango dute hitzen baliokideak bilatzeko, eta hitzen esanahiak ulertzeko.

Eta laster ere etimologiak zehazteko aukera egongo da, gaur egun Wiktionaryn dagoen bezala. Gaur egun Etytree deitzen den tresnak dituen aukerak masiboki erabili ahal izango ditugu. Eta batek daki zer beste aukera izango ditugun etorkizunean. Hau hasi besterik ez da egin… garai interesgarriak bizi ditugu!

 

Gehiago irakurri

Pasa den asteburuan  Wikimedia Hackathon izan da Bartzelonan, asteburu batez Wikipedia hobetzeko tresnak helburu duen bilera. Euskal ordezkaritzan bost izan ginen eta hauek izan ziren gure ekarpen nagusiak:

Igor Leturia eta Galder Gonzalez, Hackatoian

Igor Leturiak saio berezi bat antolatu zuen ostiralean, Elhuyar Fundazioarekin batera lantzen ari garen proiektu bat azalduz: Wikispeech: Text-To-Speech technology for accessibility.

Elhuyar Fundazioa eta EWKEren artean Wikipediako artikuluak “entzuteko” aukera asmatu dute Suediako Wikilariekin, eta euskaraz ere instalatzeko lanean ari gara. Oraindik ere ezingo da entzun, hainbat software-proba pasa behar baititu martxan jarri aurretik. Besteak beste, laburdurak ondo irakurtzeko sistema bat eta irakurketa pausatzeko botoia gehitu ditu Leturiak egun hauetan.

Galder Gonzalez eta Amador Álvarez, txantiloi automatikoak lantzen

Galder Gonzalezek Amador Álvarez katalanarekin saio berezi bat antolatu zuen Wikipediako infotaula automatikoei buruz. “Supercharge your wiki: Wikidata-powered infoboxes“. Infotaula horiek zelan definitzen ari diren azaldu zuten. Lehen eskuz adierazi behar ziren propietate guztiak, orain Wikidatatik hartzen dira datu guzti horiek automatikoki. Bertan izan ziren Wikidatako hainbat arduradun, eta sorpresa ederra izan zen eurentzat katalanek eta euskaldunok garatu dugun puntako sistema hau.

Berriki sortutako Wikitekan ere lan egin genuen, aurretik Euskal Herrian gai honi buruz hizketan egon zen Carles Paredesekin. Sistema hobetu, eta falta ziren hainbat gauza instalatu genituen.

Maite Urra-k eta Oscar Sainz-ek Euskal Wikipediako artikuluen kalitatea aztertzeko laguntza teknologikoak aztertu dituzte ORES sistemarekin, urtean zehar ibili dira hori prestatzen Montse Maritxalar irakaslearekin. Hackatoian Galder Gonzalezek eta Kepa Sarasolak lagundu zieten, kalitate handiko 800 artikulu identifikatu zituzten eta 3.000 zirriborro. Editoreek artikulu batzuetan ezartzen dituzten txantiloiak ere baliagarriak izan daitezke kalitatea etiketatzeko ({{zuzendu}}, {{zirriborro}}, {{wikitu}}, {{erreferentzia falta}}{{zaharkitua}}…). Xuxen pasata, artikulu batek zenbat errore ortografiko dituen jakiteak ere laguntzen du kalitatea neurtzen. Guztira 20 irizpide kontuan hartuko dira.

Maite Urra, Oscar Sainz eta Kepa Sarasola, Wikidatako gelan ORESen lanean.

Egindako lanetik abiatuta, Wikimediako ORES sistemaren arduraduna den Aaron Halfakerrek 400 artikulutako lagin bat prestatu zuen beraien kalitatea etiketa genezan eta gero ikasketa automatiko bidez artikuluen kalitate maila aurreikusi ahal izateko: “Train/test article quality model for euwiki“.

Kepa Sarasolak Daniel Kinzler-en laguntzarekin Euskal Wikipedian eta Espainierazko Wikipedian dauden artikuluen tituluekin corpus elebidun bat sortu zuen (Wikipedia_tituluak_es_eu_2018). Hau da hasierako corpus gordina lortzeko exekutatu zuten sql galdera:

sql eswiki 'select page_title as es, ll_title as eu from langlinks join page on page_id = ll_from where ll_lang = "eu" and page_namespace = 0' > es-eu.txt

Honi esker itzulpen automatiko sistemak hobetzeko aukera bat zabalduko da ikaskuntza automatikoko sistematan.

Gehiago irakurri

Matxin itzultzaile automatikoa da gaztelania > euskara itzulpenak egiteko dagoen tresnarik onena. Urteetako garapena izan du IXA taldea eta Elhuyarren aldetik, eta perfektua ez bada ere (itzultzaile automatikoak ez dira perfektuak) emaitza txukunak ematen ditu testuen itzulpenean. Ia urte bateko lanaren ostean, Wikimediak sortutako Content Translation tresnan barneratu da gaur, eta dagoeneko prest dago itzulpenak egiteko.

Gehiago irakurri