Koldo Etxaniz*, Galder Gonzalez**, Lorea Loinaz*, Ane Paniagua*, Kepa Sarasola* ** eta Ana Zelaia*
.* Informatika Fakultatea, UPV/EHU
.** Euskal Wikilarien Kultur Elkartea (EWKE)

Galdera hauen erantzunak lor daitezke Wikidatako datuekin?

  • Euskal musika-talde eta kantarien artean, zeintzuk dira album gehien plazaratu dituztenak?
  • Zein urtetan plazaratu dira euskarazko musika-album gehien?
  • Nola eboluzionatu du urtez urte euskarazko albumen kopuruak genero artistikoaren arabera? Eta sexu edo generoaren arabera?
  • Mikel Laboa, Benito Lertxundi eta Gatiburen albumak ikus ditzakegu urtez urteko ardatz batean tartekatuta?
  • Nongoak dira euskal musikariak? Zein herritan jaio dira?

2018an antzeko galderak erantzuteko lan ikusgarri bat aurkeztu zen blog honetan bertan, (“Euskal literaturaren armiarma sarea Wikidatan aztergai”), kasu hartan galderak musikari buruz ez, literaturako liburuei buruz izan ziren. Orain, berdin egin daiteke musika-albumekin?

Erantzuna erraza da: “Bai, jakina, datuak edukiz gero egin daiteke”. Wikidata oso tresna baliagarria da; kontsulta, azterketa eta grafika oso interesgarriak sor daitezke, baina horrelakorik ezin da lortu daturik ez badago.

Bada, horixe izan da 2023an Donostiako Informatika Fakultateko ikasle batzuek hartu zuten erronka: erantzun horiek lortu ahal izateko Wikidatako datuak osatzea. Aurretik Wikidatan baziren euskal musikari buruzko datu batzuk, hainbat wikilarik azken 10 urteetan modu soltean sartuak. Horiez gain, Musikasten (https://www.musikasten.eus) eta Badok (https://www.badok.eus) atariek horrelako datu batzuk badituztenez, azkenean atari bietan, batean eta bestean, daudenekin lortu da hainbat kantari, musika-talde eta albumen datuekin multzo minimo bat sortzea, eta horrela goiko galderei erantzun itxuroso bat eman ahal zaie. Ez da erantzun osoa, datu guztiak ez baitaude, baina ideia bat sortzeko balio du eta datu gehiago sartuz gero erantzun zehatzagoak lortu ahal izango dira etorkizunean. Bitartean, gainera, lortutako erantzun horiek beste hizkuntza batzuekin ere kontsulta daitezke, eta horrela hizkuntzen arteko konparazio batzuk ere egin daitezke.

Lan hau teknikoki nola egin dugun azaltzeko xehetasunak bukaeran jarri ditugu, atal hori ez da irakurle guztientzat, antzeko lanak egin nahi dituenarentzat baizik. Hor azaldu dugu konputagailuan zer programatu behar izan dugun eta Wikidatan musika-datu horien errepresentazio estandarra nolakoa den. Bestalde, badok.eus ataria askoz konpletoagoa denez, Wikidatako datuetan sistematikoki gehitu ditugu estekak Badokera bideratzeko. Horrela, klik bakar batean joan ahal izango da erabiltzailea informazio sakonagoaren bila.

Egindako lana eginda, orain Wikidatan datu multzo minimo bat dugula, galderak egin ditzakegu Wikidata kontsultatzeko webgunearen bitartez (query.wikidata.org). Adibidez:

Antzeko galderak dira beste hauek ere:

Beste galdera mota bat:
Euskal musika-talde eta kantarien artean, zeintzuk dira album gehien plazaratu dituztenak?

Beste galdera mota bat:
Nola eboluzionatu du urtez urte euskarazko albumen kopuruak genero artistikoaren arabera? Eta sexu edo generoaren arabera?Genero artistikoei buruzko galderak:

Euskarazko interpretatzaileen album kopurua urteko, genero artistikoaren arabera. (barra-diagrama)

Beste galdera mota bat:
Nola eboluzionatu du urtez urte euskarazko albumen kopuruak generoaren arabera?

Beste galdera mota bat:
Nongoak dira euskal musikariak? Zein herritan jaio dira?

Azken galdera bat, kantuei buruz:

Egindako ekarpena

Euskarazko abestiak ezaugarri hauekin: genero artistikoa, musikagilea, noren hitzak eta tonalitatea (gako-armadura).
Erantzuneko taulan 176 kantu baino ez dira agertzen, Wikidatan ez baitago informazio asko kantuei buruz.

Euskal musika-taldeen eta haien albumen zerrenda luzea da. Une honetan badok.eus webgunean 1.350 talde inguru daude. Horietatik 300 talde besterik ez ditugu landu, Wikidatan musikastenID identifikadorea dutenak. Horrela gure lana pisu handieneko interpretatzaileekin bakarrik egin dugu, 300 talde horien Wikidata itemak eta haien albumak (garrantzitsuak diren batzuk, gutxienez) modu koherentean sortzen saiatu gara.

Proiektua amaitu dugun unean, guztira 300interpretatzaileren eta 1144 albumen erregistroak daude Wikidatan. Denek ez dute informazio bera gordetzen, batzuek informazio gehiago dute, baina garrantzitsuena nabarmentzearren, honakoa esan dezakegu:

  1. Egitura estandar bati jarraituz sortuak izan dira. Horri esker, euskal musikarako sortu ditugun SPARQL kontsultak erraz molda daitezke beste hizkuntzekin ere erabiltzeko, frantsesezko albumak bilatzeko, esaterako.
  2. Album guztiek dute informazio minimo bat, garrantzitsuena dena (interpretatzailea, diskoaren izenburua, genero artistikoa, urtea, hizkuntza eta badok.eus-erako esteka).
  3. Denek dute badok.eus webgunerako esteka eta horietako batzuek Musikasten webgunerakoa ere. Wikidatan zeudenei eta esteka ez zutenei gehitu zaie. Horri esker, edozein erabiltzaile klik bakar batean joan ahal izango da zuzenean Badok atarira informazio sakonagoaren bila.

Erabilitako tresna informatikoak

Artikulu honetan aurkezten dugun lana aurrera eramateko erabili behar izan ditugun tresna guztiak aipatzen ditugu atal honetan. Izan ere, jakin badakigu proiektu honek jarraipena izan dezakeela, eta hobekuntzarekin aurrera egiteko prest ager daitezkeen ikasleei ondo etorriko zaiela erabilitako tresnen informazioa izatea.

Tresna informatiko horiek berriak ziren Koldo, Lorea eta Ane ikasleentzat proiektuan lanean hasi ziren unean. Sekula ez zuten Python programazio-lengoaiarekin lan egiteko aukerarik izan, ez zekiten Wikidata nola antolatuta zegoen, ezta Wikipediaren eta Wikidataren arteko lotura nola egiten zen. Proiektu honi esker ikasi dute hori guztia.

Egindako programak eta horien dokumentazioa Ane, Koldo eta Lorearen Github orrian daude:

https://github.com/koldosaurio/WD_Euskal_Musika

Lan honi jarraipena emateko aukera batzuk

  1. Esan bezala, Euskal musikan erreferentzia nagusi den badok.eus atarian 1.350 talde inguru daude guztira, eta horietatik 300 talde besterik ez ditugu landu. Musika-talde eta album gehiago gehitu litezke. Badok atarikoak interesatuta baleude, beren informazio aberatsera kontsultak bideratzeko lagungarri ikusiko balute, eurekin lankidetzan egin liteke.
  2. Euskal musikarientzat sortu ditugun Wikidata erregistroak Wikipediako artikuluekin lotu litezke masiboki, esate baterako, Hertzainak taldekoa dagoen bezala.
  3. Musika-taldeak eta album berriak sortuko dira etorkizunean. Horien datuak gehitu egin beharko dira Wikidatan. Wikilari boluntarioek egin dezakete lan hori banaka-banaka eskuz sartuz, edo lan hori errazteko eta datuak eguneratuta edukitzeko laguntza informatikoak sor litezke.

Koldo Etxaniz*, Galder Gonzalez**, Lorea Loinaz*, Ane Paniagua*, Kepa Sarasola* ** eta Ana Zelaia*
.* Informatika Fakultatea, UPV/EHU
.** Euskal Wikilarien Kultur Elkartea (EWKE)

Euskal Wikipediako artikulu guztien artean zenbat dira zortziko txikia neurria duten bertsoenak? Galdera horri erraz erantzuteko modu baten bila ibilita, hasieran Zortziko txikiak kategoria definitu dugu Wikipedian, eta gero bertso eta abesti herrikoien artean joan gara markatzen zortziko txiki direnak. Lehenengo saio bat izan da eta ez da intentsiboa izan, abesti modernoetan ere egongo dira horrelakoak, baina eskuzko markaketa hori bukatutakoan 23 artikulu agertzen dira kategoria honetan. Beheko irudian 25 artikulu daude, baina hor azaltzen diren Bertso eta Zortziko txiki artikuluak ez dira benetako zortziko txikiak.

Zortziko txikiak kategoria

Zortziko txikiak‘ kategoria erabiltzen

Wikipediako kategoria hori definituta, zortziko txikiak lantzeko aukera berriak sortzen dira. Adibidez, Massviews kontsulta bat eginez erraz jakin dezakegu zenbat aldiz bisitatu diren artikulu horiek, eta zein diren bisitatuenak:

Zortziko txiki kontsultatuenak lortzeko Massviews galdera

Hau da kontsulta horren emaitza:

Zortziko txiki kontsultatuenak Wikipedian

Ikusten denez 2022 gabonetako jaietako bisitatuenak hauek izan dira: Behin batean Loiolan, Olentzero joan zaigu, Gernikako arbola, eta Internazionala izan dira.

Berdin oinarrizko beste bertso-neurri batzuekin

Zortziko txikiekin egin den bezala, bertsolaritzako neurri erabilienak diren hauekin ere sortu dira kategoriak:

Neurri txikiaNeurri handia
8 lerro
4 puntu
Zortziko txikiak (4 puntuko txikia)Zortziko handiak (4 puntuko handia)
10 lerro
5 puntu
Hamarreko txikiak (5 puntuko txikia)Hamarreko handiak (5 puntuko handia)
4 lerro
2 puntu
(kopla)
Kopla txikiak (2 puntuko txikia)Kopla handiak (4 puntuko handia)
Neurri erabilienak

Wikidatan ere bai

Wikidatan ere markatu ditugu kategoria horietan sartu diren artikuluak “genero artistikoa” propietatearen bidez. Gainera aipatutako oinarrizko bertso-neurri horiek definitu dira bertso-neurri kontzeptu gisa (Q89522629, poetic form). Bertsoen antolaketa hau, soneto neurriak (hamalaudun) eta ingelesezko hainbat sonetok (esaterako, Shakespeareren Sonnet 57 eta Sonnet 105) Wikidatan duten definizioa aztertu da eta antzeko egitura eman zaie euskarazko bertsolaritzako oinarrizko neurriei.

Definizio horiek eginda, Wikidata kontsulta bakar batekin ikus ditzakegu orain arte Wikidatan dauden bertso guztiak: https://w.wiki/6BuH
kontsulta horretan bertsoaren neurria eta egilea eskatzen dira. Abestien kasuan egilea Noren hitzak propietatearekin definitu ohi denez, balio hori ere erakusten da. Hauek dira kontsultaren emaitzan hasieran azaltzen diren 59 bertsoak:

Wikidatan dauden bertsoak bakoitzaren neurria eta egilearekin

Egitekoak

Listo, bertsoen neurria Wikipedian azaltzeko lehen urratsa (lehen proposamena) eginda dago. Egindako lan hori osatu behar da oraindik, apurka-apurka Wikipedian eta Wikidatan bertso askoren artikuluak gehitu daitezke oraindik. Noski, lan horretan ikaragarrizko laguntza izango da Bertsolaritzaren Datu-basea, zelako ondo egin duten eta zein sakona den sartu duten bertso ezagutza (doinuak, bertsoak, biografiak, saioak, grabazioak…). Itzela. Eskerrik asko!

Wikidataren 10 . urteurrenean hitzaldia bat eta tailer bat antolatu dugu. Zer da eta nola balia dezaket? Informatika ikasten Wikipedia eta Wikidata laborategi gisa hartuta

Gehiago irakurri

Wikipedia oso baliabide lagungarria da giza-zientzietan ikertzeko. Pertsona baten edo kontzeptu baten garrantzi soziala neurtzeko tresnak eskaintzen dizkigu Wikipediak. Pageviews web-zerbitzua erabiliz aztertu dezakegu “nonbait” gizarteak pertsona edo kontzeptu bati edo batzuei ematen dien garrantzia.
Bide horretan posiblea da Wikipedian galdera hauek egitea:

  • Zenbat aldiz kontsultatzen da artikulu bat egunero?
  • Zenbat hizkuntzatako wikipediatan dago artikulu hori? 
  • Noiz izan dira kontsulta asko?
  • Egon al da egunen bat ez ohiko kontsulta kopuru ikaragarri batekin?
  • Wikipedian dauden N pertsona emanda, zeinek hartzen ditu bisita gehien?
  • Informatikaria naiz, jaso ditzaket bisitei buruzko datu horiek?

Adibidez, azken-aurreko galdera “konpleto-konpleto” hori azalduko dugu. Txillardegi hil zela 10. urteurrena da orain. Donostiarekin eta euskal kulturarekin lotura estua izan duten “erraldoi” batzuk aukeratu ditugu: Bilintx, Koldo Mitxelena, Jose Gonzalo Zulaika, Ibon Sarasola, Karlos Santamaria, Elbira Zipitria, Arantxa Urretabizkaia, Miren Azkarate, Katalina Eleizegi eta Txillardegi.

Galderak: Hamar erraldoi horien artean zeinek hartu ditu kontsulta gehien Wikipedian? Egon al da egunen bat ez ohiko kontsulta kopuru ikaragarri batekin?
Erantzunak: URL honetan aurkituko ditugu:

https://pageviews.toolforge.org/?project=eu.wikipedia.org&platform=all-access&agent=user&redirects=0&range=all-time&pages=Txillardegi|Koldo_Mitxelena|Bilintx|Ibon_Sarasola|Karlos_Santamaria|Jose_Gonzalo_Zulaika|Elbira_Zipitria|Miren_Azkarate|Katalina_Eleizegi|Arantxa_Urretabizkaia

Zenbat bisita egun bakoitzean?

Grafiko bat eta taula bat ikusiko ditugu Pageviews webgune horretan.

Batetik grafiko batean ikusten dugu azken sei urteotan egun bakoitzean zenbat kontsulta egon diren pertsona bakoitzeko:
(data-tarte txikiago bat aukera dezakezue, esaterako, hilabete bat detailean ikusteko)

Egon al da egunen bat ez ohiko kontsulta kopuru ikaragarri batekin?

Ariketak: Grafiko hori ikusita, ikertu ezazu zer gertatu zen grafiko horretako gailur bortitzetan?

  • Zer gertatu zen 2019ko martxo-apilrilean Txillardegirekin?
  • 2021eko urtarrilaren 12an?
  • 2015eko abuztuaren 20an Mitxelenarekin?
  • 2017ko irailaren 21ean Elbira Zipitriarekin?
  • Eta 2016ko azaroaren 23an BIlintxekin? Hori zailagoa da azaltzeko. Ea baten batek asmatzen duen.

Zeinek hartzen ditu bisita gehien?

Pageviewko galdera horrek taula bat erakusten digu gero, beherago, pertsona bakoitzaren datu orokorrak aurkezteko (guztira zenbat kontsulta, eguneko zenbat kontsulta batez beste, artikuluaren tamaina, zenbat editorek parte hartu duten…). Hemen ikusten da taula hori:

Txillardegiren artikulua da ikustaldi gehien jaso dituena (30.888 bisita), oso nabarmen da hori; sei urtez, batez beste 13 bisita izan ditu egunero. Artikulu osatuena ere bada (52.2274 karaktere), eta artikulua osatzen parte hartu duten “editore” kopurua altuena ere baditu (41 wikilari).

Zenbat hizkuntzatako wikipediatan dago artikulu hori?

Taula horretako azken zutabean “Hizkuntza guztiak” esteka bat azaltzen da pertsona bakoitzeko. Esteka horretan klik eginez gero euskarazko Wikipedian bakarrik ez, beste hizkuntzatan zenbat kontsulta egon diren ikusi ahal izango dugu.

Txillardegiren artikulua Wikipediako 17 hizkuntzatan agertzen da: espainiera, english, euskara, francais, japoniera, catalá, ga (irlandako gaelikoa, Gaeilge),  nl (Nederlands), finlandiera (Suomi), et (Eesti, estoniera), gl (Galego, galiziera), simple (ingeles erraza), cy (Cymraeg, galesa), no (norvegiera, Norsk bokmål), bretoiera (Brezhoneg), hr (Hrvatski, kroaziera), sh (Srpskohrvatski / српскохрватски, serbo-kroaziera).

Harrigarria bada ere kontsulta gehiago agertzen dira espainieraz (egunero 36 bisita) eta ingelesez (eguneko 16 bisita)  euskaraz baino (eguneko 13 bisita). Guztira 174,679 bisita jaso du artikuluak hizkuntza guztietakoak batuta, eguneko 73 bisita. Horien artean euskarazkoak 30.839 baino ez dira izan. Pena, euskaldun askok oraindik erdaraz konfiguratuta dauka internet nabigatzailea (ikus lehenhitza.eus).


Bilintx-en artikulua lau hizkuntzatan dago (es, eu, en, ca), eta eguneko 25 bisita ditu (11 euskaraz eta 13 espainieraz).

Elbira Zipitriaren artikulua 5 hizkuntzatan dago (es, eu, en, ca, ru), eta eguneko 14 bisita ditu (7 euskaraz eta 6 espainieraz).

Arantza Urretabizkaiaren artikulua 14 hizkuntzatan dago (es, eu, en, ca, ru…), eta eguneko 30 bisita ditu (17 espainieraz, 7 euskaraz, 3 errusieraz …).

Koldo Mitxelenaren artikulua 13 hizkuntzatan dago (es, en, eu, fr, ru, ja, ca, gl, sv, uk, oc, el, eta arz), eta eguneko 57 bisita jasotzen ditu batez beste (6 euskaraz, 8 ingelesez eta 39 espainieraz).

Miren Azkarateren artikulua 6 hizkuntzatan dago (es, eu, en, fr, ca, de), eta eguneko 7 bisita ditu (3 espainieraz, 3 euskaraz, 1 frantsesez…).

Aita Donostia 8 hizkuntzatan dago (20 bisita eguneko), Ibon Sarasola 5 hizkuntzatan dago (5 bisita eguneko), eta harrigarria dena, Karlos Santamaria euskaraz eta frantsesez bakarrik dago.

Esperimentatu, jolastu

Adibide bat baino ez da izan hemen aurkeztu duguna. Nahiko erraza da honekin esperimentatzea. Goiko adibidean (URL honetan) aldatu ze artikulu aztetu nahi duzun, eta jolastu ezazu!
Beste adibide batzuk:

Informatikaria bazara… “Jaitsi” datu guztiak 🙂

A! Eta informatikaria bazara edo programatzen moldatzen bazara… jakin ezazu grafiko eta taula horietan azaltzen diren datu guzti-guztiak kalkulu-orri batean txukun deskargatu ditzakezula. CSV edo JSON formatuetan lortu daitezke datuak. Erabil ezazu “Jaitsi” botoia.

Kulturako sei erraldoi horien (Mitxelena, Txillardegi…) bisita-kopuruak jaitsi ditzakegu egunez egun, goian aipatutako pageviews galderatik. Eta hor ikusi, adibidez, 2015eko abuztuaren 20an Mitxelenak, bere jaiotzaren urteurrenean, bisita asko jaso zituela:

Edo jaso fitxategi bat Txillardegik hizkuntza guztietan egunez-egun zenbat bisita jaso dituen aztertzeko. Ikusi beheko irudian, adibidez, 2021eko apirilaren 6an zenbat bisita egon ziren, Julen Madariaga hil zen egunean, gehien-gehienak espainierazko artikuluan, baina ingelesez, euskaraz, frantsesez, katalanez eta galegoz ere bai. Espainiako medioetan maiz aipatu zen Txillardegi egun horretan. Harrigarria da bisita gehiago jaso zirela katalanezko artikuluan, euskarazkoan baino:

Gero, zure kontura eta nahi duzun programazio-lengoaia erabilita, nahi duzun moduan aztertu ahal izango dituzu datu guzti horiek.

Urteak dira Informatika Fakultatean lehen mailan programazioa irakasten dudala. Ariketak eta ariketak egin behar ditu ikasleak konputagailu-programak nola idatzi behar diren ikasteko; ehun baino gehiago dira irailetik abendura bitarte egiten dituena.
Erabil dezakegu Wikidata programazio-ariketak egiteko? Esaterako… datu asko dago udalerriei buruz. Saia gaitzen horiek erabiltzen!
Artikulu honetan aurtengo gure ikasleek landu dituzten ariketa eder batzuk erakutsiko ditut.

Ikaslee batek egindako programa baten zati bat
Euskal Herriko udalerrien datu batzuk eskuragarri daude Wikidatan,
EHko udalerrien biztanleria mapa batean

Beti ari gara ariketa abstraktuekin

Gehienetan programazioko ariketetako datuak zenbaki eta testu sinpleak izaten dira, testuingururik gabe eta maila abstraktukoak. Adibidez, ikusi enuntziatu orokor bi hauek:

Ariketa. Batezbestekoa
Zero zenbakiaz amaitzen den eta gutxienez beste zenbaki bat duen zenbaki osozko sekuentzia bat irakurrita, kalkula ezazu sekuentziako zenbaki positiboen batezbesteko aritmetikoa.

Ariketa. Zenbakia bilatu zenbaki ­osozko bektore batean
B oso­ bektore ez ordenatu batean zenbaki bat bilatzeko algoritmoa espezifikatu eta egin. Zenbakia bektorean badago, lehenengo agerpenaren posizioa itzuli beharko da; eta bestela, zero itzuli beharko da. Azpiprograma modura inplementatu.

Enuntziatu orokor horiek ondo daude, balio dute pedagogikoki abstrakzioa lantzeko, baina azken bi urtetan ikusi dut ariketa horietako batzuk datu errealekin egin daitezkeela, eta horrela ikasleak estimu handiagoa hartzen diola ariketari. Kasu horretan, egin duen programa errealitatearekin lotuago dagoela ikusten du ikasleak, ikusten du programatzen jakiteak ate berriak irekitzen dizkiola eguneroko bizitzan aritzeko. Ikusten du ikasgelan egin duen programa horrek, gero koadrilako lagunekin komentatzeko ere balio duela, baita txantxa batzuk egiteko ere, agian.

Ariketarik datu errealekin?

Ildo horretatik aurten urrian, ikastaro erdian ariketa pare hau proposatu diegu ikasleei:

Ariketa.
Gipuzkoako udalerrien batezbesteko biztanleria
Hainbat zenbakiren batezbestekoa kalkulatzen ikasi dugu gaur. Hemen dauzkazue Gipuzkoako udalerrien biztanleria eta azalera: https://w.wiki/ddj
Ea nork esaten didan zein den Gipuzkoako udalerrien batezbesteko azalera eta batezbesteko biztanleria.
Nafarroan? Bizkaian?

Alex Diez, Miren Samaniego, Leire Hernandez, Xabier Irastorza eta Juan Alagonek primeran asmatu zuten 🙂
Gipuzkoako udalerrien biztanle kopuruaren batez bestekoa 8.253 da.

Ariketa.
Zenbat herrikide dituzu Wikipedian?

Zenbat lanbide bakoitzean?
Zure herriko zenbat neska/mutil daude Wikipedian? Zenbat dira jarduera bakoitzean (futbolariak, politikariak, idazleak…) ?
Nondik lortu datuak?  Hemendik: https://w.wiki/BNp

  1. Wikidatako galdera honetan (https://w.wiki/BNp) Agurainen ordez jarri nahi duzun herria
  2. Emaitza esportatu ezazu ‘query.csv’ fitxategira.
  3. Eskuinaldeko ‘Jaitsi’ menuan hartu ezazu ‘CSV fitxategia’ aukera.
  4. Sortu den ‘query.csv’ fitxategia ekarri direktorio honetara.

Tamalez, azken ariketa hori ez zuen inork egin, lanpetuegi-edo egon ziren urriko aste hartan.

Hiru ikasleren programa txukunak Wikidatako datu errealekin

Baina geroago, bukaeran, abenduan, ikasle batzuek trebetasun minimo bat lortuta zutelarik, azken ariketa luze hau proposatu nien, ea inork ekiten zion erronkari:

Ariketa.
EHko udalerri honen antzekoena zein da beste probintzietan? 
Bizilagunen dentsitatea kontuan hartuta (biztanlea/zabalera) Datuak Wikidatatik jaso ditzakegu: EHko udalerrien azalera, biztanleria eta lurraldea (Ipar eta Hegoaldea)
Hortik datuak hartuta… Sartu dena bektore batean (edo probintzia bakoitzerako bektore bat). Kalkulatu dentsitateak eta orduan: Herri bat emanda bilatu beste probintzietako herrien artean zeintzuk diren dentsitate berdintsuak dituztenak

Besterik ez nien esan, beste laguntzarik ez. Ez zen erronka makala, eta irakasgaian landutako kontzeptu gehienak lantzeko balioko zuela uste genuen.
Eta hara! Hiru ikaslek programa zoragarri egin dituzte! Ederto landu dute ariketa eta ebazpen ederrak lortu ere gero. Horietako bik sortutako kodea eta dokumentazioa zuk ere ikus dezakezu, Githuben jarri baitituzte :

Irastorzaren emaitza batzuk. Biztanle dentsitateko herriak lerro bakoitzean.

Adibidez, zein dira biztanle-dentsitatean Gipuzkoako Lezo-rekin antza handiena duten herriak? Irastorzaren programak argi azaltzen du, hauek dira:

Laudio (Araban), Bermeo (Bizkaia), Basusarri (Lapurdi),
Eguesibar (Nafarroa Garaian), Donibane Garazi (Nafarroa_Beherean)
eta Maule-Lextarre (Zuberoan).

Euskal Herriko udalerrien datu batzuk eskuragarri daude Wikidatan,

Mundu osoko datuak, 300 hizkuntzatan

Baina Wikidatako datuak ez dira Euskal Herrikoak bakarrik, mundu osoko datuak dira. Eta gainera emaitzak hainbat hizkuntzatan eskuratu daitezke.
Hori dela-eta… azken ariketa pare bat proposatu diet ikasle horiei, ea baten batek egiten duen, EHkoa eginda edukiz gero beste hau askoz errazagoa da gero. Ezetz asmatu zure programa moldatzen gauza bera egiteko Espainiako udalerri (eta probintziekin) jolasten.

Ariketa.
Antzeko hiriak Amerikako Estatu Batuetan
.
Eta era berean… Estatu Batuetako hiriekin (probintzien ordez estatuak hartuta)?
(https://w.wiki/ufc Ameriketako Estatu Batuetako 10.000 hiri, bakoitza bere probintzia, biztanleria eta azalera)

Ariketa.
Espainiako antzeko udalerriak beste probintziatan
Egin berriro udalerriko ariketa baina esate baterako, Espainiako udalerri eta probintziekin
(https://w.wiki/ufM, Espainiako 6730 udalerri, bakoitza bere probintzia, biztanleria eta azalerarekin)
Edo Frantzian (https://w.wiki/ufJ, Frantziako 10.000 udalerri, bakoitza bere probintzia, biztanleria eta azalerarekin)
Oso aldaketa gutxirekin lortu ahal izango duzu.

Programatzen irakasteko jolastoki berriak

Oso pozik nago ikasle horiek egin dutenarekin, baina oraindik orain ez nago guztiz pozik. Nik proposatzen dizkiedan gaiak nahiko “formalak” edo “aspergarriak” direlako (biztanle kopuruak, azalerak eta halakoak). Oraindik ez dut lortu, baina erne, laster ikasleek eurek aukeratuko dituzte gustuko gaia (filmak? Bideo-jokoak? Kirolariak? Musika taldeak? edo dena delakoa) Eta gai horiei buruzko datuak Wikidatatik hartuta… programak gai horiekin ere erabiliko dituzte. 🙂

Eta koadrilako lagunei erakutsiko diete zer programatu duten.
Laster baietz! 😉

Gora datu irekiak! Gora Wikidata!
Programatzen ikasteko ariketa erakargarriak sortzeko aukera dira eta!

iItzulpen automatikoak jauzi ikaragarria egin du kalitatean azken bi urtetan, euskararako itzultzaile neuronalek ere bai. Itzulpenaren emaitza kalitate handikoa izaten da eta gainera modu masiboan erabil daiteke. Horrek aukera ezin hobea ekarri digu, orain Euskal Wikipediara askoz artikulu gehiago, testu-eduki askoz handiagoak ekar ditzakegu eta erraztasun handiagoarekin.

Bai, hasieran halaxe dirudi, baina kontuz ibili behar da. Kalitate handikoa baldin bada ere, itzulpen automatikoaren emaitza gainbegiratu egin behar du pertsona batek, gero zuzendu egin behar da, “posteditatu” egin behar dela esaten dugu. Horrek garrantzi itzela du. Testu itzuliaren postedizioa egiten ez badugu arrisku handia dago laster batean Wikipediako testu-zati askotan  kalitatea jaisteko.Hezkuntza Programan bereziki garrantzitsua da hori. Parte hartzen duten ikasleen lana artikulu bat automatikoki itzultzea baino ez bada, itxuraz emaitza oso txukuna da baina errealitatean ez da horrela izango. Testu itzulia zuzentzea, guztiz koherentea eta ulergarria uztea, ezinbestekoa da. Ikasleak berak egiten ez badu, irakasleek (edo wikilariek) egin beharko dute gero, eta hori lan handiegia izan daiteke hauentzat. Ikasleak, itzulpena erabili nahi badu, aurrikusi behar du gero testu itzuliaren zuzenketa egin beharko duela, eta horren arabera neurtu zenbat testu gehituko duen.

Ikus dezagun adibide bat. ingelesezko Wikipediako Password artikulutik  euskal Wikipediako Pasahitz artikulura  60.000 karaktereko ekarpena egin da. Ingelesezko artikulua bikaina zen, eta orain primerako artikulua da euskaraz ere. Lan itzela, ekarpen esanguratsua izan da euskarara hori ekartzea.  Baina paragrafo eder bat nahiko ulergaitz geratu zen.  Erromatar armadan kontsignak (pasahitzak) nola erabiltzen ziren azaltzen duen pasarte historiko hau zen:

Gauerako kontsignaren pasabidea ziurtatzeko modua honako hau da: infanteriako eta zalditeriako klase bakoitzeko hamargarren kirtenetik, kalearen beheko muturrean kanpatuta dagoen kirtenetik, gizon bat aukeratzen da guardiatik kanporatua izateko, eta arratsaldero joaten da tribunako dendara, eta harengandik kontsigna jasotzen du – Egurrezko ohol bat da, bertan idatzirik hitz bat duena –. – Agur esan eta bere geletara itzultzean kontsignak eta ohola lekukoen aurrean pasatzen dizkio hurrengo mangoko komandanteari, eta honek, berriz, Denek gauza bera egiten dute lehen manikietara iristen den arte, tribunoen dendetatik gertu kanpatutakoak. Azken horiek taula eman behar diete tribunalei, ilundu baino lehen. Beraz, jaulkitako guztiak itzuliak badira, tribunoak badaki kontsigna maniki guztiei emana izan dela, eta guztiengandik pasatu dela berarengana itzultzeko bidean. Horietakoren bat falta bada, berehala ikertzen du, marken arabera badakielako zein alderditatik ez den taula itzuli, eta geldialdiaren arduradunak merezi duen zigorra jasotzen du.

Testua euskaraz ondo eratuta dago, gainetik irakurrita ondo dagoela dirudi. Baina apur bat sakonduta, ondo ulertu nahi bada paragrafoaren esanahia, arazoak agertzen dira. Adibidez, manikiak azaltzen dira testuan. Zer dira maniki horiek? Ingelesezko jatorrizko testura joanda:

The way in which they secure the passing round of the watchword for the night is as follows: from the tenth maniple of each class of infantry and cavalry, the maniple which is encamped at the lower end of the street, a man is chosen who is relieved from guard duty, and he attends every day at sunset at the tent of the tribune, and receiving from him the watchword—that is a wooden tablet with the word inscribed on it – takes his leave, and on returning to his quarters passes on the watchword and tablet before witnesses to the commander of the next maniple, who in turn passes it to the one next him. All do the same until it reaches the first maniples, those encamped near the tents of the tribunes. These latter are obliged to deliver the tablet to the tribunes before dark. So that if all those issued are returned, the tribune knows that the watchword has been given to all the maniples, and has passed through all on its way back to him. If any one of them is missing, he makes inquiry at once, as he knows by the marks from what quarter the tablet has not returned, and whoever is responsible for the stoppage meets with the punishment he merits.

Ingelesezko testuan ez dago maniki bezalakorik, hor maniple azaltzen da, Wikipediako estekarekin gainera, esteka horrek euskarazko manipulo artikulura eramaten gaitu, erromatarrek soldadu multzoak antolatzeko erabiltzen zuten unitate bat zena. Ingelesezko paragrafoan bost aldiz azaltzen zen maniple, baina euskarazko itzulpenean hiru modu desberdinetara itzuli da: kirten, mango eta maniki. Ederra zorabioa! Antzekoa gertatu tribune hitzarekin, soldaduen nagusia dena euskaraz tribunoa da, baina testuan itzuli izan da tribuna (tribunoaren denda  –> tribunako denda)  eta tribunal moduan ere (taula eman behar diete tribunoei –> taula eman behar diete tribunalei). Horixe, ederra zorabioa, hori irakurrita hartu duguna! Ulertzerik ez badago… zuzendu egin beharko da. Ziur oraindik hobekuntzarik onartuko duela, baina apur bat ulergarriago honela geratu da paragrafoa:

Gauerako kontsignaren pasabidea ziurtatzeko modua honako hau da: infanteriako eta zalditeriako klase bakoitzeko hamargarren unitatetik (manipulotik), kalearen beheko muturrean kanpatuta dagoen manipulotik, gizon bat aukeratzen da guardia-zerbitzutik salbuetsia izateko, eta arratsaldero joaten da tribunoaren dendara, eta harengandik kontsigna bat jasotzen du — hitz bat idatzirik duen egurrezko ohol bat dena—. Agur esan eta bere geletara itzultzean kontsigna eta ohola lekukoen aurrean pasatzen dizkio hurrengo manipuloko komandanteari, eta honek berriro hurrengokoari, Denek gauza bera egiten dute lehen manipuloetara iristen den arte, tribunoaren dendatik gertu kanpatutakoak. Azken horiek taula eman behar diote tribunoari, ilundu baino lehen. Beraz, jaulkitako guztiak itzuliak badira, tribunoak badaki kontsigna manipulo guztiei emana izan dela, eta guztiengandik pasatu dela berarengana itzultzeko bidean. Horietakoren bat falta bada, berehala ikertzen du, marken arabera badakielako zein alderditatik ez den taula itzuli, eta gelditzearen arduradunak merezi duen zigorra jasotzen du.

Kontua da 50 minutu behar izan direla zuzenketa hori egiteko. Irakasleak (edo wikilariak) egindako zuzentze-lana txikia izan dela dirudi, egin duen karaktere-gehikuntza ikusita bederen (ia ordubete 348 karaktere bakarrik gehitzeko). Merezi izan du, bai, orain dezente hobeto ulertzen da, baina argitaratu den itzulpen hura gordin-gordina izanik denbora eta lan asko behar izan da zuzentzeko.

Ondorioz, asumitu behar dugu itzulpen automatikoa erabiliz gero erantzukizun handia hartzen dugula, gero testu hori ondo orrazteko, ulergarri eta atsegin bihurtzeko. Itzulpen automatikoa tresna itzela da; askoz artikulu gehiago, testu-eduki askoz handiagoak ekartzen ari gara Wikipediara eta erraztasun handiagoarekin; baina, kontuz, itzulpen automatikoa erabili eta gero… ‘giza zuzenketa’ behar da.

Pasa den ekainean Jose Ramon Etxebarriaren omenezko liburuan artikulu bat idatzi nuen. Abiapuntua galdera hau zen: Zelan sortzen da Wikipedian pertsona baten artikulua? Pista batzuk ematen nituen hori egiteko , eta gainera, aitzakia horrekin, adibideetan Joserraren artikuluko osagai batzuk erabili nituen. Joserra izan zen nire irakasle handienetako bat, Fisika irakatsi zidan eta euskaraz idazten irakatsi zidan. Eskerrik asko Joserra! Liburuan idatzi nuena wikilarien blogean ere baliagarria izan daitekeenez… apur bat moldatu… eta blog honetara ekarri dut.
ftxi

Motibazioa

Heroi ugari ezezagunak dira gure inguruan, pozgarria da horrelakoak deskubritzea eta gizarteari eredu moduan aurkeztea. Jarduera horretan hasi nintzen ni orain dela hiru urte, Donostiapedia bultzatzen hasi ginenean konturatu nintzen ni Wikipediako biografietan zegoen hutsuneaz. Adibidez, donostiarren artean 2016ko udan 392 gizonezko zeuden, baina emakumezkoak 100 baino ez ziren. Zelako hutsune! Eta antzeko panorama zegoen ofizioetan ere; pertsona gehien biltzen zituztenak lanbide hauek ziren: idazle (112), politikari (59), futbolari (56), aktore (44), kazetari (25), arraunlari (19) edo kirolari (16). Meritu handikoak dira ofizio horiek guztiak, zalantzarik ez dago, baina ziur ados zaudela nirekin: kirolari gehiegi, telebistako pertsonaia gehiegi zeuden hor. Edo hobeto esanda, barkatu, horiek ez daude soberaz baina hutsune nabarmenak daude hor; esaterako, unibertsitatearen mundutik inor gutxi zegoen; ematen zuen Wikipediako mundu honetan unibertsitateko gaiak ez zirela ez aipagarri, ez eta erakargarri ere. Zuek bezalaxe egoera horrekin ez nago ados; ea 40 urtean zerbait erakutsi badit UEUk, hori da gero, zientziaz eta jakintzaz aritzen garenean gozatu ere egiten dela.

Wikipediako hutsune hori oso nabarmena zen, bai; eta zer egin behar zen horren aurrean? Oihukatu? Ernegatu? Bai, apur bat bai; baina garrantzitsuago zen hutsuneak betetzen hastea. Eta horixe da oraindik dugun erronka: gozagarri zaizkigun zientzia eta jakintza horietako eragile eta sortzaileak azalera ekartzea, plazara ateratzea. Ados? Wikipedian lan egiteko prest? Ongi etorri! Hona hemen ‘wiki-lanerako’ pista batzuk.

1. pista. Batu informazioa: liburutan, Interneten…

Pertsona baten artikulua sortzea edo osatzea erabakitzen duzunean lehenengo urratsa datuak batzea da. Zuk dakizuna abiapuntua izan daiteke baina erreferentziak behar dituzu idatziko duzuna egiazkoa dela erakusteko. Ziur Google-k lagunduko dizula horretan, komunikabideek ere bai (berria, argia, eitb…). Argazki kontutan sarean aurkituko duzun edozein argazkik ez du balio, kontuz.

Webgune horretan behealdean CC-BY-SA lizentziaren iruditxo hori agertzen bada… primeran; bestela bilatu webgune hauetako batean: CC Search, Flickr (Aitortu eta Konpartitu), Google Advanced Image Search, edo Wikimedia Commons advance search.

2. pista. Moldatu Wikipedian dagoen antzeko beste pertsona baten eskema.

Zeintzuk dira lortu dituzun datuak? Zeintzuk dira printzipalak? Zeintzuk bigarren mailakoak? Nola antolatu zenbait ataletan? Osa dezakezu artikuluaren eskema bat?

Hasiberria bazara edo galduta sentitzen bazara bilatu Wikipedian antzeko soslaia duen beste pertsona bat. Gustatzen zaizu? Baliagarria da bere eskema? Atalak? Kategoriak? Horrela bada kopiatu beste pertsona horren artikulua, eta hartu ezazu abiapuntu modura artikulu berri bat osatzeko, eta noski, ondo egokitu zure pertsona berri horren datuekin.

Adibidez, Joserra Etxebarriaren artikuluan hainbat paragrafo zeuden pasa den urrian, denak jarraian eta egiturarik gabe, ataletan bereizi gabe. Zaila zen Joserra polifazetikoaren informazioa antolatzea. Nola egin? Itxaron, Txillardegi ere nahiko polifazetikoa zen eta antzekotasuna bazuen Joserrarekin. Txillardegiren artikulua ikusi eta bere antolaketa erabilgarria iruditu zitzaigunez, Joserraren artikuluari antzeko egitura ematea erabaki genion.

Zein kategoriatan jarri Joserraren artikulua? Horretan ere Txillardegirenak kontuan izatea lagungarri izan zan.

3. pista. Lortzeko irudi errazenak Commons-ekoak edo zuk egindakoak dira.

Artikulu batean txertatzeko, argazki errazenak Wikimedia Commons zerbitzu barruan sartuta daudenak dira, noski.

Argazki berri bat sartu behar bada, orduan errazena norberak egin dituenak sartzea da. Horrelakoetan Commons-era joan ‘Fitxategia igo’ aukeratu eta esan argazkia zurea dela eta CC-BY-SA lizentzia bat ematen diozula. Berehala sartu ahal izango duzu artikuluan goian esan bezala.

Bestela, argazki kontutan kontuz, ezin duzu igo sarean aurkituko duzun edozein argazki. Webgune horretan behealdean CC-BY-SA lizentziaren iruditxoa agertzen bada primeran; argazkia zeure konputagailura jaitsi, igo gero Commonsera eta adierazi nondik jaso duzun eta CC-BY-SA lizentzia hori duela. Adibidez Joserraren argazki bat aikor.eus aldizkaritik hartuta dago.

Hala ere, buruhausteak izan ditzakezu. Kartel pribatu bati argazki bat egiten badiozu, atzera botako dizute argazkia. Jabetza izan dezakeen aztarna txikiena baldin badago, ondo defenditu beharko duzu argazki hori argitaratzeko baimena duzula. Adibidez, ez da ohikoa baina asko sufritu dut nik azken bi urteotan zehar Joserraren kartel mitikoa, Suarezi erantzuteko modua izan zena, Wikipedian argitaratzeko nahian; eta oraindik ez dut lortu. Hainbat gestio eginda lortu nuen aurrezki kutxak Flickr-en argitaratzea CC-BY-SA lizentzia egokiarekin.

Baina Commons-eko gainbegiratzaile batek kartelean behean erdialdean zeuden inprimategiko letra txiki batzuk ikusi zituenean hor balizko jabetza intelektuala egon daitekeelakoan argazkia ezabatu zuen berriro.

Ondorioz, ezin da jarri Wikipedian kartel hori. Pena da, Joserraren izaera eta ekarpena kartel horrek ezin hobeto islatzen du eta. Irakurle hori, baldin badakizu zein zen inprimategi hori (E??E ELEXPURU HNOS. S. A. -BILBAO D. L. ??-???? -1978), lagunduko bazenigu haiekin kontaktuan jartzen… beste saio bat egin genezake kartela Wikipediara ekartzeko.

4. pista. Erreferentziak erraz-erraz txertatuko dituzu URLa edo ISBNa ezagutuz gero

Komeni da artikuluan erreferentziak gehitzea, testuan esaten dena egiaztatzeko aukera eman ahal izateko, edo edukietan sakontzeko. Erreferentzia horietako bat eskuz sartzea minutu batzuetako lana izan daiteke. Baina sartu behar duzun erreferentzia bat webean badago segundo gutxi batzuetan egin dezakezu automatikoki ‘ikusizko‘ edizioan ‘Aipatu’ botoia eta ‘Automatikoa’ aukeratuta sartu webgunearen helbidea (URLa) eta listo. Beti ez du harrapatzen informazio guztia (jai duzu webguneak metadatu horiek definituta ez baditu, noski), baina sarritan bai, eta oso txukun geratzen da. Berdin gertatzen da erreferentzietako bat liburu bat bada, ISBNa emanda automatikoki lortuko dizkizu liburuaren datu guztiak.

A! Erreferentziak direla-eta, pertsona hori unibertsitatekoa bada ez ahaztu Ingumako erreferentzia gehitzen. Ingumaren informazioa ematea oso aberasgarria izaten da. Horrelako esalditxo bat gehitu:

Euskal komunitate zientifikoaren Inguma datu-baseak, guztira berak sorturiko 170 lan baino gehiago erakusten ditu.[22]

22 Jose Ramon Etxebarriaren produkzioa Inguma datu-basean (>170 produktu).

Azken pistatxo batzuk, miszelanea.

Birzuzendu

Jose Ramon Etxebarria da artikuluaren izenburua, baina hainbatek Joserra Etxebarria bilatuko dute. Zer egin horiei erantzun egokia emateko? Definitu beste artikulu bat Joserra Etxebarria izenburuarekin eta hor testutxo hau bakarrik jarri:

#BIRZUZENDU [[Jose Ramon Etxebarria]]

Idazlan guztien zerrenda luzea bada aparte jarri, beste artikulu batean

Joserraren kasuan idazlan kopurua oso luzea denez, eta artikulu nagusiaren irakurterrezago izan dadin, aparte beste artikulu batera atera dira. Artikulu nagusian garrantzitsuenak bakarrik azaltzen dira, azalpen batekin kasu gehienetan.

Ezin duzu testuak literalki kopiatu

Nahiz eta erreferentzia bat gehitu, ez badaukazu hori egiteko baimenik, nonbaitetik jaso duzun esaldi oso horiek ezin dituzu berdin-berdin kopiatu. Beste modu batera moldatu beharko duzu hori.

Artikulua modu inkrementalean osa dezakezu

Hasieran artikuluaren bertsio minimo bat argitaratu dezakezu: paragrafo zehatz bat edukiaren ideia nagusia ondo azaltzen duena (pertsonaren ezaugarri nagusiak) erreferentzia bat eta kategoria(k). Geroxeago joan zaitezke zatika oinarrizko artikulu hori osatzen: paragrafo berriak, argazkiak, Wikipediako beste artikulu batzuetarako estekak… Zatika egin dezakezu, bai, baina kontuz, argitaratzen duzun bitarteko bertsio bakoitza egoera koherente eta irakurgarrian utzi behar duzu.

Zirriborroa

Noizbait egoera ez-koherente batean edo osatugabean utzi behar baduzu artikulu bat, adierazi beharko zenuke artikulua zirriborroa dela (artikuluko hasieran gehitu hau: {{Zirriborro}}).

Norberaren proba orria

Artikulu bat argitaratu baino lehen esperimentatu dezakezu Wikipediako zeure proba orri propioan, oraindik publiko orokorrerako argitaratu gabe; noski, kontu bat zabaldu baduzu. Eta hori lehenbailehen egin behar duzu Wikipedian parte hartu nahi baduzu. Nik probak egiteko orri hau daukat: https://eu.wikipedia.org/wiki/Lankide:Ksarasola/proba

Zure proba orriaren helbidea oso antzekoa izango da, noski.

Zuk ere idatzi Wikipedian

Bukatzeko eskaera bat: lagundu, mesedez, Wikipediako hutsuneak betetzen. Artikulu berriak sortu edo Joserraren artikulua bera ere osa dezakezu. Ez da artikulu laburra, baina badira hainbat puntu oraindik osa daitezkeenak. Gehitu dezakezu, esate baterako, behin Gernikako Juntetxean atxilotu zutela, edo Joserraren iniziatibari esker ingeniaritzako bere ikasleek aurten 40 bat artikulu sortzen ari direla Wikipedian, ‘1.000 artikulu 12-16 urteko ikasleentzat’ proiektuaren barruan.

Pasa den asteburuan  Wikimedia Hackathon izan da Bartzelonan, asteburu batez Wikipedia hobetzeko tresnak helburu duen bilera. Euskal ordezkaritzan bost izan ginen eta hauek izan ziren gure ekarpen nagusiak:

Igor Leturia eta Galder Gonzalez, Hackatoian

Igor Leturiak saio berezi bat antolatu zuen ostiralean, Elhuyar Fundazioarekin batera lantzen ari garen proiektu bat azalduz: Wikispeech: Text-To-Speech technology for accessibility.

Elhuyar Fundazioa eta EWKEren artean Wikipediako artikuluak “entzuteko” aukera asmatu dute Suediako Wikilariekin, eta euskaraz ere instalatzeko lanean ari gara. Oraindik ere ezingo da entzun, hainbat software-proba pasa behar baititu martxan jarri aurretik. Besteak beste, laburdurak ondo irakurtzeko sistema bat eta irakurketa pausatzeko botoia gehitu ditu Leturiak egun hauetan.

Galder Gonzalez eta Amador Álvarez, txantiloi automatikoak lantzen

Galder Gonzalezek Amador Álvarez katalanarekin saio berezi bat antolatu zuen Wikipediako infotaula automatikoei buruz. “Supercharge your wiki: Wikidata-powered infoboxes“. Infotaula horiek zelan definitzen ari diren azaldu zuten. Lehen eskuz adierazi behar ziren propietate guztiak, orain Wikidatatik hartzen dira datu guzti horiek automatikoki. Bertan izan ziren Wikidatako hainbat arduradun, eta sorpresa ederra izan zen eurentzat katalanek eta euskaldunok garatu dugun puntako sistema hau.

Berriki sortutako Wikitekan ere lan egin genuen, aurretik Euskal Herrian gai honi buruz hizketan egon zen Carles Paredesekin. Sistema hobetu, eta falta ziren hainbat gauza instalatu genituen.

Maite Urra-k eta Oscar Sainz-ek Euskal Wikipediako artikuluen kalitatea aztertzeko laguntza teknologikoak aztertu dituzte ORES sistemarekin, urtean zehar ibili dira hori prestatzen Montse Maritxalar irakaslearekin. Hackatoian Galder Gonzalezek eta Kepa Sarasolak lagundu zieten, kalitate handiko 800 artikulu identifikatu zituzten eta 3.000 zirriborro. Editoreek artikulu batzuetan ezartzen dituzten txantiloiak ere baliagarriak izan daitezke kalitatea etiketatzeko ({{zuzendu}}, {{zirriborro}}, {{wikitu}}, {{erreferentzia falta}}{{zaharkitua}}…). Xuxen pasata, artikulu batek zenbat errore ortografiko dituen jakiteak ere laguntzen du kalitatea neurtzen. Guztira 20 irizpide kontuan hartuko dira.

Maite Urra, Oscar Sainz eta Kepa Sarasola, Wikidatako gelan ORESen lanean.

Egindako lanetik abiatuta, Wikimediako ORES sistemaren arduraduna den Aaron Halfakerrek 400 artikulutako lagin bat prestatu zuen beraien kalitatea etiketa genezan eta gero ikasketa automatiko bidez artikuluen kalitate maila aurreikusi ahal izateko: “Train/test article quality model for euwiki“.

Kepa Sarasolak Daniel Kinzler-en laguntzarekin Euskal Wikipedian eta Espainierazko Wikipedian dauden artikuluen tituluekin corpus elebidun bat sortu zuen (Wikipedia_tituluak_es_eu_2018). Hau da hasierako corpus gordina lortzeko exekutatu zuten sql galdera:

sql eswiki 'select page_title as es, ll_title as eu from langlinks join page on page_id = ll_from where ll_lang = "eu" and page_namespace = 0' > es-eu.txt

Honi esker itzulpen automatiko sistemak hobetzeko aukera bat zabalduko da ikaskuntza automatikoko sistematan.