Euskal Wikilarien Kultura Elkarteak EHUrekin batera lantzen duen hezkuntza programaren baitan proiektu berri bat abiatu genuen iaz Informatika Fakultatean. Kepa Sarasolaren ikasleek euskarazko hizkuntza baliabideak erabiliz programaren bat egin behar zuten, eta Wikimedia erabiliz proposamen batzuk egin genizkien. Horietako bat, katalanez egindako MineralBot programaren euskarazko bertsioa lantzea, 2019ra arte deskribatutako mineral guztien artikuluak egiteko. EUMineralBot proiektua jaio zen, MinDat webgunetik datuak atera eta euskaratzen zituena, baina mineralen artikuluak ez ziren igo, sistemak ondo funtzionatu bazuen ere, akats nahiko baitzituen.

Azken hilabetean EUMineralBotek egindako lana hartu eta euskarazko Wikipedian mineral guztien artikuluak egoteko lanarekin jarri naiz, ahal den heinean tresna automatizatuak erabiliz lan hori errazago egiteko. Azken finean, ia 5.500 mineral daude eta bakoitza eskuz egin behar bada, urte osoko lana izango litzateke. Gainera, euskara izan da lehen hizkuntza mineral guztiak igotzen, eta horrek zailtasun gehigarria eman dio prozesuari.

Dundasita eta krokoita

Terminologia itzultzearen muga

Mineral guztiak igotzeak automatizazioaren mugarekin egin du topo: inteligentzia artifizialarekin gauza asko egin badaitezke ere, terminologiaren itzulpena oraindik ez da hain ona. Olatz Perez de Vi├▒asprek egindako terminologiaren itzulpen automatiko sistema erabili zen mineralak euskaraz jartzeko, bereziki osasun eremua eta kimikakoa ondo itzultzen duelako. Baina mineralen izendapena, askotan, pertsona edo leku bati loturik egoten da. Zaila da sistema automatiko batentzat jakitea Phillipsitako “ph” hori mantendu behar dela baina “Phyllita” izena “filita” bezala jarri behar dela; are zailago mineralaren izenekin omendutako zientzialaria errusiar jatorrikoa bada modu batean transliteratu behar dela jakitea, baina ez antza handia izan dezakeen txekiar bat. Eta, batzuetan, mineral baten izenean errusiar erro bat eta greziar erro bat egon daitekeela jakitea: lehenengoa modu batera transliteratu behar da, bigarrena bestela.

Horregatik, EUMineralBotek egindako letra bakoitzeko probak (hemen, adibidez, C letrarekin egindakoak) bereizi eta eskuz gainbegiratu behar izan dira, izenak ondo dauden edo aldatu behar den jakiteko.

Andradita

Artikuluak automatikoki igotzea

Artikuluak automatikoki igotzeko pywikibot sistema erabili da. Pywikibotek agindu sinpleekin artikulu sortak egiteko aukera ematen du, testu egituratu bat emanez. EUMineralBotek egindako lana jaitsi, testu prozesadore sinple batean sartu (nik Notepad++ erabili dut) eta beharrezko aldaketak egin dira pywikibotek ulertu ahal izateko.

Hasiera batean hainbat letra igo banituen ere, laster ikusi nuen errazagoa zela letrarik letra joaten banintzen, errazagoa zelako guztia antolatzea eta egindako akatsak detektatzea. Letra bakoitzak, gainera, aldaketa ezberdinak eskatzen zituen. Bereziki zailak izan ziren c eta k letrak, erraz uler daitezkeen arrazoiengatik.

Wulfenita

Artikuluak Wikidatarekin parekatzea

Gauza bat da artikuluak igotzea, beste bat da Wikidatarekin lotzea, irudiak eta beste hizkuntzetara loturak errazago lortu ahal izateko. Pauso hau ematea erraza izaten da beste hizkuntza batean mineral guztiak daudenean, baina kasu honetan lehenengoak izan gara mineral guztiak igotzen.

Artikuluak parekatzeko erabilitako sistemarik errazena Quickstatements erabiltzea da. Baina horretarako jakin behar da Wikidatan ze kode duen mineral bakoitzak. Prozesu horretan bi tresna aurkitu ditut. Lehenengoa Duplicity da, artikulu baten izen berarekin Wikidatako sistema osoan beste bat badagoen esaten dizuna. Mineralak, ordea, izen berbera eduki behar du beste hizkuntza batean.

Bigarren tresna Wikipedia and Wikidata Tools izan da, Google Docsekin parekatu eta kalkulu orrialde batean Wikidatan bilaketak egiteko aukera ematen duena. Oso tresna azkarra da, zerrenda bat emanda kalkulu errazarekin loturak eskaintzen dizuna. Wikipediaren mantentze lanak egiteko aurkikuntza ederra.

Almandinoa

Ohiko zuzenketak egin

Behin artikuluak igota, ohikoa da askotan errepikatzen den akats bat aurkitzea. Izan daiteke akats gramatikala, edo aurretik egindako lan guztien ondorioz gaizki igotako kode informatiko bat. Gure kasuan, gainera, formula kimikoak egoki jartzeko hainbat aldaketa egin behar genituen, MinDaten dagoen formatoa ez zelako egokiena.

Horretarako pywikibot erabili dut berriro ere. Badago bertan replace.py deitutako kode bat, ohiko zuzenketak edo aldaketa metodikoak egiteko aukera ematen duena. Milaka aldaketa egin dira tresna horri esker, egun pare batean.

Selenita, Naicako haitzuloan

Kategorizazio egokia

Wikipedian ari garenok kezka berezia dugu artikuluen kategorizazioarekin. Artikuluak kategoriaren arabera aurkitzea garrantzitsua da, baina horretarako mineral bakoitza nola kategorizatu pentsatu behar da. Kasu honetan, sistema-kristalinoaren arabera eta bere formulan dagoen elementuaren arabera egin nahi nuen. Bi kasuetan erabilitako tresna QuickCategories izan da, modu masiboak artikuluak kategorizatzeko aukera ematen duena.

Mineralaren sistema-kristalinoa jada egina dago Wikidatan. Beraz horko informazio guztia jaitsi eta LibreOffice erabilita komandoak egin nitzuen QuickCategoriesen erabili ahal izateko. Azkar batean 5.500 mineral horiek berrantolatu genituen, eta posible da orain mineralak sistema-kristalinoaren arabera bilatzea.

Bigarrena zailagoa zen. Alde batetik, mineral guztien formula ez dagoelako Wikidatan. Bestetik, formula horiek despiezatu eta nolabait lortu behar delako elementu bakoitzarekin lotzea. Horretarako, laburrean, bi tresna erabili ditut. Lehenengoa LibreOffice bera izan da, formula batekin elementu bakoitza bilatu (Hg agertzen bada formulan, Merkuriodun minerala da). Bigarrena, zailagoa: OpenRefine. Bertan Wikidatan formularik ez zuten mineralak jaitsi, scrapper moduko bat egin eta euskarazko Wikipediako edukia jaitsi nuen. Ondoren, formula kimikoaren atala bilatu eta hori bakarrik isolatu nuen, berriro ere LibreOfficekin kalkuluak egin ahal izateko. Honela, mineralak elementuaren arabera sailkatutako ditugu.

Dolomita eta magnesita

Ondorioak

2019ra arte argitaratutako mineral guztien artikuluak ditugu orain euskarazko Wikipedian. Lehenengoak gara hori egiten eta artikuluak oso zabalak ez badira ere, informazio basikoa eskaintzen dute. Ez da hori bakarrik: milaka mineral horien izenak eskuz errebisatu dira, eta baliteke oraindik akatsen bat egotea. Baina, ikaskuntza automatikoari esker, errazagoa izan liteke aurrerantzean hitz teknikoen terminologia itzultzea. Azken finean, hizkuntza batetik bestera pasatzeko behar duguna corpusak dira, eta Wikipedia horretan beti doa aurrean.

Mineral artikulua bera EHUko ikasleek hobetu dutenetako bat da. Orain, mineral guztiak ere hortik jaiotako lankidetza bati esker baditugu. Disfruta itzazu.

Banadinita eta baritina