Nola osatu dugun Austria bot batek lagunduta
Begiratu goiko GIF animatuari. 2024ko abenduaren amaieran euskarazko Wikipedian zeuden koordenatudun artikuluak erakusten ditu bi irudietatik lehenengoak. Hilabete eta erdi pasata dugun egoera islatzen du bigarrengoak. Puntu gehigarri ugari egongo dira, baina nabarmena da Austria osoa argitu dugula. Eta, horretan laguntzeko, bot bat erabili dut, antzeko artikuluak azkar egiteko aukera ematen duen tresna bat. Artikulu honetan saiatuko naiz labur azaltzen nola egiten den, baina, batez ere, horrek dituen arazoak aipatu nahi ditut. Izan ere… artikulu ugari bot bidez egiteko aukera badago, zergatik ez dugu gehiagotan baliatzen?
Urteko txostena prestatzen ari ginela, gure artikuluen zabalpen geografikoa aztertzea interesgarria iruditu zitzaidan. Horretarako, Quarry tresna erabili nuen, Wikipediako datu-basea aztertzea baimentzen duena. Emaitza kalkulu-orri gisa jaitsi eta Kepler.gl tresna erabilita mapa bat egin nuen azkar. Mapak gure egoera erakusten du: Euskal Herrian puntu ugari, Europar Batasunean eta Erresuma Batuan ere, nabarmen. Ez dakit nork esan zidan: “zer egin dizue Austriak?”

Ez digu ezer berezia egin, eta guk ere ez dugu ezer berezirik egin ere Austriarekin. Sinpleki, hiri nagusien artikuluak genituen, mendi gailurren bat, monumenturen bat. Baina inguruko herrialdeetan ez bezala, ez genuen bertako udalerri bakoitzari eskainitako artikulu labur horietako bat. Ez genuen egin, hori zen guztia.
Herrialde bateko udalerri guztien artikuluak sortzea ez da lan hutsala. Artikulu sinpleak izanagatik ere, euskarazko Wikipedian Wikidatarekin datu multzo handia automatizatzeko aukera izanda ere, 3-4 minutu har ditzake artikuluko testua moldatzeak, argitaratu, kategorian sartu eta beste hizkuntzekin lotzeko prozesuak. Agian pixka bat gutxiago, baina, noizbehinka, etenaldiak egiten ditugu gizakiok. Batez ere ni bezalakoak bazarete, eta azkar despistatzen bazarete beste gauzaren batekin. Austriak 2.100 udalerri baino gehiago ditu, hau da, kalkulu optimista bat eginez, 100 bat ordu behar dira udalerri guztiak Wikipediara ekartzeko. Eta izateagatik, baditut 100 ordu, baina agian ez horri eskaintzeko. Lana sinplifikatzeko modurik bat bilatu beharko genuke…
Eta hor sartzen dira botak. Botak gu laguntzeko sortutako software piezak dira, berariaz egiten ditugun programak. Nireak TheklanBot du izena, eta milaka orrialde sortu, zuzendu edo aldatu ditu euskarazko Wikipedian. Bot automatizatuak badaude ere (adibidez, lan administratiboa egiten dutenak), TheklanBot berariaz elikatu behar den bot bat da, ez du ezer ere egiten ez badut nik programatzen eta ez badiot egiteko agintzen. Hau da, lana eman behar zaio, eta berak gaitasuna du azkarrago egiteko: artikulu bat sor dezake segundoko. Nekatu gabe, aspergarria dela pentsatu gabe. Hori da bere gaitasuna, horretarako erabili beharko genituzke makinak: aspergarriena dena gure ordez egin dezaten.
Nola entrenatu zure bota
[Oharra: ondoren datozen hiru atalek azalpen teknikoa eskaintzen dute. Teknikoak baino, gaiaren inguruan dauden eztabaidak interesatzen bazaitu, salto egin azken atalera]
Bot batek zerbait egin dezan, guk lan pixka bat egin beharko dugu. Gure kasuan, Austriako udalerri bakoitzari buruzko artikulu bat nahi dugu, eta horretarako jakin behar dugu nola lortu Austriako udalerri guztiak. Zorionez, Wikidata existitzen da, eta bertan posible da Austriako (ia) udalerri guztien izena jaistea. Ia diot, ikusiko dugunez, eskualde oso bat falta zelako. Berez, hori nahikoa izango litzateke, gure artikuluaren edukia “Stolzalpe Austriako udalerri bat da” izango balitz. Baina Wikipedia entziklopedia bat da, eta hori baino pixka bat gehiago eskatu beharko genuke artikulu bat sortzeko. Zorionez, Austriako udalerrien informazio nahiko dago Wikidatan: udalerri bakoitza zein barrutitan dagoen, zenbat biztanle zituen azken zentsuan eta zein azalera zuen. Horrekin sortu dezakegu artikulu pixka bat luzeagoa: “Gosdorf Austriako udalerri bat da, Südoststeiermark barrutian. Azken zentsuaren arabera 1.152 biztanle zituen, 15,64 kilometro karratuko azaleran.” Ez da asko, baina uste dut nahikoa izan daitekeela lehen zirriborro bat sortzeko.
Wikidatako galderak, beraz, jaso beharko du “Austriako udalerria” izatea (mota bat baino gehiago daude), zein eskualdetan dagoen, zein den bere biztanleria eta zein bere azalera. Eta, horrekin, kalkulu orrialde bat jaitsi dezaket, CSV formatuan. LibreOfficekin irekita, datuekin jolasean has gaitezke:

Lehenengo zutabean Wikidatako erreferentzia dugu, QXXXX moduan. Ondoren, udalerria, biztanleria eta zein barrutitan dagoen. Kalkulu orrian aldaketa bat eginda, “Kufstein barrutia” bikoiztu dugu eta “Kufstein barrutiko” zutabea ere sortu dugu. Horrelako gauzek laguntzen dute artikuluaren amaierako formatuarekin. Honaino, ez da bereziki zaila, baina hurrengo pausoak badu zailtasun txiki bat: kalkulu orriko formula baten bidez, lortu behar dugu artikulu baten testua egitea. Nire formula honakoa izan da:
="xxx'''"&B2&"'''{{hiri infotaula}}QQQ'''"&B2&"''' [[Austria]]ko udalerri bat da, [["&D2&"]]n. Azken zentsuaren arabera {{biztanleria automatikoa}} biztanle zituen, {{azalera automatikoa}} kilometro karratuko azaleran.QQQ==Kanpo estekak ==QQQ{{autoritate kontrola}}QQQ[[Kategoria:"&E2&" hiri eta herriak]]yyy"
Ez egin kasu hasierako “xxx” eta amaierako “yyy” kode horiei. Behar ditugu, botarentzako hasiera eta amaiera oharrak direlako. QQQ horrekin gero lerro hausturak non dauden adierazten dut, ez-ohiko karaktere sekuentzia bat delako. Beste guztia wikikodea da: [[artean dagoena]] lotura bat da; {{artean dagoena}} txantiloi bat, Wikidatarekin automatikoki gaurkotuko dena. ==Artean dagoena== izenburu bat da. Eta, ikusten duzunez, kategoria bat ere behar dugu, amaieran. Zutabe oso batean formula errepikatuta, itxura berbera duten 2.100 zelda lortuko ditugu, bakoitza artikulu desberdin baten testu antzekoarekin:
xxx'''Dornbirn'''{{hiri infotaula}}
'''Dornbirn''' [[Austria]]ko udalerri bat da, [[Dornbirn barrutia]]n. Azken zentsuaren arabera {{biztanleria automatikoa}} biztanle zituen, {{azalera automatikoa}} kilometro karratuko azaleran.
==Kanpo estekak ==
{{autoritate kontrola}}
[[Kategoria:Dornbirn barrutiko hiri eta herriak]]yyy
Lerro hausturak (QQQ) benetako lerro-haustura bilakatuta (testu editore batean QQQ-ren ordez \n jarrita) testu fitxategi luze bat izango dugu, artikulu guztiekin jarraian, xxx-yyy artean mugatuta, Wikipediara igotzeko prest.
Artikuluak sortzeko prozesua
Artikuluak igotzeko bot kontu bat behar dugu Wikipedian. Bere horretan, ez da beharrezkoa, baina milaka aldaketa aldi berean igoko baditugu, komunitatearentzako onuragarria da zure kontua gizaki bat ez dela esatea. Ez hori bakarrik, komenigarria da esatea bot horren atzean zein gizaki dagoen, arazoren bat aurkituz gero benetako pertsona bati kontuak eskatzeko. Nire kasuan, hemen dago onartutako botaren aurkezpena.
Bertan dioen bezala, Pywikibot erabiltzen dut artikuluak igo, aldatu edo lantzeko. Pywikibot Python erabiltzen duen programa bat da, dagoeneko ohiko gauza asko egiteko gai dena, komando txikiekin. Hau da, ez duzu zertan Python ezagutu behar bot bat erabiltzeko, beti ere egingo duena estandarra baldin bada. Zorionez, badugu Pywikibot sarean erabiltzeko aukera bat, gure ordenagailuan instalatu behar izanik gabe (nahiz eta komenigarria den bertan edukitzea, aldaketak egin nahi baditugu). Paws erabilita, terminal bat izango dugu dagoeneko Pywikibot instalatuta duena, Jupyter koaderno baten baitan (hemen informazio gehiago).
Behin Pawsen terminal bat irekita, egin behar dugun bakarra da aurretik sortu dugun fitxategia igotzea, testu orrialde berri gisa. Adibidez, austria.txt deitu dezakegu. Erabiltzen dugun lehen aldia bada, konfiguratu beharko dugu esateko euskarazko Wikipedian arituko garela, eta zeintzuk diren bertan gure kredentzialak. Baina, esandakoa, hau ez dugu etengabe egin beharko. Barruan egonda, pywikiboten liburutegiko programak erabil ditzakegu, nire kasuan pagefromfile.py izenekoa.
pwb.py pagefromfile -begin:xxx -end:yyy -notitle -file:austria.txt -pt:5
Hori izan da sartutako kodea. Lehenengoak pywikibot martxan jartzea eskatzen du, ondoren pagefromfile izeneko programa. Bertan ditugun aldagaiak dira -begin: non nik xxx jarri dudan (gogoratu testuaren hasieran jarri dugun kode hori). -end:yyy izango da artikulua non amaitzen den esaten dion kodea. Artikuluaren hasieran izenburua dago (xxx”’Dornbirn”'{{hiri infotaula}}), kasu horretan ”’artean dagoena”’. -notitle jarrita esaten diogu artikulua igotzerakoan, hori ez jartzea artikuluan. -file:austria.txt aldagaiak esaten dio non dagoen gure informazioa. Azkenik -pt: hori “put throttle” da. Hau da, jarri frenoa. Ez badiogu esaten, 10 segundoan behin edo sortuko du artikulu bat, baina guk azkartu dezakegu, adibidez 5 segundoan behin, edo -pt:1 jarrita, segundoero bat. Noski, azkarrago izango da, baina zerbitzarian arazo gehiago sor ditzakegu, artikuluen igoera oso azkarra izango da, eta zerbait gaizki egin badugu, oso tarte txikia izango dugu erreakziorako. Komenigarria da, horregatik, lehenengo artikulu bat soilik sortzea, dena ondo dagoela ikusteko. Enter sakatuta, ero moduan hasiko da artikuluak sortzen.
Igo ostean, zer?
Prozesua ez da hor amaitzen, noski. Artikuluak igo ditugu, baina oraindik ez ditugu lotuta beste hizkuntzetara, kategoriarik ez dugu sortu, eta ez dugu konprobatu nahi genuen guztia hor dagoela.
Lehenengo arazoa erraza da: gure kalkulu orrian bagenuen QXXX moduan hasten zen kode bat, lehenengo zutabeak. Nik QuickStatements erabiltzen dut lan hau automatizatzeko. Bertan hiru zutabeko aginduak beharko ditugu, subjektua (QXXX), aditza (seuwiki, hau da, euskarazko Wikipediako sitea) eta gure artikuluaren izena, adibidez “Dornbirn”. Hiruak tabulazioz bereizitan egon beharko dira. Horrelako zerbait
Q171219 seuwiki "Dornbirn"
Q183104 seuwiki "Feldkirch"
....
Guztiak QuickStatementsen jarrita, 5-6 segundo beharko ditu artikulu bakoitza bere Wikidatako orrialdearekin lotzeko.
Bigarren arazoa, kategoriena, konplexuagoa da. Hauek ere automatizatu ditzakegu, berriro bota horretarako trebatuz. Edo eskuz egin dezakegu, nik nahiago dudan kasua, aukera gehiago ditugulako arazoak ikusteko. Noski Kategoria:Südoststeiermark barrutiko hiri eta herriak sortuko badugu, hau sartu beharko dugu Südoststeiermark barrutia deitzen den kategoria batean, eta Estiriako hiri eta herriak deitzen den beste batean. Hau da, eskuz egin beharko dugu Austriako estatu bakoitzeko barruti bakoitzari buruzko kategoria bat, baita bertako hiri eta herrien kategoria bakoitza. Ez dira asko, baina merezi du eskuz egiteak, horrek hirugarren arazoa konpontzen digulako: guztiak al ditugu?
Ziurrenik ez. Baten bat ez da ondo egongo Wikidatan, baten bat pasa zaigu, baten bat bikoiztua dago. QuickStatementsek ere emango digu pista bat: batzuk ezingo ditu egin, artikulu hori dagoeneko existitzen zelako, adibidez, baina beste leku bati buruzkoa zelako. Adibidez, Julbach. Alemanian izen bera duen beste udalerri bat dago, eta dagoeneko sortua zegoen. Horrela, botak ez du egin, eta hori falta da. Eskuz mugitu beharko dugu Alemaniakoa leku berri batera, (adibidez, Julbach (Alemania)), argipen orrialde bat sortu bi Julbach daudela adierazteko, eta Julbach (Austria) izeneko beste artikulu bat sortu. Eta, horrela, 120 artikulu inguru, izen bera duten beste entitateren bat existitzen delako, Alemanian, Suitzan, Frantzian, edo munduko beste lekuren batean.
Kategorizazio eta hutsuneen bilaketa horretan ikusi nuen, adibidez, Zell am See barrutiko udalerri guztiak falta zirela. Zergatik? Ez dakit, baina falta ziren. Horiek berriro kalkulu orrialdean sartu, eta igoera berria egin nuen, eskualde horretako 28 udalerriak eduki arte.
Emaitza? Hauxe:

Merezi al du?
Euskarazko Wikipedian 454.092 artikulu ditugu lerro hauek idazterakoan. Horietatik erdia baino gehiago bot bidez sortutakoak izango dira: Frantziako udalerriak, Alemania eta Italiakoak, Txekia, Eslovakia eta Errumaniakoak, Brasil eta Mexikokoak, Estatu Batuetakoak. Beste asko eskuz egin dira, Eskozia, Gales edo Portugal bezala, Poloniako hiri nagusiak bezala. Eztabaida dago Wikipedian, komunitateak eskuz egindakoaren eta makinek egindakoaren orekaren artean. Ez da luddismoa, komunitateak mantendu dezakeenaren mugaren inguruko eztabaida da.
Wikipedia pertsonek egiten dute. Makinek lagunduta, bai… baina pertsonak gaude atzean. Komunitate bat gara, gainera. Gauza batzuetara heltzeko gai dena, eta beste batzuetara heltzeko zailtasunak dituena. Aukera izango genuke, nahi izanez gero, milioi bat artikulu berri sortzeko euskarazko Wikipedian, soilik deskripzio zientifikoa duten intsektuen artikuluak sortuta. Tentagarria da, baina arazotsua ere.
Wikipediarik handiena ingelesezko Wikipedia da, 6.948.000 artikulurekin une honetan. Bigarrena ez da alemana, frantsesa, txinera edo gaztelania. Bigarrena cebuera da, Filipinetan hitz egiten den hizkuntzetako bat. Cebuerazko Wikipediak 6.116.000 artikulu ditu, ia guztiak, %99 baino gehiago, bot bakar batekin sortuak. Leku geografiko ugari, datu-base bateko izaki bizidun guztiak… eta ezer ez gehiago. Euskarazko Wiikipediak 72.217 biografia ditu, artikulu guztien %15,9. Cebuerazkoak 2.257 biografia baino ez ditu, artikuluen %0,03. Wikipedia guztiek izan beharreko 1.000 artikuluen luzera neurtzen duen rankingean euskarak 13. postua du, bulgarieraren eta alemanaren artean; cebuera 157. hizkuntza da, 1.000 artikulu funtsezko horietatik 500en faltan, võro eta ligurieraren artean. Cebuerazko Wikipedia ez da entziklopedia bat: leku-izenen eta izaki bizidunen izenen datu-base bat da, gizakiek irakurtzeko moduan eskainia.
Euskarazko Wikipedian, noizbehinka, sortzen ditugu artikuluak boten laguntzarekin. Baina artikulu gehiegi horrela sortzeak ondo edo gaizki egiten al du? Artikulu gehiago izatea baino, ez al da hobeto artikulu esanguratsu hobeak izatea? Zein da makina batek sortutako artikuluak soilik biltzen dituen entziklopedia baten funtzioa? Gure komunitatea lan nekezetik askatzeak komunitatea indartzen al du? Edo, kontrara, komunitateak egiten duen lana ezkutatzen al du? Eta, zein da muga? Sor genezake artikulu bat leku-izen bakoitzarekin, baina… beharrezkoa al da? Erabilgarria al da?
Zuek erantzun. Bitartean, hemen dituzue Austriako hiri eta herri… guztiak?
0 comments