Pasa den asteburuan  Wikimedia Hackathon izan da Bartzelonan, asteburu batez Wikipedia hobetzeko tresnak helburu duen bilera. Euskal ordezkaritzan bost izan ginen eta hauek izan ziren gure ekarpen nagusiak:

Igor Leturia eta Galder Gonzalez, Hackatoian

Igor Leturiak saio berezi bat antolatu zuen ostiralean, Elhuyar Fundazioarekin batera lantzen ari garen proiektu bat azalduz: Wikispeech: Text-To-Speech technology for accessibility.

Elhuyar Fundazioa eta EWKEren artean Wikipediako artikuluak “entzuteko” aukera asmatu dute Suediako Wikilariekin, eta euskaraz ere instalatzeko lanean ari gara. Oraindik ere ezingo da entzun, hainbat software-proba pasa behar baititu martxan jarri aurretik. Besteak beste, laburdurak ondo irakurtzeko sistema bat eta irakurketa pausatzeko botoia gehitu ditu Leturiak egun hauetan.

Galder Gonzalez eta Amador Álvarez, txantiloi automatikoak lantzen

Galder Gonzalezek Amador Álvarez katalanarekin saio berezi bat antolatu zuen Wikipediako infotaula automatikoei buruz. “Supercharge your wiki: Wikidata-powered infoboxes“. Infotaula horiek zelan definitzen ari diren azaldu zuten. Lehen eskuz adierazi behar ziren propietate guztiak, orain Wikidatatik hartzen dira datu guzti horiek automatikoki. Bertan izan ziren Wikidatako hainbat arduradun, eta sorpresa ederra izan zen eurentzat katalanek eta euskaldunok garatu dugun puntako sistema hau.

Berriki sortutako Wikitekan ere lan egin genuen, aurretik Euskal Herrian gai honi buruz hizketan egon zen Carles Paredesekin. Sistema hobetu, eta falta ziren hainbat gauza instalatu genituen.

Maite Urra-k eta Oscar Sainz-ek Euskal Wikipediako artikuluen kalitatea aztertzeko laguntza teknologikoak aztertu dituzte ORES sistemarekin, urtean zehar ibili dira hori prestatzen Montse Maritxalar irakaslearekin. Hackatoian Galder Gonzalezek eta Kepa Sarasolak lagundu zieten, kalitate handiko 800 artikulu identifikatu zituzten eta 3.000 zirriborro. Editoreek artikulu batzuetan ezartzen dituzten txantiloiak ere baliagarriak izan daitezke kalitatea etiketatzeko ({{zuzendu}}, {{zirriborro}}, {{wikitu}}, {{erreferentzia falta}}{{zaharkitua}}…). Xuxen pasata, artikulu batek zenbat errore ortografiko dituen jakiteak ere laguntzen du kalitatea neurtzen. Guztira 20 irizpide kontuan hartuko dira.

Maite Urra, Oscar Sainz eta Kepa Sarasola, Wikidatako gelan ORESen lanean.

Egindako lanetik abiatuta, Wikimediako ORES sistemaren arduraduna den Aaron Halfakerrek 400 artikulutako lagin bat prestatu zuen beraien kalitatea etiketa genezan eta gero ikasketa automatiko bidez artikuluen kalitate maila aurreikusi ahal izateko: “Train/test article quality model for euwiki“.

Kepa Sarasolak Daniel Kinzler-en laguntzarekin Euskal Wikipedian eta Espainierazko Wikipedian dauden artikuluen tituluekin corpus elebidun bat sortu zuen (Wikipedia_tituluak_es_eu_2018). Hau da hasierako corpus gordina lortzeko exekutatu zuten sql galdera:

sql eswiki 'select page_title as es, ll_title as eu from langlinks join page on page_id = ll_from where ll_lang = "eu" and page_namespace = 0' > es-eu.txt

Honi esker itzulpen automatiko sistemak hobetzeko aukera bat zabalduko da ikaskuntza automatikoko sistematan.