2013/09/20

Elhuyar Fundazioak Web-corpusen Ataria aurkeztu du, eta kontsultagai jarri du

 

Elhuyar Fundazioak Web-corpusen Ataria eratu du, eta gaur arratsaldean aurkeztu du San Telmo Museoan, Badu Bada erakusketaren barruan. Atari hau kontsultagai jarri du Elhuyarrek, eta erabiltzaileek hiru baliabide izango dituzte eskura: euskarazko corpus elebakar bat, 125 milioi hitzez osatua; euskara-gaztelania corpus paralelo bat, 18 milioi hitz inguru dituena; eta euskarazko corpusetik automatikoki erauzitako hitz-konbinazioak. Nabarmentzekoa da baliabide horiek guztiak Internetetik automatikoki eratuak izan direla, Elhuyar Fundazioko I+G taldeak garatutako teknologiari esker.


Corpusak ezinbesteko baliabideak dira hizkuntzaren azterketan oro har, zein lexikografian, sintaxian, semantikan… eta antzeko arlo jakinetarako. Web-corpusen atari honen berezitasuna da Internet izan dela datu-bilketarako iturria, Elhuyar Fundazioak aldarrikatzen baitu "Internet oso datu-iturri garrantzitsua dela euskara aztertzeko, eta sarean euskararen erabilera nolakoa den jakitea denontzat da interesgarria".Web-corpusen Ataria hemen dago kontsultagai: http://webcorpusak.elhuyar.org

Hiru baliabide
Web-corpusen Ataria dagoeneko kontsultagai dago, eta erabiltzaileek hiru baliabide dituzte eskura: euskarazko corpus elebakarra, euskara-gaztelania corpus paraleloa eta euskarazko corpusetik erauzitako hitz-konbinazioak. Euskarazko corpusari dagokionez, orain arte eratu den euskarazko corpusik handiena da, alde handiz gainera, 125 milioi hitz inguru jasotzen baititu. Interneten dauden mota eta arlo guztietako testuak biltzen ditu, eta linguistikoki etiketatuta daude.

Corpus paraleloaren atalean, webean automatikoki atzemandako euskara-gaztelania gune eta dokumentu elebidunak esaldi mailan parekatu dira, automatikoki ere bai. 18 milioi hitz inguru ditu corpus honek, eta egungo euskara-gaztelaniako corpus paralelo publiko handiena da. Aurrekoa bezala, linguistikoki etiketatuta dago. Oso baliagarria da hizkuntza bateko hitz edo esapide bat beste hizkuntzan nola eman den jakiteko.

Azkenik, Hitz-konbinazioak atalean, euskarazko corpusetik automatikoki erauzitako hiru motatako konbinazioak eskaintzen dira: izen+aditz, izen+izen eta izen+izenondo. Horren bidez, erabiltzaileak ikus dezake, esaterako, izen jakin batekin zein aditz konbinatzen diren, neurri estatistiko batzuen arabera ordenatuta, baita horien testuinguruak bistaratu ere.


Proiektu hau gauzatzeko. Elhuyar Fundazioak Eusko Jaurlaritzako Industria eta Kultura sailen diru-laguntza jaso du, 2011ko IKT deialdian.

 





ifttt
Put the internet to work for you. via Personal Recipe 735099

No hay comentarios:

Publicar un comentario