Fuentes web
Entradas
Comentarios

CORPUS MOTAK

1-Testu artxiboak

Testu osoak, berezko interesa dutenak. Idatzizkoak eta grabaziozkoak izan daitezke, adibidez literatura obrak, errefrau bildumak, bertso txapelketen grabazioak, ipuin kontaketak etab.

2-Testu corpusak

Helburu linguistiko batekin osatzen diren bildumak. Testu aztertugabeak. Praktikan testu idatziei baino ez dagokie.

3-Hizkuntza corpusak

Testu aztertuak (lemak, etiketa morfosintaktikoak, lokuzioak, informazio morfologikoa…)

4-Erreferentzia corpusak

Hizkuntzaren erabilerari dagokio.

5-Hizkuntza datu base bereziak

Hizkuntza atalen arabera egituratuak (hiztegia, morfologia, joskera).

TESTU CORPUS

Corpus edo testu corpus bat egituratutako testu sorta handi bat da hizkuntzalaritzan. Hizkuntza baten deskribatzeko eta ikertzeko baliatzen den hizkuntza-datu bilduma da, edo baliabide elektronikoak erabiltzen eta eskaintzen dituena.

  • Korpusa bilduma berezi bat da.
  • Latinetik datorren hitza da. Latinez gorputza esan nahi du.
  • Datu ala testu literarioak, edo zientifikoak, konposatua.
  • Zenbat eta zabal eta txukunago egin hainbat eta hobeto ikerketa batentzat baliagarria izateko.

UZEI-ek hizkuntzaren ikerketarako oinarrizko tresna dela dio.

1-Anbiguotasuna

Lengoaia naturala maila ezberdinetan anbiguoa izan ohi da:

  • Mailan lexikoan: hitz bakar batek esanahi ezberdinak izan ditzake, eta hauetako egokiaren hautapena testuinguruaren edo oinarrizko ezagutzaren araberakoa izan behar da. Zentzu honetan ikerketa ezberdinak burutu izan dira, hiztegiak, gramatika, ezagutza oinarriak eta korrelazio estatistikoetan oinarritutako metodoekin.
  • Erreferentzia mailan: anafora eta kataforak ebazteak erreferentzia egiten duten aurreko edo ondorengo entitate linguistikoa zehaztea suposatzen du.
  • Egitura mailan: Zuhaitz sintaktiko ezberdinak sortzea ondorioztatzen duten sintagma preposizionalen dependentziaren anbiguotasuna argitzeko semantikara jo beharra dago.
  • Maila pragmatikoan: Esaldi askok, sarritan, ez dute esaten dena adierazten. Ironiek garrantzi handia dute mezuaren ulermenean.

Anbiguotasun hauek eta beste batzuk ebazteko, arazo nagusia lengoaia naturalean ematen diren sarrerak anbiguotasunik gabeko barne errepresentazio batean itzultzea da, hala nola, zuhaitz sintaktiko bat.

 

2- Hitzen arteko banaketak antzematea

Ahozko lengoaian ez dira tarteak uzten. Hitzen arteko tartea bilatzeko, askotan zentzu gramatikal eta kontestual baten bila jo beharra dago. Idatzizkoan ere, txinera bezalakoek ez dauzkate hitzen arteko tarterik.

 

3- Datuak ezegoki jasotzea

Atzerriko tiletak, hizketaren arazoak, idazketa orduko akatsak, OCR bidezko testuen irakurketek, eta beste arazo ugarik sortu dezakete sarrerako datuen jasoketa ezegoki bat.

Lengoaia naturalen prozesamendua (LNP, edo ingelesez, NLPNatural Language Processing) adimen artifizialaren barne izanik, hizkuntzalaritza konputazionalean ingeniaritzari zuzendutako atala da. LNP lengoaia naturalen bidez pertsona eta makinen arteko komunikazioa era konputazionalean burutzea ikertzeaz arduratzen da. Eredu hauek ez dira lengoaiaren ulermenean bakarrik oinarritzen, baizik eta baita giza ezagutzaren aspektu orokor batzuetan eta memoriaren antolaketan. Lengoaia naturalak fenomeno hauek aztertzeko bitartekari bezala balio du.

ERLANG

Erlang es un lenguaje de programación concurrente y un sistema de ejecución que incluye una máquina virtual y librerías.

El subconjunto de programación secuencial de Erlang es un lenguaje funcional, con evaluación estricta, asignación única, y tipado dinámico. Fue diseñado en la compañía Ericsson para realizar aplicaciones distribuidas, tolerantes a fallos, soft-real-time y de funcionamiento ininterrumpido. Proporciona el cambio en caliente de código de forma que éste se puede cambiar sin parar el sistema. Originalmente, Erlang, era un lenguaje propietario de Ericsson, pero fue cedido como open source en 1998.

La implementación de Ericsson es, principalmente interpretada pero también incluye un compilador HiPE (sólo soportado en algunas plataformas). La creación y gestión de procesos es trivial en Erlang, mientras que, en muchos lenguajes, los hilos se consideran un apartado complicado y propenso a errores. En Erlang toda concurrencia es explícita.

Erlang recibe el nombre de A. K. Erlang. A veces se piensa que el nombre es una abreviación de ERicsson LANGuage, debido a su uso intensivo en Ericsson. Según Bjarne Däcker quién fue el jefe del Computer Science Lab en su día, esta dualidad es intencional.

   El proyecto Corpus es el proyecto de investigación prioritario del IULA. Recopila textos escritos en cinco lenguas diferentes (catalán, castellano, inglés, francés y alemán) de las áreas de especialidad de la economía, el derecho, el medio ambiente, la medicina y la informática. A través del establecimiento del corpus, se intentan inferir las leyes que rigen el comportamiento de cada lengua en cada área. Este corpus es el soporte principal de las actividades de investigación y docencia de nuestro instituto. 

Las investigaciones previstas sobre el corpus son las siguientes: detección de neologismos y términos, estudios sobre variación lingüística, análisis sintáctico parcial, alineación de textos, extracción de datos para la enseñanza de segundas lenguas, extracción de datos para la construcción de diccionarios electrónicos, elaboración de tesaurus, etc. 

Los textos son seleccionados por especialistas de cada área y agrupados sobre la base de una clasificación temática y de uso propuesta por los propios especialistas (Derecho, Economía, Medio ambiente, Medicina e Informática). Posteriormente los textos son marcados de acuerdo con el estándar SGML y siguiendo las directrices marcadas por el “Corpus Encoding Standard (CES) de la iniciativa EAGLES. (Estado actual)

El procesamiento de los textos del corpus sigue los siguientes pasos: 

  • marcaje estructural
  • preproceso (detección de fechas, números, locuciones, nombres propios…) 
  • análisis y marcaje morfológicos de acuerdo con los etiquetarios morfosintácticos diseñados en el IULA
  • desambiguación lingüística y/o estadística
  • almacenamiento en una base de datos textual

Juntagailu hauek oso antzekoak dira.

Ezaugarri nagusiak:

 ♥ Normalean juntagaiak perpausak baino atal txikiagoak izaten dira: izen-sintagmak, adizlagunak, aditzondoak, partizipioak…

 ♥ Gehienetan orobatasuna adierazten dute, hau da, hiztunari berdintsu zaio bata zen bestea aukeratzea.

 ♥ Juntagaiak izen-sintagma deklinatuak direnean, normalean kasu-marka bietan jarri ohi da. Hala ere, juntagai biei dagokien hitzan bat ( zenbatzailea, erakuslea, izenondoa…) egonez gero edota zerrenda luzeak izanez gero, azken juntagaian baino ez da jartzen.

     Adib. Iruñea, Baiona, Gasteiz, Donostia nahiz Bilbon har dezakezu

              autobusa.

 ♥ Normalean bi juntagairen artean agertzen bada ere, zenbaitetan juntagai bakoitzaren aurrean ere aurki daitezke, balio banakaria hartuz. Zenbait hizkeratan nahiz-en ordez, nahi erabiltzen da, batueraz nahiz aldaera nagusitu bada ere.

 Nahi(z) eta zein juntagailuak, juntagai bien artean jarri ohi dira. Hala ere, zenbaitetan juntagai bakoitzaren hasieran ere aurki daitezke, alborakuntza gauzatuz.

     Adib. Agertu zein agertu ez, azken batean, niri berdin dit.

ALA JUNTAGAILUA

Maila guztietako osagaiak elkar ditzake ( perpaus osoak, izen-sintagmak, aditzondoak…) eta zenbat-nahi osagai elkar ditzake.

 Galde-perpausetan edota zehar-galderetan erabili ohi da, gehienetan elkarren baztergarri diren aukerak adierazteko, bata aukeratzeak bestea baztertzea dakarrelarik.

       Adib. Nola joango zara, autoz ala hegazkinez?

Maiz antonimoekin erabiltzen da.

      Adib. Azkenean joango zara, bai ala ez?

 Ekialdeko euskalkietan batez ere, adierazpen perpausetan ere erabiltzen da. Normalean orobatasuna adierazteko, bata zein bestea aukeratzea berdintsu den kasuetan.

       Adib. Gizona gizon da, eta gizalegea gizalege, erdaraz ala    euskaraz  ari.

Zenbaitetan juntagai bakoitzaren hasieran agertzen da, oso ohikoa ez bada ere.

 1. Komunztadura

Numero-komunztadurari dagokionez , ez dago aparteko arazorik. Aditza normalean singularrean joango da, zenbaitetan pluralean ikus badaiteke ere.

Pertsona-komunztadurari dagokionez, ordea, galdera bi zatitan banatzen denean, hau da, galdetzaile batekin erabiltzen denean, aditza 3. pertsonan jokatu ohi da.

     Adib. Nor joango da, zu ala ni?

 Galdetzailerik ez dagoenean, juntagaiak 1. edo 2. pertsonari badagozkio, aukera bi daude: azken juntagaiaren arabera jokatzea ala juntagai biak osotasunean hartuta.

      Adib. Zu ala ni joango naiz? ( zu joango zara ala ni joango naiz?)

                    Zu ala ni joango gara? ( zu ala ni joango gara?)

  Ikusten denez, lehen adibidean singularreko 1. pertsona (naiz) erabiltze dugu eta bigarrenean pluralekoa (gara).

 2. Osagai-Ezabaketa

 Normalean, ala juntagailuaren bidez sortutako juntaduretan ezabaketa eskuineko juntagaian gertatzen dira.

    Adib. Mirenekin joango zara ala Josebarekin.

2.1. Azken juntagaiaren ezabaketa

 Sarri azken juntagaia ezabatu egiten da. Egitura hau harridura, zalantza adierazteko edo galdera erretorikoak egiteko erabiltzen da.

      Adib. Ez dakizu nor naizen, ala (ez nauzu ikusi)?

 Eskuineko juntagaia ezabatzean ala-ren aurretik koma jartzen da. Alabaina, zenbaitetan ala amaieran jarri ordez, perpausaren barruan jartzen da, aditzaren atzean.

     Adib. Ez dakizu ala nor naizen?

 Forma honen erabilera oso mugatua da.

EDOTA JUNTAGAILUA

“Edo” eta “eta” juntagailuak elkartzetik dator. Edo-ren antzekoa da baina ezin da sinonimoen artean eta zenbatzaileen artean agertu.

Ezaugarri nagusiak:

 ♥ Maila guztietako juntagailuak elkar ditzake: perpaus osoak,    aditzondoak, izen-sintagmak, eta abar.

 ♥ Adierazpen- perpausetan zein galde-perpausetan erabil daiteke.

 ♥ Edo-ren balio berberak har ditzake: elkarren baztergarri diren         aukerak, orobatasuna eta bigarren juntagaia lehenengoaren  edo    zehaztapena denean.

 ♥ Ezabaketari dagokionez, aditz-ezabaketak izaten dira normalean eta salbuespenak, eskuineko aditza ezabatzeko joera da nagusi.

 ♥ Gehienetan azken osagaiaren aurrean agertzen da, baina zenbaitetan juntagai bakoitzaren aurrean errepikaturik aurki daiteke, balio  banakaria hartuz. Bestetan edo juntagailuarekin batera erabiltzen da.

Normalean bata edo bestea, aukera biak adierazteko erabiltzen da.

Adib. Hitz egiten bazion edota laztandu egiten bazuen, umea barreka hasten zen.

EDO JUNTAGAILUA

Zenbat-nahi osagai elkar ditzake, gehienetan bi baino elkartzen ez baditu ere, hauek maila edo kategoria berekoak izan behar dute. Zenbait euskalkitan edo da hautakari bakarra eta balio guztiak hartzen ditu: orobatasuna (berdintasuna, kidekotasuna) edota elkarren baztergarri (bata aukeratzeak bestea baztertzea dakar).

Adib. Zein nahiago duzue? Berdin dit: bata edo bestea.

Sarri, bigarren juntagaia lehenengoaren zehaztapena da eta edo-ren atzean hobeto esan, antzeko zerbait, behintzat… erabiltzen dira.

Adib. Ez du ezer egin, edo, hobeto esan, ez du ia ezer egin.

Aginte-perpausetan baldintza-kutsua du maiz.

Adib. Isilik egon edo (bestela) zoaz hemendik!

Galde-perpausetan ere ageri da batzutan.

Adib. Amagatik edo aitagatik ez zenuke hori egingo?

Galdetzaileekin ere erabiltzen da zenbaitetan.

Adib. Nork edo zerk egin du hau?

Edo juntagailuak beste hautakariek ez duten bi erabilera ditu: sinonimo eta zenbatzaile zehaztuekin erabili daiteke.

—Sinonimoak

Adib. Honi aiztoa edo ganibeta esaten diogu.

—Zenbatzaile zehaztuak

Adib. Zazpi edo zortzi pertsonak deitu dute.

       1- Komunztadura

Numero-komunztadurari dagokionez, edo-ren erabilerak ez du aparteko arazorik sortzen: normalean aditza singularrean jokatzen da, zenbaitetan pluralean ikus badaiteke ere.
        2- Osagai-Ezabaketa

Juntadura guztietan bezala, aipatutako informazioa isilpean uzteko joera dago.

   2.1. Juntagaiak sintagmak direnean

Juntagaiak sintagmak direnean, sintagma osoak elkartzeko joera dago, beste motatako adibideak ikus badaitezke ere.

    Adib. Etxean edo bulegoan egon behar du; ez dago beste aukerarik.

  2.2. Azken juntagaiaren ezabaketa

Batzutan hiztuna zalantzan dagoenean, informazioa zehatza ez denean edo gutxi gorabeherakoa dela adierazi nahi denean, azken juntagaia ezabatu ohi da. (gehienetan sintagma).

    Adib. Nork egun du hau? Umeak edo egingo zuen.

Zenbaitetan amaieran barik, perpaus barruan agertzen da aditz-partizipioaren ostean.

    Adib. Kepa joan egin da? Nolatan, ba? Aspertu edo egingo zen.

Mezua ulergaitza edo nahasgarria denean koma edo marratxoa idatzi ohi da edo-ren atzean irakurketa errazteko.

Entradas antiguas »

Seguir

Get every new post delivered to your Inbox.