Korpuszok letöltése

HuCB     A CommitmentBank Corpus magyar változata
A HuCommitmentBank olyan rövid szövegrészletekből áll, amelyekben legalább az egyik mondat tartalmaz egy alárendelő mellékmondatot, amely egy logikai következtetést semlegesítő operátor alá tartozik szintaktikailag. Az adatbázisban a premissza a teljes szövegrészlet, a hipotézis pedig a beágyazott tagmondat. A következtetési feladatban azt kell eldönteni, hogy a szöveg írója milyen mértékben elkötelezett a mellékmondat igazsága mellett. A korpusz 250-250 példás tanító, illetve teszthalmazból, és egy 103 példát tartalmazó validációs halmazból áll.  
HuCOLA     Elfogadhatósági ítéletek korpusza
A korpusz 9076 magyar mondatot tartalmaz, amelyek elfogadhatóságuk, grammatikalitásuk alapján vannak 0-val (nem grammatikus magyar mondat) és 1-gyel (grammatikus magyar mondat) címkézve. A mondatok két annotátor gyűjtötte 3 nyelvészeti szakirodalomból. Mindegyik mondatot négy annotátor annotálta. A végső címke a többségi címke. A tanító-, validációs és tesztanyag aránya 80% (7 276 mondat), 10% (900 mondat) és 10% (900 mondat).  
HuCoPa     A hihető alternatívák korpusza
A korpusz 1000 példát tartalmaz. Mindegyik példában egy premissza és két alternatíva található. A feladat, hogy kiválasszuk az alternatívák közül azt, amelyikben a leírt helyzet ok-okozati összefüggésben van a premisszában leírt helyzettel. A korpusz előállításához az eredeti angol CoPA korpusz példáit fordítottuk és újraannotáltuk. A tanító-, validációs és teszthalmaz 400, 100, illetve 500 példát tartalmaz.  
HuRTE     Következtetések felismerésének korpusza
A korpuszban 4 504 példa található. Minden példa tartalmaz egy (néha több mondatos) premisszát és egy egymondatos hipotézist, és a feladat annak eldöntése, hogy az előbbiből következik-e az utóbbi vagy sem. A korpusz a GLUE benchmark részét képező RTE-adatbázisok példáinak fordításával és újraannotálásával jött létre. A tanító-, a validációs és a teszthalmaz 2 131, 242 és 2 131 példát tartalmaz.  
HuSST     A Stanford Sentiment Treebank magyar változata
A korpusz 11 683 mondatot tartalmaz. Mindegyik mondat szentimentjét egy háromfokú skálán címkéztük. A korpusz előállításához az SST korpusz mondatait fordítottuk és újraannotáltuk. A tanító-, validációs és teszthalmaz 9 347, 1 168, illetve 1 168 mondatot tartalmaz.  
HuWNLI     Anafora-feloldási korpusz
A korpuszban az anafora-feloldás mondatpár-osztályozási feladatként, a két mondat közötti logikai következtetés meghatározásaként szerepel. Az alapja a HuWS korpusz, amely az eredeti angol Winograd-sémák magyarr fordított és manuálisan kurált példáit tartalmazza. Az NLI formátum létrehozásához a többértelmű névmásokat lecseréltük mindkét lehetséges referensükkel. A Winograd-sémákból képzett mondatpárokat kiegészítettük a GLUE WNLI adatbázisának többi mondatpárjával. Az adatokat tanító- (562), validációs (59) és teszthalmazra (134) osztva adjuk közre.  

Az összes korpusz egy zip fájlban is letölthető.

Letöltés