Till KTH:s startsida Till KTH:s startsida

Ändringar mellan två versioner

Här visas ändringar i "Resurser" mellan 2014-10-21 12:28 av Johan Boye och 2016-10-30 18:47 av José David Águas Lopes.

Visa nästa > ändring.

Resurser

* Användbara verktyg hittar du bland annat bland Språkteknologigruppens verktyg.
* Weka är en bra verktygslåda för maskininlärning. Här är en testfil till Weka. Det finns övriga verktygslåda som SKLearn.
* Användbara korpusar, hittar du t.ex. hos Språkbanken, mer specifikt här.
* Det finns även ett korpus med svensk text (ca 3,3 miljoner ord) att kopiera från kurskatalogen: /info/sprakt12/korpus .
* Google har publicerat n-gram-statistik för engelska och några andra språk (tyvärr inte svenska).
* Natural Language ToolKit har en massa användbar Python-kod och en mängd (engelska) korpusar.
* Här finns ett användbart Java-bibliotek för Hidden Markov Models (HMMs).
* Verktyg för att skapa word embeddings GenSim
---------------------------------------------------------------------------------------------------¶


* Usable to tools can be found, among other places, in the Language Technologies Group Tools.
* Weka is an good toolbox for machine learning. Here you find a test file to be used Weka. Other tools are SKLearn.
* Usable corpora, you can find for instance at Språkbanken, specifically here.
* There is also a corpus with Swedish text (about 3.3 million words) that can be copied from the course folder: /info/sprakt12/korpus .
* Google has released n-gram-stats for English and a couple of other languages (unfortunately not Swedish).
* Natural Language ToolKit has a bunch of python code and a number of English corpora.
* Here you can find a Java-library för Hidden Markov Models (HMMs).
* Tool to generate word embeddings GenSim