Till KTH:s startsida Till KTH:s startsida

Ändringar mellan två versioner

Här visas ändringar i "Resurser" mellan 2016-10-30 18:47 av José David Águas Lopes och 2016-11-29 18:04 av Viggo Kann.

Visa < föregående | nästa > ändring.

Resurser

* AFlera användbara verktyg för svenska hittar du bland annat bland Språkteknologigruppens verktyg. Längst ner på sidan står hur man anropar servrar för taggning, grammatikgranskning, ordledsuppdelning och böjning av ord.
* Weka är en bra verktygslåda för maskininlärning. Här är en testfil till Weka. Det finns övriga verktygslåda som SKLearn.
* Användbara korpusar, hittar du t.ex. hos Språkbanken, mer specifikt här.
* Det finns även ett korpus med svensk text (ca 3,3 miljoner ord) att kopiera från kurskatalogen: /info/sprakt12/korpus .
* Google har publicerat n-gram-statistik för engelska och några andra språk (tyvärr inte svenska).
* Natural Language ToolKit har en massa användbar Python-kod och en mängd (engelska) korpusar.
* Här finns ett användbart Java-bibliotek för Hidden Markov Models (HMMs).
* Verktyg för att skapa word embeddings GenSim
---------------------------------------------------------------------------------------------------


* Usable to tools för Swedish can be found, among other places, in the Language Technologies Group Tools. At the bottom of the page some useful servers are described.
* Weka is an good toolbox for machine learning. Here you find a test file to be used Weka. Other tools are SKLearn.
* Usable corpora, you can find for instance at Språkbanken, specifically here.
* There is also a corpus with Swedish text (about 3.3 million words) that can be copied from the course folder: /info/sprakt12/korpus .
* Google has released n-gram-stats for English and a couple of other languages (unfortunately not Swedish).
* Natural Language ToolKit has a bunch of python code and a number of English corpora.
* Here you can find a Java-library för Hidden Markov Models (HMMs).
* Tool to generate word embeddings GenSim