Datensatz

Englische Trigramme

Dieser Datensatz wurde von einem Nutzer am 14. Dez. 2012 vor 3.487 days eingestellt.
Der Datensatz enthält die häufigsten Buchstabentrigramme englischen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 3 Buchstaben. Man kann damit z.B. eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL und CSV. Die Zeichencodierung ist UTF8.

Ausschnitt aus den Daten:


INSERT INTO `ngramme` (`id`, `n`, `buchstabe`, `count`, `percent`) VALUES
(10042, 3, 'and', 4373077, 0.00588827720839116),
(10045, 3, 'ing', 3527528, 0.00474975920258473),
(10054, 3, 'ion', 2805181, 0.00377713069029242),
(10059, 3, 'ent', 2194825, 0.00295529624196124),
(10061, 3, 'tio', 2177270, 0.00293165871936712),
(10071, 3, 'for', 1777732, 0.00239368728660109),
(10075, 3, 'ter', 1733631, 0.00233430600583076),
(10077, 3, 'her', 1661225, 0.00223681250193162),
(10078, 3, 'ati', 1645746, 0.00221597027964541),
(10083, 3, 'The', 1568356, 0.00211176590063324),
(10084, 3, 'ate', 1554016, 0.00209245732336183),
(10089, 3, 'ere', 1381306, 0.00185990611132938),
(10090, 3, 'ver', 1375222, 0.00185171410406862),
(10095, 3, 'was', 1309621, 0.00176338342222889),
(10101, 3, 'ted', 1291422, 0.00173887876408646),
(10103, 3, 'ers', 1254601, 0.00168929988516661),
(10104, 3, 'all', 1249597, 0.00168256208037818),
(10108, 3, 'are', 1205797, 0.00162358609122282),
(10109, 3, 'hat', 1197634, 0.00161259474420284),
(10111, 3, 'tha', 1189543, 0.00160170034401435),
...
    Noch keine Kommentare zu diesem Datensatz vorhanden.

Neuer Kommentar

Sie benötigen Hilfe??

Detailfragen zum Datensatz beantworten wir gerne per E-Mail. Senden Sie uns einfach eine Nachricht, wir helfen gerne, um den perfekten Datensatz für Ihre Bedürfnisse zu finden.

support

Dateiliste

3gramme_en.csv.gz
Size: 1.42M
csv
3gramme_en.sql.gz
Size: 1.43M
sql


Bildrechte: Bild Englische Wortliste Autor: Dr. Marcus Gossler Lizenz: CC-BY-SA-3.0 . Alle Bilder zugeschnitten und farbtonangepasst.