Datensatz

Deutsche Trigramme

Dieser Datensatz wurde vom Verkäufer am 18. Juli 2012 vor 3.025 days inseriert.
Der Datensatz enthält die häufigsten Buchstabentrigramme deutschen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 3 Buchstaben. Man kann damit z.B. eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL und CSV. Die Zeichencodierung ist UTF8.

Ausschnitt aus den Daten:

INSERT INTO `ngramme` (`id`, `n`, `buchstabe`, `count`, `percent`) VALUES
(9015, 3, 'der', 1466004, 0.00765538408168634),
(9017, 3, 'ein', 1241199, 0.00648146598972786),
(9018, 3, 'sch', 1205611, 0.00629562760954673),
(9019, 3, 'ich', 1195695, 0.00624384685822955),
(9022, 3, 'che', 1014516, 0.00529774109553323),
(9023, 3, 'die', 913767, 0.00477163592061842),
(9024, 3, 'und', 904872, 0.00472518676945198),
(9028, 3, 'den', 821339, 0.00428898250364131),
(9030, 3, 'ine', 775831, 0.0040513424843853),
(9031, 3, 'ten', 764684, 0.00399313352563856),
(9033, 3, 'ung', 706683, 0.00369025581717263),
(9034, 3, 'nde', 684003, 0.00357182223106192),
(9035, 3, 'gen', 647717, 0.00338233893716363),
(9038, 3, 'ter', 600607, 0.00313633337095219),
(9039, 3, 'hen', 598021, 0.00312282943560464),
(9040, 3, 'cht', 576579, 0.00301086061049944),

...
    Noch keine Kommentare zu diesem Datensatz vorhanden.

Neuer Kommentar

Sie benötigen Hilfe??

Detailfragen zum Datensatz beantworten wir gerne per E-Mail. Senden Sie uns einfach eine Nachricht, wir helfen gerne, um den perfekten Datensatz für Ihre Bedürfnisse zu finden.

support

Dateiliste

3gramme_de.csv.gz
Size: 913.54K
csv
3gramme_de.sql.gz
Size: 910.88K
sql