Datensatz

Englische Bigramme

Dieser Datensatz wurde von einem Nutzer am 11. Juni 2013 vor 3.308 days erstellt.
Der Datensatz enthält die häufigsten Buchstabenbigramme englischen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 2 Buchstaben. Man kann damit also eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL, CSV und auch XLS für Excel vorhanden. Encoding ist UTF8.

Ausschnitt aus den Daten:


INSERT INTO `ngramme` (`id`, `n`, `buchstabe`, `count`, `percent`) VALUES
(127, 2, 'th', 14320528, 0.0191269653477765),
(128, 2, 'he', 13799443, 0.0184309871870379),
(130, 2, 'in', 11201233, 0.0149607329732095),
(133, 2, 'er', 10094645, 0.0134827378650498),
(134, 2, 'an', 9888662, 0.0132076202364797),
(137, 2, 're', 8086665, 0.0108008141343725),
(138, 2, 'on', 7659756, 0.0102306205179322),
(141, 2, 'at', 6313486, 0.00843249829515169),
(143, 2, 'nd', 6190383, 0.00826807790400359),
(144, 2, 'or', 6170943, 0.00824211320449245),
(146, 2, 'ed', 6081354, 0.00812245520734724),
(147, 2, 'en', 6013232, 0.00803146923717762),
(148, 2, 'es', 5986226, 0.00799539914072712),
(150, 2, 'ar', 5826560, 0.00778214401150157),
(151, 2, 'is', 5819185, 0.00777229372040617),
(152, 2, 'te', 5772226, 0.00770957374487411),
(154, 2, 'ti', 5464381, 0.0072984058991434),
(155, 2, 'al', 5054702, 0.00675122523396739)
...
    Noch keine Kommentare zu diesem Datensatz vorhanden.

Neuer Kommentar

Sie benötigen Hilfe??

Detailfragen zum Datensatz beantworten wir gerne per E-Mail. Senden Sie uns einfach eine Nachricht, wir helfen gerne, um den perfekten Datensatz für Ihre Bedürfnisse zu finden.

support

Download der Dateien

2gramme_en.csv
Size: 433.38K
csv
2gramme_en.sql
Size: 425.08K
sql
2gramme_en.xls
Size: 859
xls


Bildrechte: Bild Englische Wortliste Autor: Dr. Marcus Gossler Lizenz: CC-BY-SA-3.0 / Bild Hundenamen Autor: Jazz-face Lizenz: CC-BY-SA-2.5 . Alle Bilder zugeschnitten und farbtonangepasst.