Wer ist datenbörse.net?
Wir sind führender Anbieter für B2B-Adressen. Für jedes Marktsegment kaufen Sie in unserem Onlineshop recherchierte Branchenadressen als Liste zum Download. Kaufen Sie hier kostengünstige Adressen zu Interessenten für ihre Dienstleistungen zur Neukundengenerierung.
Angebot Datensatz

Englische Trigramme

Der Datensatz wurde vom Anbieter am 14. Dez. 2012 eingestellt.
Der Datensatz enthält die häufigsten Buchstabentrigramme englischen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 3 Buchstaben. Man kann damit z.B. eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL und CSV. Die Zeichencodierung ist UTF8.

Ausschnitt aus den Daten:


INSERT INTO `ngramme` (`id`, `n`, `buchstabe`, `count`, `percent`) VALUES
(10042, 3, 'and', 4373077, 0.00588827720839116),
(10045, 3, 'ing', 3527528, 0.00474975920258473),
(10054, 3, 'ion', 2805181, 0.00377713069029242),
(10059, 3, 'ent', 2194825, 0.00295529624196124),
(10061, 3, 'tio', 2177270, 0.00293165871936712),
(10071, 3, 'for', 1777732, 0.00239368728660109),
(10075, 3, 'ter', 1733631, 0.00233430600583076),
(10077, 3, 'her', 1661225, 0.00223681250193162),
(10078, 3, 'ati', 1645746, 0.00221597027964541),
(10083, 3, 'The', 1568356, 0.00211176590063324),
(10084, 3, 'ate', 1554016, 0.00209245732336183),
(10089, 3, 'ere', 1381306, 0.00185990611132938),
(10090, 3, 'ver', 1375222, 0.00185171410406862),
(10095, 3, 'was', 1309621, 0.00176338342222889),
(10101, 3, 'ted', 1291422, 0.00173887876408646),
(10103, 3, 'ers', 1254601, 0.00168929988516661),
(10104, 3, 'all', 1249597, 0.00168256208037818),
(10108, 3, 'are', 1205797, 0.00162358609122282),
(10109, 3, 'hat', 1197634, 0.00161259474420284),
(10111, 3, 'tha', 1189543, 0.00160170034401435),
...



Was sind Trigramme ?
Trigramme sind eine Art statistischer Textanalyse, bei der alle Wörter, die in einem Text vorkommen, in Gruppen von drei aufeinanderfolgenden Wörtern oder Buchstaben (Trigramm) zusammengefasst und dann verglichen werden. Dieser Ansatz ermöglicht es, ähnliche Textstücke (z.B. in einem komplexen Dokument) zu identifizieren. Diese Methode der Textanalyse kann verwendet werden, um Unterschiede und Ähnlichkeiten zwischen Texten zu erkennen, um die Verbindung zwischen verschiedenen Texten zu ermitteln, um übermäßige Wiederholungen zu finden, und um eine allgemeine Übersicht über den Inhalt und das Thema eines Textes zu geben.
    Noch keine Kommentare zu diesem Datensatz vorhanden.

Neuer Kommentar

Sie benötigen Hilfe??

Detailfragen zum Datensatz beantworten wir gerne per E-Mail. Senden Sie uns einfach eine Nachricht, wir helfen gerne, um den perfekten Datensatz für Ihre Bedürfnisse zu finden.

support

Liste der Dateien

3gramme_en.csv.gz
Größe: 1.42M
csv
3gramme_en.sql.gz
Größe: 1.43M
sql

Dateien werden nach dem Kauf zum Download freigeschaltet.

Bildrechte auf dieser Webseite:

Bild Englische Wortliste Autor: Dr. Marcus Gossler Lizenz: CC-BY-SA-3.0 . Alle Bilder zugeschnitten und farbtonangepasst.