Wer ist datenbörse.net?
Wir sind führender Anbieter für B2B-Adressen. Für jedes Marktsegment kaufen Sie in unserem Onlineshop recherchierte Branchenadressen als Liste zum Download. Kaufen Sie hier kostengünstige Adressen zu Interessenten für ihre Dienstleistungen zur Neukundengenerierung.

Angebot Datensatz

Englische Trigramme

Der Datensatz wurde vom Anbieter am 14. Dez. 2012 eingestellt.

Der Datensatz enthält die häufigsten Buchstabentrigramme englischen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 3 Buchstaben. Man kann damit z.B. eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL und CSV. Die Zeichencodierung ist UTF8.

Ausschnitt aus den Daten:

INSERT INTO `ngramme` (`id`, `n`, `buchstabe`, `count`, `percent`) VALUES
(10042, 3, 'and', 4373077, 0.00588827720839116),
(10045, 3, 'ing', 3527528, 0.00474975920258473),
(10054, 3, 'ion', 2805181, 0.00377713069029242),
(10059, 3, 'ent', 2194825, 0.00295529624196124),
(10061, 3, 'tio', 2177270, 0.00293165871936712),
(10071, 3, 'for', 1777732, 0.00239368728660109),
(10075, 3, 'ter', 1733631, 0.00233430600583076),
(10077, 3, 'her', 1661225, 0.00223681250193162),
(10078, 3, 'ati', 1645746, 0.00221597027964541),
(10083, 3, 'The', 1568356, 0.00211176590063324),
(10084, 3, 'ate', 1554016, 0.00209245732336183),
(10089, 3, 'ere', 1381306, 0.00185990611132938),
(10090, 3, 'ver', 1375222, 0.00185171410406862),
(10095, 3, 'was', 1309621, 0.00176338342222889),
(10101, 3, 'ted', 1291422, 0.00173887876408646),
(10103, 3, 'ers', 1254601, 0.00168929988516661),
(10104, 3, 'all', 1249597, 0.00168256208037818),
(10108, 3, 'are', 1205797, 0.00162358609122282),
(10109, 3, 'hat', 1197634, 0.00161259474420284),
(10111, 3, 'tha', 1189543, 0.00160170034401435),
...

Was sind Trigramme ?
Trigramme sind eine Art statistischer Textanalyse, bei der alle Wörter, die in einem Text vorkommen, in Gruppen von drei aufeinanderfolgenden Wörtern oder Buchstaben (Trigramm) zusammengefasst und dann verglichen werden. Dieser Ansatz ermöglicht es, ähnliche Textstücke (z.B. in einem komplexen Dokument) zu identifizieren. Diese Methode der Textanalyse kann verwendet werden, um Unterschiede und Ähnlichkeiten zwischen Texten zu erkennen, um die Verbindung zwischen verschiedenen Texten zu ermitteln, um übermäßige Wiederholungen zu finden, und um eine allgemeine Übersicht über den Inhalt und das Thema eines Textes zu geben.

Noch keine Kommentare zu diesem Datensatz vorhanden.

Neuer Kommentar

Sie benötigen Hilfe??

Detailfragen zum Datensatz beantworten wir gerne per E-Mail. Senden Sie uns einfach eine Nachricht, wir helfen gerne, um den perfekten Datensatz für Ihre Bedürfnisse zu finden.

support

Liste der Dateien

3gramme_en.csv.gz
Größe: 1.42M

csv

3gramme_en.sql.gz
Größe: 1.43M

sql

Dateien werden nach dem Kauf zum Download freigeschaltet.

Inseriert am : 14. Dez. 2012
Dateitypen : csv sql
Kategorie : Sonstige
Größe : 2.85M
Tags : Computerlinguistik englisch englisch
Suchbegriffe : trigramme häufigkeit deutsch, häufigsten trigramme,

Englische Trigramme

Beschreibung

Vorschaubilder (0)

Kommentare (0)

Neuer Kommentar

Sie benötigen Hilfe??

Liste der Dateien

Englische Trigramme

Beschreibung

Vorschaubilder (0)

Kommentare (0)

Neuer Kommentar

Sie benötigen Hilfe??

Liste der Dateien

Ähnliche Datensätze

Englische Wortliste 99€

Deutsche Trigramme 10€

Deutsche Wortliste 99€