Wer ist datenbörse.net?
Wir sind führender Webshop für B2B-Adressdatensätze. Für viele Branchen erhalten Sie auf unserer Webseite validierte Branchenadressen als Verzeichnis zum Download. Erwerben Sie hier preiswerte Adressdaten zu Interessenten für ihre Produkte zur Kundenakquise.
Angebot Datensatz

Deutsche Bigramme

Der Datensatz wurde vom Verkäufer am 2. Juli 2013 eingestellt.
Der Datensatz enthält die häufigsten Buchstabenbigramme deutschen Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination aus 2 Buchstaben. Man kann damit also eine automatisierte Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den Formaten SQL, CSV und auch XLS für Excel vorhanden. Encoding ist UTF8.

Ausschnitt aus den Daten:

INSERT INTO `ngramme` (`id`, `n`, `buchstabe`, `count`, `percent`) VALUES
(124, 2, 'er', 5765776, 0.0298532541129943),
(125, 2, 'en', 5581917, 0.028901293882843),
(127, 2, 'ch', 3962383, 0.0205158900713467),
(129, 2, 'de', 3503595, 0.0181404396986661),
(132, 2, 'ei', 2900830, 0.0150195247142097),
(133, 2, 'te', 2741528, 0.0141947123929007),
(134, 2, 'in', 2716095, 0.0140630288498952),
(135, 2, 'ie', 2661359, 0.0137796242019989),
(138, 2, 'nd', 2096475, 0.0108548443291137),
(139, 2, 'un', 1929248, 0.0099889990160884),
(140, 2, 'ge', 1896304, 0.00981842603449867),
(141, 2, 'st', 1732421, 0.00896989483179502),
(142, 2, 'es', 1600673, 0.00828774788004407),

..


Was sind Bigramme ?
Bigramme sind eine Kombination aus zwei Buchstaben, die häufig vorkommen und ein wichtiges Analysewerkzeug für NLP-Anwendungen darstellen. Sie können verwendet werden für Sprachstatistik, Spracherkennung, Klassifikation und Clustering.
    Noch keine Kommentare zu diesem Datensatz vorhanden.

Neuer Kommentar

Sie benötigen Hilfe??

Detailfragen zum Datensatz beantworten wir gerne per E-Mail. Senden Sie uns einfach eine Nachricht, wir helfen gerne, um den perfekten Datensatz für Ihre Bedürfnisse zu finden.

support

Download der Dateien

2gramme_de.csv
Größe: 385.87K
csv
2gramme_de.sql
Größe: 378.51K
sql
2gramme_de.xls
Größe: 859
xls


Bildrechte auf dieser Webseite:

Bild Hundenamen Autor: Jazz-face Lizenz: CC-BY-SA-2.5 / Bild Emailadressen von deutschen Zeitungen (Print und Digital) Public Domain. Alle Bilder zugeschnitten und farbtonangepasst.