Allzweck-Spracherkennungsmodell

Datenbank für Online-Tools

Dieses Online-Tool ist ein Allzweck-Spracherkennungsmodell. Es wird mit einem grossen Datensatz verschiedener Audiodaten trainiert und ist auch ein Multitask-Modell, das mehrsprachige Spracherkennung sowie Sprachübersetzung und Sprachidentifikation durchführen kann.

Die Modelle sind für Spracherkennungs- und Übersetzungsaufgaben trainiert und in der Lage, Sprachaudio in den Text der gesprochenen Sprache (ASR) zu transkribieren und ins Englische zu übersetzen (Sprachübersetzung).

Das Tool wurde anhand von 680'000 Stunden mehrsprachiger und multitaskingüberwachter Daten aus dem Internet geschult.

Das Werkzeug ist ein Encoder-Decoder-Modell. Eingabeaudio wird in 30-Sekunden-Blöcke aufgeteilt, in ein Log-Mel-Spektrogramm umgewandelt und dann an einen Encoder übergeben. Ein Decoder wird darauf trainiert, die entsprechende Textbeschriftung vorherzusagen, gemischt mit speziellen Token, die das einzelne Modell anweisen, Aufgaben wie Sprachidentifizierung, Zeitstempel auf Phrasenebene, mehrsprachige Sprachtranskription und Sprachübersetzung ins Englische auszuführen.

Sprache: Englisch
Preis: Kostenlos
Bewertung: 👍 👍

Ergänzung: Tipps zu diesem Thema

Klick: Weiter zum Online-Tool

Zurück zur letzten Seite