AI-basierte Auto-Transkription

<< Click to Display Table of Contents >>

Navigation:  Transkriptionen und Kommentare >

AI-basierte Auto-Transkription

INTERACT Premium bietet seit 2024 ein auf KI-basierendes Offline-Autotranskriptionsmodul.

Nach der korrekten Installation ermöglicht Ihnen dieses Modul, jedes Video mit klarem Audio lokal automatisch zu transkribieren - vollständig GDPR-konform.

Hinweis: Während der Installation von INTERACT und dem ersten Durchlauf des Auto-Transcribe-Moduls ist eine Internetverbindung erforderlich.

Starten Sie eine automatische Transkription

Öffnen Sie Ihr Video in INTERACT

Öffnen Sie eine INTERACT-Datendatei.

Erstellen Sie ein DataSet, indem Sie auf die Schaltfläche Btn_AddSet Add Set klicken.

Klicken Sie auf Einfügen - Multimedia Referenz - Zu DatenSet Brn_LinkToSet

Oder...

Klicken Sie mit der rechten Maustaste in das entsprechende DataSet.

Wählen Sie im Kontextmenü Dateiverweis einfügen > Aktuelle Videos mit aktuellem DataSet verknüpfen.

Vergewissern Sie sich, dass Sie das verknüpfte Video öffnen können, indem Sie auf einen Zeitstempel des DataSet doppelklicken, sonst kann das Transkriptionswerkzeug das Video nicht "finden".

Auto-Transkription konfigurieren

Öffnen Sie den Konfigurationsdialog mit dem Befehl Text - Textanalyse > Autotranscribe-Whisper.

Auto-TranscribeMenu

Der Konfigurationsdialog erscheint:

Auto-Transcribe-Dialog Whisper_TranscriptExportFormats

Mit diesen Standardeinstellungen erhalten Sie bereits eine recht gute Transkription Ihres Videos.

Optionen für Sprache und Text

Modell - Das ausgewählte Modell bestimmt sowohl die Qualität des Ergebnisses als auch die Zeit, die für die Transkription benötigt wird.
Das Basismodell ist ein sehr guter Kompromiss.
Für einen groben Index der gesprochenen Worte kann sogar das kleine Modell ausreichend sein.
Sie müssen testen, welches Modell für Ihre Videos und Ihre Hardware-Einstellungen am besten geeignet ist.

Wiederholte Transkriptionsdurchgänge

Diese Aufklappliste-Liste bietet die folgenden Optionen:

oDatei überspringen und keine Ereignisse erstellen - Wenn das Video bereits transkribiert wurde, geschieht nichts.

oÜberschreiben und erneut transkribieren - Vorherige Transkriptionen werden überschrieben und das Video wird erneut verarbeitet.

oVorhandenes Transkript zum Erstellen von Ereignissen verwenden- Frühere Transkriptionen werden verwendet, um Ereignisse in der aktuellen Datei neu zu erstellen.

Transkripte als INTERACT Ereignisse hinzufügen - Diese Option gewährleistet die automatische Erstellung von INTERACT Ereignissen. Wenn Sie diese Option deaktivieren, können Sie die SRT-Datei später in INTERACT importieren.

Optionen zur Sprechererkennung

Geben Sie die Anzahl der Sprecher in Ihrem Video an, um die Identifizierung von Sprechern zu verhindern, die nicht anwesend sind.

Hinweis: Die Sprechererkennung funktioniert nur, wenn die Stimmen leicht zu unterscheiden sind. Teilnehmer mit ähnlichen Stimmen erhalten die gleiche Sprecher-ID. Sie müssen die Ergebnisse manuell überprüfen und möglicherweise die Sprecher-ID für bestimmte Ereignisse ändern.

TIPP:Wenn die Sprechererkennung nicht erforderlich oder aufgrund der Ähnlichkeit der Stimmen schwierig ist, setzen Sie den Wert Max. Dies beschleunigt die Transkriptionsroutine erheblich, da alle Zeilen die gleiche Sprecherbezeichnung erhalten.

Optionen für den Export

Transkriptionsformat - Legt das Dateiformat der resultierenden Textdatei fest. SRT und VTT sind spezielle Untertitelformate, die auch direkt in INTERACT importiert werden können.

Transkripttyp - Legt fest, wie die Ereignisse erstellt werden: Pro Satz oder pro Wort. Bei einer Transkription pro Wort wird für jedes Wort ein Ereignis erzeugt, was zu einer genauen Zeitmessung pro Wort führt.

Wörter in Untertiteln hervorheben - Nur von Interesse, wenn Sie die exportierte Untertiteldatei tatsächlich für ein Video verwenden möchten, z. B. auf YouTube.

Output path

Gibt an, wo die Transkriptionsdatei gespeichert wird. Wenn Sie diese Datei im selben Verzeichnis wie das Video erstellen, ist sie leicht zu finden.

Add transcripts as INTERACT Events - Diese Option gewährleistet die automatische Erstellung von INTERACT Events. Wenn Sie diese Option deaktivieren, können Sie die autoamtisch erzeugte SRT-Datei später in INTERACT importieren.

Wiederholte Transkriptionspässe

Das Dropdown-Menü am unteren Rand bietet die folgenden Optionen:

oSkip file and do not create Events - Wenn das Video bereits transkribiert wurde, geschieht nichts.

oOverwrite and transcribe again - Frühere Transkriptionen werden überschrieben und das Video wird erneut bearbeitet.

oUse existing transcript for creating Events - Frühere Transkriptionen werden verwendet, um Ereignisse in der aktuellen Datendatei neu zu erstellen.

Das von Ihnen gewählte Modell bestimmt die Qualität der Transkription.
Je besser die Qualität, desto länger dauert es, bis die Transkription abgeschlossen ist.

Auto-TranscribeProgressBar

Die Länge eines Videos und die Anzahl der gesprochenen Wörter ist ein weiterer wichtiger Faktor für die Dauer der Aufgabe.

Einige Hinweise zur Dauer der Transkription:

oEin 30 Sekunden langes Video, das auf der CPU läuft, dauert etwa 30 Sekunden, wenn das Basismodell verwendet wird, aber 5 Minuten, wenn das mittlere Modell verwendet wird.

oDas gleiche 30-Sekunden-Video auf einem korrekt konfigurierten Grafikprozessor dauert weniger als 20 Sekunden für das mittlere Modell und etwa 3 Minuten für das große Modell (wenn Ihr Grafikprozessor genügend Speicher bietet).

Dies sind nur grobe Schätzungen und können für längere Videos nicht linear multipliziert werden, aber sie zeigen den Unterschied zwischen diesen drei Modellen.

Modelle und Ressourcen

Grafikkarten (GPU), die CUDA unterstützen, können den Transkriptionsprozess beschleunigen und größere Modelle benötigen mehr Speicher als kleine. Unten finden Sie eine Liste, die die Menge an GPU-Speicher angibt, die pro Modell benötigt wird:

oModel "tiny": 1 GB

oModel "tiny.en": 1 GB

oModel "base": 1 GB

oModel "base.en": 1 GB

oModel "small": 2 GB

oModel "small.en": 2 GB

oModel "medium": 5 GB

oModel "medium.en": 5 GB

oModel "large-v1": 10 GB

oModel "large-v2": 10 GB

oModel "large-v3": 10 GB

oModel "large": 10 GB

oModel "large-v3-turbo": 6 GB

oModel "turbo": 6 GB

Wenn Sie also eines der größeren Modelle auswählen, Ihr Computer aber nur über einen normalen Grafikprozessor verfügt, wird die Transkription nicht funktionieren.