Transkriptionen und Kommentare > KI-basierte Auto-Transkription

INTERACT Premium bietet seit 2024 ein auf KI-basierendes Offline-Autotranskriptionsmodul.

WICHTIG: Dies kann eine enorme Zeitersparnis bedeuten, aber da die KI in der Regel versucht, einen grammatikalisch korrekten Satz zu produzieren, funktioniert die KI-Transkription nicht in allen Situationen.
Manchmal bestehen die Äußerungen nicht aus echten Wörtern, der Dialekt ist sehr ausgeprägt, oder die Fehler und Wiederholungen/Stottern sind gerade von Interesse.
In diesen Fällen ist eine manuelle Transkription weiterhin erforderlich.

Die KI-generierte Transkription MUSS IMMER vom Benutzer überprüft werden!

Nach der korrekten Installation ermöglicht Ihnen dieses Modul, jedes Video mit klarem Audio lokal automatisch zu transkribieren - vollständig GDPR-konform.

Anforderungen

Für KI-basierte Transkriptionen hängt die erforderliche GPU-Leistung auf einer CUDA-kompatiblen Grafikkarte vom gewählten Modell ab.

Hinweis: Während der Installation von INTERACT und dem ersten Durchlauf von einem bestimmte Sprachmodells des Auto-Transcribe-Moduls ist eine Internetverbindung erforderlich. Es werden NIE Audio oder Video Daten hochgeladen.

Verfügbare Sprachmodellen

Nachfolgend eine Liste, die die Menge an FREIEM GPU-Speicher angibt, die pro Modell benötigt wird:

oModel "tiny": 1 GB

oModel "tiny.en": 1 GB

oModel "base": 1 GB

oModel "base.en": 1 GB

oModel "small": 2 GB

oModel "small.en": 2 GB

oModel "medium": 5 GB

oModel "medium.en": 5 GB

oModel "large-v1": 10 GB

oModel "large-v2": 10 GB

oModel "large-v3": 10 GB

oModel "large": 10 GB

oModel "large-v3-turbo": 6 GB (= "turbo")

oModel "turbo": 6 GB (= "large-v3-turbo")

Wenn Sie also eines der größeren Modelle auswählen, Ihr Computer aber einen geringeren Grafikprozessor hat als für das ausgewählte Modell erforderlich, wird die Transkription nicht funktionieren.

Note: Mac Anwender mit einen Silicon Chip (M1, M2, M4) können mit alle Sprachmodellen arbeiten, wenn der Rechner ausreichend RAM frei hat.

*) Die beiden "Turbo"-Modelle sind eine komprimierte Version des "large-v3"-Modells mit etwa 50 % seiner ursprünglichen Parameter und deutlich weniger Decoderschichten (4 vs. 32).

WICHTIG: Sie müssen ausprobieren, welches Modell für Sie am besten funktioniert. Je nach Slang, Dialekt oder Klangfarbe kann ein anderes Modell besser funktionieren.

Freien GPU-Speicher prüfen

Es ist einfach, die Situation auf Ihrem Computer zu überprüfen:

•Öffnen Sie den Windows Taskmanager

•Wechseln Sie auf den Reiter Leistung.

•Aktivieren Sie den Abschnitt Nvidia GPU

•Überprüfen Sie den ersten Wert unter Dedizierter GPU-Speicher, um den verfügbaren Speicher für die Transkriptionsroutine zu überprüfen:

WICHTIG: Während der Installation von INTERACT und bei der Nutzung eines anderen Modells für die Auto-Transkription ist eine Internetverbindung erforderlich, um die erforderlichen Pakete herunterzuladen. Wir laden Ihre Aufnahmen NIE hoch!

Starten Sie eine automatische Transkription

▪Öffnen Sie Ihr Video in INTERACT

▪Öffnen Sie eine INTERACT-Datendatei.

▪Erstellen Sie ein DataSet, indem Sie auf die Schaltfläche Add Set klicken.

▪Klicken Sie auf Einfügen - Multimedia Referenz - Zu DatenSet

Oder...

▪Klicken Sie mit der rechten Maustaste in das entsprechende DataSet.

▪Wählen Sie im Kontextmenü Dateiverweis einfügen > Aktuelle Videos mit aktuellem DataSet verknüpfen.

▪Vergewissern Sie sich, dass Sie das verknüpfte Video öffnen können, indem Sie auf einen Zeitstempel des DataSet doppelklicken, sonst kann das Transkriptionswerkzeug das Video nicht "finden".

Auto-Transkription konfigurieren

▪Öffnen Sie den Konfigurationsdialog mit dem Befehl Text - Textanalyse > Autotranscribe-Whisper.

Der Konfigurationsdialog erscheint:

Auto-Transcribe-Dialog Whisper_TranscriptExportFormats

Mit diesen Standardeinstellungen erhalten Sie bereits eine recht gute Transkription Ihres Videos.

Optionen für Sprache und Text

Modell - Das ausgewählte Modell bestimmt sowohl die Qualität des Ergebnisses als auch die Zeit, die für die Transkription benötigt wird.
Das Basismodell ist ein sehr guter Kompromiss.
Für einen groben Index der gesprochenen Worte kann sogar das kleine Modell ausreichend sein.
Sie müssen testen, welches Modell für Ihre Videos und Ihre Hardware-Einstellungen am besten geeignet ist.

Wiederholte Transkriptionsdurchgänge

Diese Aufklappliste-Liste bietet die folgenden Optionen:

oDatei überspringen und keine Ereignisse erstellen - Wenn das Video bereits transkribiert wurde, geschieht nichts.

oÜberschreiben und erneut transkribieren - Vorherige Transkriptionen werden überschrieben und das Video wird erneut verarbeitet.

oVorhandenes Transkript zum Erstellen von Ereignissen verwenden- Frühere Transkriptionen werden verwendet, um Ereignisse in der aktuellen Datei neu zu erstellen.

Transkripte als INTERACT Ereignisse hinzufügen - Diese Option gewährleistet die automatische Erstellung von INTERACT Ereignissen. Wenn Sie diese Option deaktivieren, können Sie die SRT-Datei später in INTERACT importieren.

Optionen zur Sprechererkennung

Geben Sie die Anzahl der Sprecher in Ihrem Video an, um die Identifizierung von Sprechern zu verhindern, die nicht anwesend sind.

Hinweis: Die Sprechererkennung funktioniert nur, wenn die Stimmen leicht zu unterscheiden sind. Teilnehmer mit ähnlichen Stimmen erhalten die gleiche Sprecher-ID. Sie müssen die Ergebnisse manuell überprüfen und möglicherweise die Sprecher-ID für bestimmte Ereignisse ändern.

TIPP:

Wenn die Sprechererkennung nicht erforderlich oder aufgrund der Ähnlichkeit der Stimmen schwierig ist, setzen Sie den Wert Max =1.
Dadurch wird die Identifizierung des Lautsprechers übersprungen und alle Ereignisse erhalten die gleiche Lautsprecherbezeichnung..

Optionen für den Export

Transkriptionsformat - Legt das Dateiformat der resultierenden Textdatei fest. SRT und VTT sind spezielle Untertitelformate, die auch direkt in INTERACT importiert werden können.

Transkripttyp - Legt fest, wie die Ereignisse erstellt werden: Pro Satz oder pro Wort. Bei einer Transkription pro Wort wird für jedes Wort ein Ereignis erzeugt, was zu einer genauen Zeitmessung pro Wort führt.

Wörter in Untertiteln hervorheben - Nur von Interesse, wenn Sie die exportierte Untertiteldatei tatsächlich für ein Video verwenden möchten, z. B. auf YouTube.

Output path

Gibt an, wo die Transkriptionsdatei gespeichert wird. Wenn Sie diese Datei im selben Verzeichnis wie das Video erstellen, ist sie leicht zu finden.

Add transcripts as INTERACT Events - Diese Option gewährleistet die automatische Erstellung von INTERACT Events. Wenn Sie diese Option deaktivieren, können Sie die autoamtisch erzeugte SRT-Datei später in INTERACT importieren.

Wiederholte Transkriptionspässe

Das Dropdown-Menü am unteren Rand bietet die folgenden Optionen:

oSkip file and do not create Events - Wenn das Video bereits transkribiert wurde, geschieht nichts.

oOverwrite and transcribe again - Frühere Transkriptionen werden überschrieben und das Video wird erneut bearbeitet.

oUse existing transcript for creating Events - Frühere Transkriptionen werden verwendet, um Ereignisse in der aktuellen Datendatei neu zu erstellen.

Das von Ihnen gewählte Modell bestimmt die Qualität der Transkription.
Je besser die Qualität, desto länger dauert es, bis die Transkription abgeschlossen ist.

Auto-TranscribeProgressBar

Die Länge eines Videos und die Anzahl der gesprochenen Wörter ist ein weiterer wichtiger Faktor für die Dauer der Aufgabe.

Einige Hinweise zur Dauer der Transkription:

oEin 30 Sekunden langes Video, das auf der CPU läuft, dauert etwa 30 Sekunden, wenn das Basismodell verwendet wird, aber 5 Minuten, wenn das mittlere Modell verwendet wird.

oDas gleiche 30-Sekunden-Video auf einem korrekt konfigurierten Grafikprozessor dauert weniger als 20 Sekunden für das mittlere Modell und etwa 3 Minuten für das große Modell (wenn Ihr Grafikprozessor genügend Speicher bietet).

Dies sind nur grobe Schätzungen und können für längere Videos nicht linear multipliziert werden, aber sie zeigen den Unterschied zwischen diesen drei Modellen.