Neue technische Möglichkeiten, neue Tools. Mit den großen Sprachmodellen, die jetzt seit einiger Zeit verfügbar sind, gibt es auch neue Möglichkeiten, Audiodateien oder auch Videos zu transkribieren. Bisher konnte man dafür ja nur die automatische Untertitelfunktion von Youtube nutzen, das Ergebnis war aber sogar in guten Fällen maximal als Vorschlag anzusehen und man kam eigentlich nicht darum herum, das Video komplett anzuschauen und dann "nebenbei" zu verschriftlichen. Der Aufwand dafür war sehr hoch.
Mit OpenAI Whisper gibt es verschieden starke Sprachmodelle, die sich unterschiedlich gut eignen, damit Transkriptionen anzufertigen. Generell gilt, je komplexer das verwendete Modell ist, desto höher ist die Qualität des Transkripts am Ende. Höhere Komplexität erfordert aber auch erheblich mehr Rechenleistung, so das man hier zwischen guten Ergebnissen und gut genug abwägen muss.
Man kann sich Whisper auf seinem Heimrechner installieren, eine Beschreibung findet sich
hier oder
hier (sehr viel ausführlicher, aber auf englisch).
Es gibt aber auch (noch) kostenlos zu nutzende Webservices, bei denen man entsprechende Audio- oder Videodateien hochladen kann, um sie transkribieren zu lassen. Diese sind meistens auf eine Aufnahmelänge von 60 Minuten und eine maximale Dateigröße von 300mb begrenzt. Man kann diese Limitationen bei Bedarf aber einfach umgehen, indem man zu lange Dateien in zwei oder mehr Teile aufteilt. Überlappen diese an den Enden jeweils leicht, kann man den Text hinterher recht einfach zusammenfügen. Zu große Dateien lassen sich durch erhöhte Kompression leicht kleiner bekommen, die Qualitätsanforderungen sind hier ziemlich niedrig.
Ich nutze aktuell zwei Services:
1. OneAI Language Studio:
https://lablab.ai/tech/openai/whisperDas ist die kostenlose Testumgebung von OpenAI, ich habe gute Erfahrungen damit gemacht, die Webseite in einem privaten Fenster des Firefox laufen zu lassen, dann wird normalerweise keine Anmeldung gefordert, Hinweise kann man einfach wegklicken. Die Beschreibung mit einigen Bildern findet sich im Spoiler.
Spoiler
Die Webseite ist etwas unübersichtlicher, aber trotzdem recht einfach zu bedienen. In der Box auf der linken Seite gibt es oben das Bedienfeld "upload file", da drauf klicken und anschliessend den Audio/Videofile auswählen.
Nach dem Upload schlägt One AI Studio vor, was es mit dem File machen will, hier taucht in der Regel dann "Transcribe" als Modul oben in der mittleren Box auf und man hat den Button "Run Pipeline". Da drauf klicken und abwarten.
Der Text taucht dann im mittleren Fenster auf, wenn er noch rot vor jedem Wort mit "word" markiert ist, oben einmal auf "Transcribe" klicken.
2. Freesubtitles:
https://freesubtitles.ai/Kostenlos zu nutzender Service, man muss hier ggfls. Wartezeiten einplanen. Wenn man möchte, kann man für relativ günstige Beträge Credits kaufen und den Service so priorisiert nutzen. Auch größere/längere Dateien sind dann möglich. Auch hier liegt die Anleitung im Spoiler.
Spoiler
Die Benutzeroberfläche ist relativ einfach zu nutzen. Auf "durchsuchen" klicken und dann Upload klicken. Unten noch die Sprache passend auswählen, ggfls. noch eine Übersetzung in eine andere Sprache.
Nach dem Klick auf Upload wird die Datei hochgeladen und man bekommt seinen Platz in der Warteliste mitgeteilt. Das kann von einigen Sekunden bis hin zu Stunden gehen, meistens ist das hier sehr schnell.
Nach dem Ende der Erkennung bekommt man diese Übersichtsseite. Oben wird das Video/Audio angezeigt, darunter finden sich Informationen zum Text. Wichtig ist hier die Zeile "TXT (German)", wenn man hier auf "view" oder "download" klickt, erhält man das Transkript als simples Textfile.
Beide Methoden funktionieren wirklich erstaunlich gut darin, komplette Texte zu liefern, das funktioniert sogar mit Leuten, die nuscheln, so wie unser oberster Souterrain das gerne tut. Bei OneAI Studio habe ich teilweise beobachtet, das die Transkripte manchmal nicht komplett sind, einen Grund dafür habe ich nicht gefunden, bei "Freesubtitles" habe ich das noch nicht gesehen.
Vorteil von OneAI Studio ist die Erkennung mehrerer Sprecher, was gerade für Interviewsituationen wirklich praktisch ist. Hier muss man nur einmal heraushören, wer welcher Sprecher ist und kann das dann mit suchen und ersetzen im Textfile passend editieren. Zusätzlich sind im Textfile Zeitmarken enthalten, so das man sich ggfls. einzelne Stellen gezielt anhören kann.
Freesubtitles kann diese Erkennung leider nicht, wenn man aber Audio-/Videofiles hat, in denen nur ein Sprecher ist, macht das aber nichts. Auch Zeitmarken gibt es hier leider nicht, dafür ist aber manchmal das Transkript vollständiger. Man kann dann also leicht beide Transkripte zusammenführen. Freesubtitles ist nach meinen Erfahrungen schneller in der Erstellung der Transkripte.
Das ganze ist ein sehr brauchbares Werkzeug um Videos zu transkribieren. Es vermeidet ggfls. unangenehme Kundenstimmen über längere Zeit anhören zu müssen und ermöglicht hier ein schnelles Querlesen über eine längere Veranstaltung (das halbwegs komplett anzuhören/-sehen dauert viel länger). Die Qualität ist insgesamt sehr gut, es gibt aber immer mal Worte, die nicht sauber erkannt werden. Das kann man umgehen, wenn man den Text halbwegs aufmerksam querliest (je nach Sprecher wird aus dem KRD dann KID oder KIT) und dann entsprechend nach Kontext korrigiert. Ggfls. muss man sich auch einige Stellen anhören. Insgesamt sind so kleine Stellen aber wenig problematisch und das Transkript ist "gut genug" um es im Forum zu verwenden.
Zum Schluß noch ein kurzer Hinweis zum Datenschutz: Wir wissen nicht wirklich, was mit hochgeladenen Daten passiert, vermutlich werden sie aber nicht einfach gelöscht, sondern möglicherweise für weitere Zwecke gespeichert. Mit öffentlich verfügbaren Audio-/Videodateien sollte das kein Problem sein, sensitives Material würde ich aber nicht hochladen, sondern nur in einer lokalen Installation von Whisper verarbeiten.