Automatisierung meines Produktionsprozess

Hi! Ich hatte Lust (obwohl ich nicht programmieren kann) mit Cursor AI zu versuchen, meinen Produktionsprozess zu automatisieren.

Lasst mich meinen Prozess kurz beschreiben:

  1. Ich schneide in Ultraschall und exportiere dort meine Flac Audios und meine Chapter Marks Datei.
  2. Dann nutze ich Auphonic für die Post Production.
  3. Dann nutze ich das entstandene .mp3 mit Whisper für Transkript als Text und als .srt.
  4. Dann gebe ich das Transkript an ChatGPT für Vorschlag von Untertitel, Kurze Zusammenfassung, lange Zusammenfassung, SEO-URL, Meta Description, Social Media Post für LinkedIn, Mastodon und Bluesky

Das alles hab ich jetzt automatisiert (Screens zeigen eine Mini-Version des Audio von nur ca. 2 Minuten)
Dateien hochladen:

Ergebnis


Ich poste das hier eigentlich nur, falls sich jemand inspirieren lassen will. Das „Tool“ ist ziemlich auf meinen Prozess geschnitzt, der bei euch bestimmt anders ist. Man kommt mit Cursor AI schon recht weit - man muss aber auch Gedult haben und API Doku lesen und verstehen können.

6 „Gefällt mir“

Wenn du doch Auphonic nutzt, warum nutzt du deren KI nicht dafür, dir Transkripte und daraus die Zusammenfassungen generieren zu lassen? Dann sparst du dir eine Menge Eigenarbeit (die du ja nun investiert hast, aber vermutlich ist die KI von Auphonic -übrigens auch Whisper- besser trainiert als deine).

Ansonsten schon echt sexy, was du da gebaut hast. Insbesondere, dass du ne UI gebaut hast, ist schon echt gut. Macht ja teils mehr Arbeit, als nur die API-Calls zu basteln.

Und ja: Krass, was da heutzutage ohne Programmierkenntnisse möglich ist.

Hi! Thnx!

Ich hatte ganz früher mal Speech2Text in Auphonic auf Basis von Google Speech2Text aktiv. Bin dann irgendwann auf Whisper gewechselt und habe nie wieder geschaut. Ich hab gerade mal nachgeguckt:

Ich komme in der Regel mit der freien Variante von Auphonic hin (4x max. 20 min Folgen pro Monat). Ich könnte auch bei Auphonic Credits kaufen, aber bei OpenAI zahl ich dann ja auch nur die anfallenen API Aufrufen… Ich überleg mal. Schlussendlich ist beides ja Whisper… Aber danke für den Tipp!

Kleines Update: Gestern die erste echte Folge damit post-produziert und das war schon geil. 3 Dateien hochladen, nebenbei Banner-Bild für Folgen-Webseite bauen, dann alles aus einer zentralen Stelle kopieren und fertig.

Allein nicht mehr Texte von Tool A nach B, nach C zu kopieren war schon echt nice. Und man kann nix vergessen :slight_smile:

1 „Gefällt mir“

Für mich wären die AI Shownotes nichts, mein Gehirn schläft bei diesen superaalglatten AI Texten immer nach wenigen Sekunden ein, oder wie ich neulich auf social media las: „ai;dr“

Aber was anderes: Whisper kannst du doch lokal installieren, da ist doch gar kein API-Call zu OpenAI nötig? Oder meinst du die API Aufrufe für die Verarbeitung des Transkripts in chatGPT?