Automatisierung meines Produktionsprozess

PechGehabt · 3. Februar 2025 um 19:06

Hi! Ich hatte Lust (obwohl ich nicht programmieren kann) mit Cursor AI zu versuchen, meinen Produktionsprozess zu automatisieren.

Lasst mich meinen Prozess kurz beschreiben:

Ich schneide in Ultraschall und exportiere dort meine Flac Audios und meine Chapter Marks Datei.
Dann nutze ich Auphonic für die Post Production.
Dann nutze ich das entstandene .mp3 mit Whisper für Transkript als Text und als .srt.
Dann gebe ich das Transkript an ChatGPT für Vorschlag von Untertitel, Kurze Zusammenfassung, lange Zusammenfassung, SEO-URL, Meta Description, Social Media Post für LinkedIn, Mastodon und Bluesky

Das alles hab ich jetzt automatisiert (Screens zeigen eine Mini-Version des Audio von nur ca. 2 Minuten)
Dateien hochladen:

Ergebnis

Ich poste das hier eigentlich nur, falls sich jemand inspirieren lassen will. Das „Tool“ ist ziemlich auf meinen Prozess geschnitzt, der bei euch bestimmt anders ist. Man kommt mit Cursor AI schon recht weit - man muss aber auch Gedult haben und API Doku lesen und verstehen können.

phil · 4. Februar 2025 um 22:41

Wenn du doch Auphonic nutzt, warum nutzt du deren KI nicht dafür, dir Transkripte und daraus die Zusammenfassungen generieren zu lassen? Dann sparst du dir eine Menge Eigenarbeit (die du ja nun investiert hast, aber vermutlich ist die KI von Auphonic -übrigens auch Whisper- besser trainiert als deine).

Ansonsten schon echt sexy, was du da gebaut hast. Insbesondere, dass du ne UI gebaut hast, ist schon echt gut. Macht ja teils mehr Arbeit, als nur die API-Calls zu basteln.

Und ja: Krass, was da heutzutage ohne Programmierkenntnisse möglich ist.

PechGehabt · 5. Februar 2025 um 07:56

Hi! Thnx!

Ich hatte ganz früher mal Speech2Text in Auphonic auf Basis von Google Speech2Text aktiv. Bin dann irgendwann auf Whisper gewechselt und habe nie wieder geschaut. Ich hab gerade mal nachgeguckt:

Ich komme in der Regel mit der freien Variante von Auphonic hin (4x max. 20 min Folgen pro Monat). Ich könnte auch bei Auphonic Credits kaufen, aber bei OpenAI zahl ich dann ja auch nur die anfallenen API Aufrufen… Ich überleg mal. Schlussendlich ist beides ja Whisper… Aber danke für den Tipp!

PechGehabt · 8. Februar 2025 um 21:13

Kleines Update: Gestern die erste echte Folge damit post-produziert und das war schon geil. 3 Dateien hochladen, nebenbei Banner-Bild für Folgen-Webseite bauen, dann alles aus einer zentralen Stelle kopieren und fertig.

Allein nicht mehr Texte von Tool A nach B, nach C zu kopieren war schon echt nice. Und man kann nix vergessen

tomkalei · 10. Februar 2025 um 15:38

Für mich wären die AI Shownotes nichts, mein Gehirn schläft bei diesen superaalglatten AI Texten immer nach wenigen Sekunden ein, oder wie ich neulich auf social media las: „ai;dr“

Aber was anderes: Whisper kannst du doch lokal installieren, da ist doch gar kein API-Call zu OpenAI nötig? Oder meinst du die API Aufrufe für die Verarbeitung des Transkripts in chatGPT?

PechGehabt · 13. Februar 2025 um 07:57

Hi! Ich sehe deinen Punkt wegen Zusammenfassung!
Whisper lokal: ja, hab ich ausprobiert. Ich hab auch Mac Whisper viel benutzt. Vielleicht schau ich da nochmal rein.
ChatGPT nutze ich für die Zusammenfassungen und so. Also für alle Text-Operationen nach Transkript.