Dritter Videovortrag rund um künstliche Intelligenz - jetzt zu Werkzeugen und Möglichkeiten, bestehende Bilder zu manipulieren und Bilder mittels Texteingaben neu zu erstellen sowie zu automatischer Erstellung und Analyse von Songs und Manipulation von Gesang:
Das Video ist im Rahmen meiner Tätigkeit für die Technische Hochschule Georg Agricola entstanden und wird vom E-Learning Blog der THGA eingebunden.
Inhalt:
- 00:00 - 00:36 | Intro "Bilder"
- 00:36 - 02:11 | Inhaltsbasierte Füllungs- und Reparaturwerkzeuge für Bilder
- 02:11 - 02:55 | automatisiertes Freistellen von Vordergrund-Objekten
- 02:55 - 03:41 | automatisiertesFärben von S/W-Fotos
- 03:41 - 03:57 | nachträgliches Ändern von Fokus und Bokeh
- 03:57 - 04:39 | Portraitmanipulationen
- 04:39 - 05:40 | Bildgenerierung auf Basis von Textprompts
- 05:40 - 08:11 | Biases von Bildgeneratoren
- 08:11 - 09:00 | nachträgliche Generierung von Bildteilen
- 09:00 - 09:43 | 3D Bewegungen in Standbildern, Upscaling von Rastergrafiken
- 09:43 - 10:57 | Automatische Texterkennung und -übersetzung von Bildern, Bilderkennung von Chatbots
- 10:57 - 11:16 | Intro "Musik"
- 11:16 - 14:15 | Automatisiert erstellte (Hintergrund-) Musik
- 14:15 - 14:54 | Harmonie-Analyse von bestehenden Songs
- 14:54 - 16:53 | Spurentrennung und Erstellung von Karaoke-Versionen
- 16:53 - 18:58 | Musikgenerierung auf Basis von Textprompts
- 18:58 - 20:29 | KI-Gesangsstimmen
- 20:29 - 21:10 | Abschluss
Quellenangaben
- 00m37s bis 00m53s
- https://de.wikipedia.org/wiki/Adobe_Photoshop (08.05.2024)
- 00m56s bis 02m11s
- Screenrecording von Adobe Photoshop 2024 (v.25.9.0), Funktionen "Inhaltsbasierte Füllung" und "Entfernen-Werkzeug"
- Foto: THGA Pressestelle - "THGA Hauptgebäude 2016", https://commons.wikimedia.org/wiki/File:THGA_Hauptgeb%C3%A4ude_2016.jpg (08.05.2024), Lizenz: CC by-sa 4.0
- Alle anderen Bilder: Privat
- 02m11s bis 02m20s
- Screenrecording von Adobe Creative Cloud Desktop-Client (v.6.2.0.554)
- Portraitfoto: THGA / Volker Wiciok
- 02m20s bis 02m46s
- Screenrecording von Adobe Photoshop 2024 (v.25.9.0)
- Portraitfoto: THGA / Volker Wiciok
- Alle anderen Bilder: Privat
- 02m47s bis 02m54s
- Screenrecording der Apps “Fotos” & “Notizen” unter Apple iOS 17.5.1
- Fotos: Privat
- 02m55s bis04m42s
- Screenrecording von Adobe Photoshop 2024 (v.25.9.0)
- Foto: Nikolai Ulltang - "Graustufenfotografie der Eisenbahn", https://www.pexels.com/de-de/foto/graustufenfotografie-der-eisenbahn-285286/ (08.05.2024), Lizenz: Pexels License
- Portraitfoto: THGA / Volker Wiciok
- Alle anderen Bilder: Privat
- 04m43s bis 05m13s
- Screenrecording von https://dreamstudio.ai (08.05.2024), Model: Stable Diffusion v2.1, Prompt: “Coffee beans on a wooden work surface, in the background a plain white cup of steaming coffee. Slight backlighting.”
- 05m14s bis 05m45s
- Screenrecording der App “Draw Things” (v.1.20240603.0) unter Apple iOS 17.5.1, Model: Stable Diffusion v2.1, Prompt: “realistic photo of a woman standing in the woods. backlight shining through the trees.”
- 05m49s bis 06m52s
- Bilder generiert von Nele Hirsch (eBildungslabor) mittels Midjourney, Quelle: https://ebildungslabor.de/blog/besseres-prompting-hilft-nur-bedingt-gegen-bias/ (08.05.2024), Lizenz: CC by 4.0
- Prompts: "Jemand hält einen Vortrag auf einer Konferenz", "Eine schwarze Person hält einen Vortrag auf einer Konferenz", "Eine Person im Rollstuhl hält einen Vortrag auf einer Konferenz", "Eine Person bringt einer anderen Person Mathematik bei", "Eine schwarze Person bringt einer anderen Person Mathematik bei", "Eine Person im Rollstuhl bringt einer anderen Person Mathematik bei.", "Eine schwarze Person unterrichtet eine weiße Person in Mathematik", "Eine Person im Rollstuhl bringt einer Person, die nicht im Rollstuhl ist Mathematik bei."
- 07m33s bis 07m54s
- Screenshots von https://dreamstudio.ai (08.05.2024), Model: Stable Diffusion v2.1, Prompt: “soldiers in the trench, looking at camera. morning light.”
- 07m55s bis 08m11s
- Screenshot von https://www.faz.net/aktuell/feuilleton/medien/google-stoppt-ki-bildgenerator-gemini-nach-kritik-19541661.html (08.05.2024),
- Screenshot von https://www.handelsblatt.com/technik/ki/gemini-google-stoppt-ki-generierte-bilder-von-menschen-das-steckt-dahinter-03/100017425.html (08.05.2024),
- Screenshot von https://www.telegraph.co.uk/news/2024/02/23/google-gemini-ai-images-wrong-woke/ (08.05.2024)
- 08m12s bis 08m51s
- Screenrecording von Adobe Photoshop 2024 (v.25.9.0), Funktion “Generatives Füllen”, Prompts: “wiese”, "Piratenschiff", "Oldtimer"
- Fotos: Privat
- 08m52s bis 09m02s
- Screenrecording von Adobe Firefly, https://firefly.adobe.com (08.05.2024), Funktion "Generatives Füllen", Prompt: “roter gestrickter Pullover”
- Portraitfoto: THGA / Volker Wiciok
- 09m03s bis 09m17s
- Screenrecording von https://leiapix.com (08.05.2024)
- Foto: Vlad Chețan - "Betonweg", Quelle: https://www.pexels.com/de-de/foto/betonweg-1915845/ (08.05.2024), Lizenz: Pexels License
- 09m17s bis 09m45s
- Screenrecording von https://www.upscale.media (08.05.2024)
- Foto: Torsten Behrens - "Green Garden Bokeh", Quelle: https://www.flickr.com/photos/torsten-behrens/41159246590/ (08.05.2024), Anpassungen: Künstlich verkleinert, CC by 2.0
- 09m46s bis 10m05s
- Screenrecording der Apps “Kamera” (Funktion "Live Text") und “Übersetzer” (Funktion "Übersetzen mit Kameraansicht") unter Apple iOS 17.5.1
- Texterkennung und Übersetzung basieren auf Thissen, F. (2003). "Multimedia-Didaktik in Wirtschaft, Schule und Hochschule", Springer / X.media.press, Berlin (S. 124).
- 10m05s bis 10m35s
- Screenrecording von https://42.thga.de, GUI: LibreChat, Modell: GPT-4 turbo, Prompt: “Erläutere mir diese Grafik.”
- Bild: statista - "1,7 Millionen arbeiten in der Pflege", Quelle: https://de.statista.com/infografik/24805/anzahl-der-beschaeftigten-im-pflegedienst-in-deutschland/, Lizenz: CC by-nd 4.0
- 11m15s bis 11m51s
- Screenrecording der App “Mubert: AI Music Streaming” (v.4.2.2) unter Apple iOS 17.5.1
- 11m51s bis 14m15s
- Screenrecording von https://soundraw.io (08.05.2024)
- 14m24s bis 14m54s
- Screenrecording der App “Chord AI” (v.4.7.2) unter Apple iOS 17.5.1
- Song: Martin Smaxwil - “IIm7-Vm7-I7”, Lizenz: CC by-sa 4.0
- 14m54s bis 15m38s
- Screenrecording der App “Musik”, Funktion "Sing", unter Apple iOS 17.5.1
- Song: Systemabsturz - “Verdächtig”, Lizenz: CC 0
- 15m38s bis 16m04s
- Screenrecording von Apple iOS 17.5.1, App “Chord AI”, v.4.7.2
- Song: Martin Smaxwil - “IIm7-Vm7-I7”, Lizenz: CC by-sa 4.0
- 16m08s bis 16m52s
- Screenrecording von https://vocalremover.org (08.05.2024)
- Song: Martin Smaxwil - “IIm7-Vm7-I7”, Lizenz: CC by-sa 4.0
- 16m59s bis 18m12s
- Screenrecording von https://suno.com (08.05.2024), Promts: “melodic skate punk with female voice about the end of patriarchy”, “epic and dramatic orchestral soundtrack for a pirate movie”
- 18m13s bis 18m59s
- Screenrecording von https://www.udio.com (08.05.2024), Promts: “lo-fi hip hop track about city life”, “singer/songwriter acoustic guitar song with lyrics about relaxing on sunday afternoon”
- 19m01s bis 20m01s
- Doctor Mix - “AI Vocals: The Music Revolution Begins”, Quelle: https://youtu.be/PCYTqDSUbvU
- 20m03s bis 20m16s
- Cher - “Believe (Official Music Video)”, Quelle: https://youtu.be/nZXRV4MezEw
- Musik:
- "Titanium" von AlisiaBeats, Quelle: https://pixabay.com/de/music/zukunftiger-bass-titanium-170190/, Lizenz: Pixabay License
Es gibt noch zwei weitere Vorträge, einen zu "ChatGPT und Konsorten" und einen zu "Videos, Stimmen, Avataren und Deepfakes".