Am 17. Juni findet das Creative AI Symposium statt, bei dem wir gemeinsam die Möglichkeiten von kreativer KI erkunden. Einer der Referent:innen ist Dr. Tristan Behrens, der mit Künstlicher Intelligenz Musik generiert. Im ARIC-Interview spricht er über KI im kreativen Prozess, die passende Datenbasis für KI-Komposition und wagt einen Blick in die Zukunft der KI-Musik.
ARIC: Du bezeichnest dich als AI-Guru. Was bedeutet das?
Dr. Tristan Behrens: Eine Kollegin hat mich als Deep Learning Yogi bezeichnet, weil ich Yogalehrer bin, aber die Domain deeplearningyogi war mir zu lang. In der östlichen Philosophie ist ein Guru jemand, der Licht ins Dunkel bringt. Und ich versuche, durch meine Lehrtätigkeit ein bisschen Licht ins Dunkel zu bringen, was KI betrifft.
Ist KI ein dunkles Etwas im Sinne von riesig und unüberschaubar?
Es braucht Zeit, um da einzusteigen. Wenn du in einem Raum mit hundert Leuten fragst „Was ist die Definition von KI?“, dann bekommst du hundert verschiedene Antworten. In meiner täglichen Lehrtätigkeit versuche ich – ähnlich wie in der Yogapraxis – dafür zu sorgen, dass die Leute zumindest mal einen Handstand machen. Weil wir gerade an einer Schwelle sind: Wir haben sehr viel erforscht und tragen das jetzt in die Industrie.
Zum Creative AI Symposium haben wir dich eingeladen, weil du dich mit AI-generierter Musik beschäftigst. Woher stammt dein Interesse?
Als ich Informatik studiert habe, war mir in den Semesterferien langweilig und dann habe ich angefangen, Musik zu produzieren. Musik hat mich jahrelang begleitet und Programmieren habe ich ja sowieso gelernt. 2017 oder 2018 kam dann die Inspiration, dass ich beides gleichzeitig machen könnte: Programmieren und dann noch Musik dazu nehmen.
Und ich bereue nichts: Es ist maximal inspirierend.
Was findest du daran inspirierend, Musik per KI zu generieren?
Im kreativen Prozess hat man verschiedene Phasen. Es gibt die Phase, wo man eine Idee finden muss und die zu einer hohen Qualität führt. KIs können heute so gut, beinahe auf Knopfdruck, inspirieren, sodass man meistens zu viele Ideen hat und dann eher vor der Frage steht: Welche ist die, die man wirklich benutzt?
Funktioniert die KI-Generierung für bestimmte Musikstile besser oder schlechter?
Es funktionieren alle Stile gleich gut, wenn man eine ausreichend große Datenmenge zum Trainieren hat.
„Wenn ich eine KI nur auf den Werken von J.S. Bach trainiere, kommt kein Rammstein heraus.”
Das heißt, es ergeben sich nur indirekte Probleme aufgrund der Datenbasis?
Wenn ich eine KI nur auf den Werken von J.S. Bach trainiere, kommt kein Rammstein heraus. Letztens habe ich aber eine KI auf alles trainiert, mit etwa 400.000 Liedern. Dann kommt eine universell einsetzbare KI heraus. Die kann Kammermusik produzieren, aber die gleiche KI kann dann auch Rock’n’Roll.
Was für eine Datenbasis braucht man?
Ich arbeite mit symbolischer Musik, die schon als Noten kodiert da ist. Es sind also nicht die Klangdateien. Das Äquivalent zum „Hallo Welt“, welches ich Leuten bei mir anbiete, sind die Choräle von Bach. Das sind maximal 400 Lieder. Damit kann man schon etwas anfangen. Es kommt wunderbare Musik heraus.
Wenn man 1000 oder 10.000 Lieder hat, hat man schon mal eine gute Basis.
Unser Workshop dauert 1,5 Stunden? Wie viel kann man in so kurzer Zeit eigentlich schaffen?
Ich habe mir vorgenommen, die Leute in den 1,5 Stunden erst mal an das Prinzip heranzuführen: Die nächste Note vorhersagen, wie die Daten auszusehen haben, damit man eine KI damit füttern kann, wie die Modelle aussehen und, wie man das Modell trainiert. Ich habe ein Datenset und die Architektur vorbereitet. Das werden wir zusammen etwas vervollständigen und eine KI trainieren.
Wie hat sich in den letzten Jahren verändert?
Die Computer sind schneller geworden. Wir können immer größere neuronale Netze auf unserer relativ kleinen Hardware laufen lassen.
Die Software ist jetzt außerdem so einfach zu benutzen, dass man nur noch niedrige Einstiegshürden hat. Ein Beispiel ist die Plattform Hugging Face: Mit wenig Quelltext kann man dort ein Sprachmodell trainieren. Noch vor wenigen Jahren ist man bei solchen Tätigkeiten achtzig Prozent der Zeit mit den Daten beschäftigt gewesen und dann zwanzig Prozent der Zeit mit den neuronalen Netzen. Das hat sich verschoben: Jetzt ist man zu neunzig Prozent mit den Daten beschäftigt. Das ist genial! Die Zeit, bis man Ergebnisse hat, hat sich verkürzt.
Was könntest du dir vorstellen: Wo stehen wir in zehn Jahren in Sachen KI und Musik?
Im Moment ist es noch ein gewisser Aufwand, KI-Musik zu betreiben, aber langsam geht es auf den Markt, die großen Musikfirmen schießen nach. Spätestens in zehn Jahren werden die Leute mit KI-gestützten Tools schöne Harmonien komponieren und Songs generieren. Was dazu kommt ist die Klangfarbe, das Timbre durch KI-Instrumente. Ich wäre in der Lage, auf Basis von Text mein ganzes Werk zu erstellen: Klang, Artworks, Beschreibung, Musikvideos – und das wahrscheinlich auf unseren kleinen Rechnern.
Was sind die kommerziellen Anwendungen?
Isotope ist ein Beispiel: Die Firma nutzt tiefe neuronale Netze. Auch für’s Mischen und Mastering gibt es Anbieter, hinter denen eine KI sitzt. Die hört sich die Musik an, vergleicht sie mit einem Referenzmix an und macht dann einen eigenen qualitativ hochwertigen Mix daraus. Nach einer Minute hat man einen schönen Mix. Arbeit, die sehr viel Zeit gekostet hat, wird durch diese Anbieter erleichtert.
Welche Reaktionen bekommst du eigentlich auf deine Arbeit?
Wenn ich meine Arbeit, also meine Musik vorspiele, sehe ich, dass die Leute mit dem Kopf wippen. Ich kriege also fast nur positive Reaktionen.
Falls unser Interview mit Tristan euer Interesse für KI und Kreativität geweckt hat, laden wir euch herzlich zum Creative AI Symposium 2022 am 17. Juni ein. Der Workshop mit Tristan Behrens ist nur einer von vielen spannenden Programmpunkten. Ihr könnt einen der Praxisworkshops belegen und z.B. lernen, wie man mit KI schreibt und akademischen Vorträgen lauschen - zum Beispiel zum Thema AI and Quantum Computing. Hier klicken für mehr Infos. Hier geht's direkt zur kostenlosen Anmeldung.