Drei Einreichungen zur DAGA 2026
Gemeinsam mit Kollegen vom Fraunhofer-Institut für Digitale Medientechnologie (IDMT), TU Ilmenau, Hochschule München und Universit?t Ulm wurden drei Papers zur DAGA 2026 eingereicht.
Hier eine ?bersicht der drei Papers:
(1) Dilip Harish (Fraunhofer IDMT), Jakob Abe?er (Otto-Friedrich-Universit?t Bamberg): Towards Environmental Sound Analysis using Large Audio Language Models (LALMs)
Dieser Beitrag gibt einen ?berblick über aktuelle Entwicklungen bei Large Audio Language Models (LALMs), die Sprachverst?ndnis und akustische Szenenanalyse in einem multimodalen KI-Rahmen vereinen. Zudem werden bestehende Modelle, Benchmarks, Anwendungen und Feinabstimmungsstrategien vorgestellt, um ihre Leistungsf?higkeit bei der Analyse komplexer Umgebungsger?usche zu bewerten.
(2) Yuxuan He (TU Ilmena), Aayushmi Mukherjee (Universit?t Ulm), Claudia Lenk (Universit?t Ulm), Jakob Abe?er (Otto-Friedrich-Universit?t Bamberg): Neuromorphic Sensor and Conventional Front-Ends for CNN-based Acoustic Scene Classification: A Comparative Study
Dieser Beitrag untersucht den Einfluss unterschiedlicher Eingabemodalit?ten auf die Leistung der Acoustic Scene Classification (ASC), wobei ein konventionell vorverarbeitetes Audiosignal mit einem sensorbasierten MEMS-Cochlea-Signal verglichen wird. Dabei werden verschiedene CNN-Architekturen unter identischen Trainingsbedingungen evaluiert, um die Wechselwirkung zwischen Front-End und Back-End sowie die Eignung für h?rger?teorientierte, ressourcenbeschr?nkte Anwendungen zu analysieren.
(3) Jakob Abe?er (Otto-Friedrich-Universit?t Bamberg) & Anna Kruspe (Hochschule München): Detecting Urban Soundmarks: A Pilot Study Using Sound Event Detection and NLP on Recordings from European Cities
Dieser Beitrag stellt einen rechnergestützten Ansatz zur gro?skaligen Identifikation von Soundmarks vor, also charakteristischen Klangereignissen, die die akustische Identit?t eines Ortes pr?gen und als immaterielles Kulturerbe gelten. In einer Pilotstudie mit Aufnahmen aus zehn europ?ischen St?dten wird gezeigt, wie sich Soundmarks durch die Kombination von Sound-Event-Detektion und sprachbasierten Analysen mittels Large Language Models automatisch erkennen und kulturell einordnen lassen.