Drei Einreichungen zur DAGA 2026

Drei Papers zur DAGA 2026 Konferenz zu den Themen Large Audio Language Models (LALMs), akustische Szenenerkennung in H?rger?ten und automatisierte Erkennung von Soundmarks eingereicht.

 

Gemeinsam mit Kollegen vom Fraunhofer-Institut für Digitale Medientechnologie (IDMT), TU Ilmenau, Hochschule München und Universit?t Ulm wurden drei Papers zur DAGA 2026 eingereicht.

Hier eine ?bersicht der drei Papers:

(1) Dilip Harish (Fraunhofer IDMT), Jakob Abe?er (Otto-Friedrich-Universit?t Bamberg): Towards Environmental Sound Analysis using Large Audio Language Models (LALMs)

Dieser Beitrag gibt einen ?berblick über aktuelle Entwicklungen bei Large Audio Language Models (LALMs), die Sprachverst?ndnis und akustische Szenenanalyse in einem multimodalen KI-Rahmen vereinen. Zudem werden bestehende Modelle, Benchmarks, Anwendungen und Feinabstimmungsstrategien vorgestellt, um ihre Leistungsf?higkeit bei der Analyse komplexer Umgebungsger?usche zu bewerten.

(2) Yuxuan He (TU Ilmena), Aayushmi Mukherjee (Universit?t Ulm), Claudia Lenk (Universit?t Ulm), Jakob Abe?er (Otto-Friedrich-Universit?t Bamberg): Neuromorphic Sensor and Conventional Front-Ends for CNN-based Acoustic Scene Classification: A Comparative Study

Dieser Beitrag untersucht den Einfluss unterschiedlicher Eingabemodalit?ten auf die Leistung der Acoustic Scene Classification (ASC), wobei ein konventionell vorverarbeitetes Audiosignal mit einem sensorbasierten MEMS-Cochlea-Signal verglichen wird. Dabei werden verschiedene CNN-Architekturen unter identischen Trainingsbedingungen evaluiert, um die Wechselwirkung zwischen Front-End und Back-End sowie die Eignung für h?rger?teorientierte, ressourcenbeschr?nkte Anwendungen zu analysieren.

(3) Jakob Abe?er (Otto-Friedrich-Universit?t Bamberg) & Anna Kruspe (Hochschule München): Detecting Urban Soundmarks: A Pilot Study Using Sound Event Detection and NLP on Recordings from European Cities

Dieser Beitrag stellt einen rechnergestützten Ansatz zur gro?skaligen Identifikation von Soundmarks vor, also charakteristischen Klangereignissen, die die akustische Identit?t eines Ortes pr?gen und als immaterielles Kulturerbe gelten. In einer Pilotstudie mit Aufnahmen aus zehn europ?ischen St?dten wird gezeigt, wie sich Soundmarks durch die Kombination von Sound-Event-Detektion und sprachbasierten Analysen mittels Large Language Models automatisch erkennen und kulturell einordnen lassen.