Drei Einreichungen und zwei Late Posters zur DAGA 2026

04.11.2025

Drei Papers zur DAGA 2026 Konferenz zu den Themen Large Audio Language Models (LALMs), akustische Szenenerkennung in H?rger?ten und automatisierte Erkennung von Soundmarks eingereicht.

Au?erdem wurden zwei Late Poster zu den Themen akustische Klassifikation von Insekten und Sonifizierung von Bewegungsdaten.

Gemeinsam mit Kollegen vom Fraunhofer-Institut für Digitale Medientechnologie (IDMT), TU Ilmenau, Hochschule München und Universit?t Ulm wurden drei Papers zur DAGA 2026 eingereicht.

Hier eine ?bersicht der drei Papers:

(1) Dilip Harish (Fraunhofer IDMT), Jakob Abe?er (Otto-Friedrich-Universit?t Bamberg): Towards Environmental Sound Analysis using Large Audio Language Models (LALMs)

Dieser Beitrag gibt einen ?berblick über aktuelle Entwicklungen bei Large Audio Language Models (LALMs), die Sprachverst?ndnis und akustische Szenenanalyse in einem multimodalen KI-Rahmen vereinen. Zudem werden bestehende Modelle, Benchmarks, Anwendungen und Feinabstimmungsstrategien vorgestellt, um ihre Leistungsf?higkeit bei der Analyse komplexer Umgebungsger?usche zu bewerten.

(2) Yuxuan He (TU Ilmena), Aayushmi Mukherjee (Universit?t Ulm), Claudia Lenk (Universit?t Ulm), Jakob Abe?er (Otto-Friedrich-Universit?t Bamberg): Neuromorphic Sensor and Conventional Front-Ends for CNN-based Acoustic Scene Classification: A Comparative Study

Dieser Beitrag untersucht den Einfluss unterschiedlicher Eingabemodalit?ten auf die Leistung der Acoustic Scene Classification (ASC), wobei ein konventionell vorverarbeitetes Audiosignal mit einem sensorbasierten MEMS-Cochlea-Signal verglichen wird. Dabei werden verschiedene CNN-Architekturen unter identischen Trainingsbedingungen evaluiert, um die Wechselwirkung zwischen Front-End und Back-End sowie die Eignung für h?rger?teorientierte, ressourcenbeschr?nkte Anwendungen zu analysieren.

(3) Jakob Abe?er (Otto-Friedrich-Universit?t Bamberg) & Anna Kruspe (Hochschule München): Detecting Urban Soundmarks: A Pilot Study Using Sound Event Detection and NLP on Recordings from European Cities

Dieser Beitrag stellt einen rechnergestützten Ansatz zur gro?skaligen Identifikation von Soundmarks vor, also charakteristischen Klangereignissen, die die akustische Identit?t eines Ortes pr?gen und als immaterielles Kulturerbe gelten. In einer Pilotstudie mit Aufnahmen aus zehn europ?ischen St?dten wird gezeigt, wie sich Soundmarks durch die Kombination von Sound-Event-Detektion und sprachbasierten Analysen mittels Large Language Models automatisch erkennen und kulturell einordnen lassen.

Weiterhin wurden die folgenden beiden Late Posters eigereicht:

(4) Pitchapa Ngamthipwatthanaa (Fraunhofer IDMT), Jakob Abe?er (Otto-Friedrich-Universit?t Bamberg), Dragan Chobanov (Institute of Biodiversity and Ecosystem Research, Bulgarian Academy of Sciences): Automatic classification of insect sounds

Dieser Beitrag untersucht die automatische Klassifikation von Insektenarten auf Basis heterogener bioakustischer Aufnahmen im Rahmen des EU-Horizon-Europe-Projekts BioMonitor4CAP. Dabei werden unterschiedliche Deep-Learning-Architekturen auf variablen Feld- und Laboraufnahmen evaluiert, wobei transformerbasierte Modelle (insbesondere PaSST) die beste Leistung zeigen, zugleich jedoch Herausforderungen wie Klassenungleichgewicht, akustische ?hnlichkeiten zwischen Arten und fragmentierte Gesangsstrukturen deutlich werden.

(5) Marcello Lussana (Otto-Friedrich-Universit?t Bamberg), Jakob Abe?er (Otto-Friedrich-Universit?t Bamberg): Sentire: Wie die Sonifikation von N?he und Berührung K?rperwahrnehmung f?rdern kann.

Dieser Beitrag stellt das interaktive Sonifikationssystem ?Sentire“ vor, das N?he und Berührung in Echtzeit auditiv abbildet, um K?rperwahrnehmung und relationale Erfahrung zu f?rdern. Mithilfe eines Mixed-Methods-Ansatzes wird untersucht, wie kontinuierliches auditives Feedback Propriozeption, verk?rperte Agency und soziale Dynamiken beeinflusst, wobei zugleich Herausforderungen wie kognitive Belastung und notwendige Lernprozesse sichtbar werden.