Prof. Rigoll
[D-Ri45]
Ludwig Kürzinger. Exploring Hybrid CTC/Attention End-to-End Speech Recognition: Adversarial Robustness, Sinc Convolutions and CTC Segmentation.
Dissertation, Technische Universität München, 2024.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Gerhard Rigoll
2. Berichter: Sen. Prof. Dr.-Ing. Hermann Ney, RWTH Aachen
Tag der mündlichen Prüfung: 24.05.2024
[D-Ri44]
Tobias Watzel. Enhancements for Hybrid and End-to-End Speech Recognition Architectures.
Dissertation, Technische Universität München, 2023.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Gerhard Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. Tim Fingscheidt
Tag der mündlichen Prüfung: 26.04.2023
[D-Ri43]
Stefan Hörmann. Robust Face Recognition Under Adverse Conditions.
Dissertation, Technische Universität München, 2023.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Gerhard Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. Eckehard Steinbach
Tag der mündlichen Prüfung: 07.03.2023
[D-Ri42]
Okan Köpüklü. Towards Efficient Human Activity Recognition.
Dissertation, Technische Universität München, 2022.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Gerhard Rigoll
2. Berichter: Univ.-Prof. Dr. Daniel Rückert
Tag der mündlichen Prüfung: 15.06.2022
[D-Ri41]
Lujun Li. Hybrid and End-to-End Approches for Noise Robust Automatic Speech Recognition.
Dissertation, Technische Universität München, 2022.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Gerhard Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. Werner Hemmert
Tag der mündlichen Prüfung: 22.03.2022
[D-Ri40]
Maryam Babaee. Multiple People Tracking and Gait Recognition for Video Surveillance.
Dissertation, Technische Universität München, 2021.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Gerhard Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. Horst-Michael Groß (TU Ilmenau)
Tag der mündlichen Prüfung: 06.05.2021
[D-Ri39]
Patrick Lindemann. Mixed-Reality Driver-Car Interaction from Manual to Autonomous Driving.
Dissertation, Technische Universität München, 2020.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Prof. Dr. Klaus Bengler
Tag der mündlichen Prüfung: 25.06.2020
[D-Ri38]
Simon Schenk. Methods for Camera- and Head-up-Display-based Driver-Car Communication.
Dissertation, Technische Universität München, 2019.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-4180-8
In dieser Arbeit werden drei neuartige Fahrer-Fahrzeug-Kommunikationssysteme vorgestellt. Bei allen drei Systemen stellt eine Kamera das Eingabe- und ein Head-Up-Display das Ausgabegerät dar. Die Systeme wurden jeweils auf unterschiedlichen Evaluierungsstufen getestet: von offline Validierung bis Fahrsimulationsversuchen. Die drei Systeme sind eine kamerabasierte Daumengestenerkennung, eine Blicksteuerung und ein Visual-Guidance System.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. Erhardt Barth
Tag der mündlichen Prüfung: 25.06.2019
[D-Ri37]
Daniel Merget. Robust Facial Landmark Detection in the Wild.
Dissertation, Technische Universität München, 2019.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-3995-9
Die Detektion von Landmarken in Gesichtern ist ein gut erforschtes Thema im Bereich der Computer Vision, welches sich zum Ziel setzt, wichtige Punkte in menschlichen Geischtern zu finden. In alltäglichen Szenen ist diese Aufgabe besonders herausfordernd aufgrund der hohen Variabilität von Gesichtsformen und -posen, Beleuchtungssituationen sowie möglichen Verdeckungen. Diese Arbeit präsentiert einen aktuellen Ansatz, um das Problem der Landmarkendetektion in Gesichtern selbst unter solch schwierigen Bedingungen robust zu lösen. Eine wichtige Neuerung des präsentierten Ansatzes ist der Tatsache geschuldet, dass er auf einer fully-convolutional Netzwerkarchitektur basiert, was ihn invariant gegenüber Translationen macht. Translationsinvarianz ist besonders nützlich, wenn ein separater Gesichtsdetektor nicht verfügbar, nicht erwünscht, oder nicht performant (genug) ist. Fully-convolutional Architekturen weisen allerdings ein vergleichsweise kleines rezeptives Feld auf. Dieser Nachteil wird durch eine neuartige implizite Kernelfaltung kompensiert. Mehrere Experimente bestätigen, dass die implizite Kernelfaltung sowohl die Qualität der Landmarkendetektion als auch die Konvergenzgeschwindigkeit im Vergleich zu anderen aktuellen Ansätzen verbessert. Weiterhin wird der Nachweis zur Machbarkeit einer Gesichtsdetektions-losen Landmarkendetektion mithilfe des neuen Ansatzes erbracht. Hohe Auflösungen werden durch einen Pyramiden-artigen Multi-Resolution Fusionsansatz abgedeckt, während niedrige Auflösungen mit Hilfe eines Super-Resolution Mechanismus abgedeckt werden. Der vorgestellte Ansatz stellt somit einen generalisierbaren Weg dar, Landmarken von Gesichtern in alltäglichen Szenen robust zu detektieren.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. Bin Yang
Tag der mündlichen Prüfung: 12.02.2019
[D-Ri36]
Philipp Tiefenbacher. Mobile Mediated Reality.
Dissertation, Technische Universität München, 2017.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-3154-0,
Mobile Endgeräte bestimmen das digitale Zeitalter, da sie es ermöglichen, virtuelle Inhalte jederzeit und überall zu konsumieren. Diese digitalen Inhalte werden vornehmlich auf den Bildschirmen dieser Geräte dargestellt, was zu einer Trennung mit der echten Welt führt. Da die Information in der Regel nur für den Nutzer des Gerätes sichtbar ist, wird dieser sozial isoliert. Im Allgemeinen ist es schwierig, virtuelle Erfahrungen mit anderen Menschen zu teilen. Die Mediated Reality versucht, eine Welt zu erschaffen, welche echten und digitalen Inhalt beinhaltet und auch ähnlich behandelt. Dies bedeutet, dass Inhalte hinzugefügt, verändert als auch entfernt werden können, egal ob es sich dabei um virtuelle oder reale Inhalte handelt.
Diese Arbeit adressiert drei offene Herausforderungen der Mediated Reality: Tracking, Diminished Reality und die Erstellung von virtuellen Inhalten. Für diesen Zweck wird zuerst ein Tracking Algorithmus vorgestellt, welcher die Daten der inertialen Messeinheiten eines mobilen Coimputers miteinbezieht. Der Tracking Algorithmus wird dann mit den Ergebnissen in Image Inpainting verknüpft, um einen Algorithmus zu entwickeln, welcher Teile der echten Welt unmerkbar verschwinden lässt. Neben der Entfernung von echten Objekten soll es auch möglich sein, neue virtuelle Objekte in die Mediated Reality einzufügen. Dafür werden in dieser Arbeit Techniken vorgestellt, welche direkt auf dem mobilen Computer angewandt werden können. Zuletzt werden die Vorteile einer Mediated Reality bei der Evaluierung einer kollaborativen Aufgabe bestätigt.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. Horst-Michael Groß
Tag der mündlichen Prüfung: 10.04.2017
[D-Ri35]
Kevin Alonso Gonzales. Heterogeneous Data Mining of Earth Observation Archives: Integration and Fusion of Images, Maps and In-situ Data.
Dissertation, Technische Universität München, 2017.
Die Erdbeobachtungs-Community steht einem Big-Data-Umfeld gegenüber, wo die hauptsächliche Herausforderung nicht nur darin besteht, bessere und effizientere Algorithmen bereitzustellen, sondern auch Werkzeuge zu entwerfen und zu installieren, die eine stärkere Nutzung der verfügbaren Daten erlauben. Entsprechend dieser Herausforderung liegt der Schwerpunkt dieser Dissertation auf der Integration, Analyse und Nutzung eines breiten Spektrums von unterschiedlichen Erdbeobachtungsdaten, um für ein besseres Verständnis des Inhalts von Erdbeobachtungsbildern wertvolle Informationen effizient zu extrahieren.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Prof. Dr. Mihai Datcu
Tag der mündlichen Prüfung: 31.03.2017
[D-Ri34]
Reza Bahmanyar. Conception and Assessment of Semantic Feature Descriptors for Earth Observation Images.
Dissertation, Technische Universität München, 2016.
Die Menge an hochaufgelösten zivilen Erdbeobachtungsbildern hat sich in den letzten 10 Jahren aufgrund zahlreicher Fortschritte bei den Bildaufnahmetechnologien in der Luft- und Raumfahrt stark erhöht und hat bereits zu einer Reihe von neuen Anwendungen geführt. Andererseits hat die große Menge an verfügbaren Bildern auch die Herausforderungen beim Durchsuchen und Verstehen ihres gesamten Inhalts (d.h. ihrer Semantik) extrem gesteigert. Daraus entstand der Bedarf nach neu zu entwickelnden Image-Mining-Systemen mit zufriedenstellender Güte und vertretbaren Rechenzeiten. Die momentan vorhandenen Image-Mining-Systeme der Erdbeobachtung basieren in der Regel auf extrahierten Bildmerkmalen, die durch verschiedene Merkmalsdeskriptoren erzeugt werden, die entweder pixelbezogene Muster oder die Semantik von Bildern auf höherer Ebene darstellen. Daher hilft die Entwicklung von neuen Merkmalsdeskriptoren, die den Inhalt von Bildern, wie von den Nutzern erwartet, beschreiben können bei der Verbesserung der Genauigkeit und der Effizienz von Image-Mining-Systemen. Daher stellt diese Dissertation neue Ansätze mit Latent Dirichlet Allocation (LDA) vor, einer Themenmodellierung für Merkmalsdeskriptoren auf niedriger und hoher Ebene. Weiterhin werden in der Dissertation neuartige auf LDA und auf der Informationstheorie basierende Methoden vorgeschlagen, um verschiedene Bildmerkmalsdeskriptoren unabhängig vom jeweiligen Anwendungsfall zu beurteilen. Da Nutzer ihre erhaltenen Image-Mining-Ergebnisse normalerweise aufgrund ihrer Semantik beurteilen, haben wir Nutzerstudien zur Beurteilung von Fragen wie der sensorischen oder semantischen Lücke durchgeführt, die die Nutzerakzeptanz der Ergebnisse beeinflussen. Weiterhin zeigt diese Dissertation, wie wichtig Vorwissen über die semantische Struktur von Bildern ist, um die semantische Lücke zwischen Nutzern und Rechnern zu verkleinern. Alle zugehörigen Experimente wurden mithilfe von multispektralen und SAR-Bildern aus der Luft- und Raumfahrt durchgeführt; die Ergebnisse wurden mit Standardverfahren zur Klassifizierung und zum Clustering (z.B. mit SVM und k-Means) validiert, um kompatibel mit bereits früher erhaltenen Resultaten in unserem Fachgebiet zu sein. Die Ergebnisse demonstrieren, dass die Nutzerakzeptanz von Image-Mining-Resultaten durch die Verwendung von höheren Merkmalsdeskriptoren steigt, da die Bilder dann durch ihren semantischen Inhalt beschrieben werden. Weiterhin zeigen die Ergebnisse, dass eine vom Anwendungsfall unabhängige Bewertung der Merkmalsdeskriptoren es erlaubt, die Bewertungsergebnisse für unterschiedliche Anwendungsfälle zu verallgemeinern. Darüber hinaus weisen unsere Untersuchungen und Experimente nach, dass die sensorische als auch die semantische Lücke wegen ihrer hohen Auswirkungen auf die Nutzerakzeptanz von Image-Mining-Resultaten nicht übersehen werden sollten. Schließlich zeigen unsere Untersuchungen auch, dass eine Untersuchung des Bildmerkmalsraums das Verstehen der Bildsemantik unterstützt.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Prof. Dr. Daniel Cremers
3. Berichter: Prof. Dr. habil. Mihai Datcu
Tag der mündlichen Prüfung: 25.10.2016
[D-Ri33]
Mohammadreza Babaee. Immersive Interactive Data Mining and MachineLearning Algorithms for Big Data Visualization.
Dissertation, Technische Universität München, 2016.
Diese Dissertation adressiert mehrere Herausforderungen im Feld der Mensch-Maschine-Kommunikation für Anwendungen im Bereich Data Mining und Visualisierung. Ein Immersives Visuelles Data Mining (IVDM) System wird vorgestellt, welches die interaktive Darstellung von Bildern in einer Cave Automatic Virtual Environment (CAVE) ermöglicht. Neue (interaktive) Algorithmen basierend auf nichtnegativer Matrixfaktorisierung werden zur Dimensionsreduktion vorgestellt. Zuletzt wird ein aktiv lernender Algorithmus für die Annotation von Bildern präsentiert.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. habil. D. Wollherr
3. Berichter: Prof. Dr. Mihai Datcu
Tag der mündlichen Prüfung: 30.03.2016
[D-Ri32]
Nicolas Lehment. Stochastische Optimierung und Pattern Search Methoden als Grundlagen für Augmented Reality Videokonferenzen.
Dissertation, Technische Universität München, 2015.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-2495-5.
Diese Dissertation stellt ein neuartiges System für die kollaborative Telepräsenz vor. Hierbei werden die Räume der beiden Teilnehmer in eine gemeinsame Konsens-Realität zusammengeführt. Im Unterschied zu herkömmlichen Videokonferenzsystemen oder immersiven Telepräsenzsystemen wird dabei keine statische Trennung zwischen den teilnehmenden Umgebungen vorgenommen. Die Benutzer des Systems haben daher stets den Eindruck, in ihrem eigenen Raum zu verbleiben. Der Gesprächspartner wird jeweils über ein Head Mounted Display dargestellt und natürlich in die Umgebung eingefügt. Dabei teilen sich beide Teilnehmer einen gemeinsamen virtuellen Raum, der im Hintergrund die beiden örtlich getrennten Lokalitäten in einen Arbeitsraum zusammenfasst. In den folgenden Kapiteln werden die theoretischen Grundlagen sowie die Gesamtarchitektur des Systems beschrieben. Aus der Konzeption des Systems ergeben sich zwei zentrale Herausforderungen, die im weiteren Verlauf dieser Dissertation genauer untersucht werden. Die Kenntnis der Körperhaltung der Benutzer ist zentral für die Interaktion mit dem System und die Konstruktion der Konsens-Realität. Die Erfassung der Haltung kann dabei als ein hochdimensionales Optimierungsproblem betrachtet werden. Zur Lösung bieten sich ein stochastisches Trackingverfahren an, der Annealing Particle Filter. Seine Funktionsweise und Adaption auf die Problemstellung wird ausführlich beschrieben und in einer Reihe von Experimenten untersucht. Dabei wird besonderes Augenmerk auf die Approximation der Beobachtungswahrscheinlichkeit gelegt. Auf Basis der bekannten Benutzerpositionen kann im Folgenden die Konsens-Realität konstruiert werden. Hier ergibt sich ein weiteres Optimierungsproblem. Falls nämlich die Räume nicht sorgfältig aufeinander abgebildet werden, können Brüche zwischen der Raumgeometrie die Illusion der Kopräsenz rasch zerstören. Daher wird die Geometrie und die Position der Benutzer in eine Reihe von Energiefunktionen überführt, die mittels globaler Optimierungsverfahren gelöst werden. Die Details der Problemformulierung und die Lösungsansätze werden ausführlich diskutiert. Eine Reihe von Experimenten illustriert dabei Charakteristiken der einzelnen Terme und untersucht die Eignung verschiedener Optimierungsverfahren. Beide Schwerpunkte haben gemein, dass analytisch nicht lösbare Probleme mittels globaler Optimierungsverfahren betrachtet werden. Ebenso sind beide Themen von zentraler Bedeutung für die Realisierung einer Videokonferenz in der Konsens-Realität. Während die Berechnung der Konsens-Realität die beiden Räume in ein gemeinsames Bezugssystem überführt, stellt die Haltungserkennung die Schnittstelle für die Interaktion mit virtuellen Objekten in diesem gemeinsamen Raum dar. Auf Basis dieser Grundlagen soll eine natürliche und nahtlose Integration von virtuellen Inhalten in Unterhaltungen ermöglicht werden - selbst wenn die Gesprächspartner auf verschiedenen Kontinenten stehen.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Prof. Bernard Merialdo
Tag der mündlichen Prüfung: 10.12.2015
[D-Ri31]
Florian Laquai. Anticipation Assistance For Drivers.
Dissertation, Technische Universität München, 2014.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-2136-7. (PDF, 17MB)
Vorausschauendes Fahren hat das Potential gefährliche Verkehrssituationen zu verhindern oder abzuschwächen. Die zukünftige Verfügbarkeit von Car2X Communication erlaubt den Einsatz eines Advanced Driver Assitance System (ADAS), welches eine solche Fahrweise unterstützt. Es werden mehrere Nutzerschnittstellen entwickelt und in Fahrsimulator- und Realversuchen evaluiert. Diese Nutzerschnittstellen setzen großflächige Head-Up Displays, freiprogrammierbare Kombiinstrumente, LED – Module und taktiles Feedback ein um den Fahrer zu informieren und eine frühe Verzögerung hervorzurufen. Des Weiteren wird ein Fahrzeugfolgemodell entwickelt um den Einfluss des Systems bei breiter Anwendung und verschiedenen Ausstattungsgraden zu untersuchen.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Gudrun J. Klinker, Ph.D.
Tag der mündlichen Prüfung: 16.12.2014
[D-Ri30]
Jürgen Blume. Methoden und Anwendungen zur intuitiven Mensch-Roboter-Interaktion.
Dissertation, Technische Universität München, 2014.
Das Ziel der vorliegenden Arbeit ist eine intuitive Interaktion zwischen Mensch und Roboter mit dem Fokus auf Benutzerschnittstellen und Bedienbarkeit zu erreichen. Es wurde eine Architektur zur multimodalen Interaktion konzipiert, wobei zur Ablaufsteuerung eine wissensbasierte Kontrollinstanz zur Anwendung kam. Für eine natürliche Interaktion mit einem Roboter in Dialogsituationen wurde eine Blicksteuerung entwickelt und eine intuitive Programmierung von Robotern entworfen und evaluiert. Die Arbeit schließt mit einer Übersicht über die realisierten Anwendungsszenarien für eine intuitive Interaktion im sozialen und industriellen Umfeld.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. habil. Dr. h. c. A.W. Koch
Tag der mündlichen Prüfung: 15.12.2014
[D-Ri29]
Alexander Bannat. Ein Assistenzsystem zur digitalen Werker-Unterstützung in der industriellen Produktion.
Dissertation, Technische Universität München, 2014.
Diese Dissertation befasst sich mit der Entwicklung eines Werkerassistenzsystems, das eine abstrakte Repräsentation für Montageablaufpläne, eine Komponente zur Erfassung der Werkeraktionen und eine Darstellungseinheit für Arbeitsanweisungen beinhaltet. Das entwickelte Assistenzsystem kann einen Werker bei seiner Tätigkeit unterstützen, damit er seine Montageaufgabe erfolgreich bearbeiten und erfüllen kann. Zunächst wird ein Einblick in für diese Arbeit relevante Aspekte der industriellen Produktion gegeben. Das entwickelte Konzept zur regelbasierten Definition von Montageablaufplänen wird anhand einer Beispielimplementierung vorgestellt. Anschließend werden zwei Ansätze zur Erfassung der Werker-Tätigkeit vorgestellt. Diese umfassen eine Auswertung von 3D-Merkmalen mittels Zustandsautomat, sowie eine statistische Auswertung von 2D-Bewegungsvektoren. Jeder Ansatz wird in Probandenversuchen evaluiert. Im dritten Schwerpunkt dieser Arbeit werden zwei Konzepte zur Darstellung von Arbeitsanweisungen während einer manuellen Montage vorgestellt. Jedes Konzept wird in Probandenversuchen evaluiert und die Ergebnisse diskutiert. Die Dissertation schließt mit einer Zusammenfassung über die entwickelten Konzepte und Komponenten sowie den Ergebnissen zu den Versuchen. Schließlich wird ein Ausblick gegeben.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Prof. Dr. rer. nat. M. Kleinsteuber
Tag der mündlichen Prüfung: 27.11.2014
[D-Ri28]
Jürgen Geiger. Robust Methods for Content Analysis of Auditory Scenes.
Dissertation, Technische Universität München, 2014. (PDF, 2688 kB)
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-1986-9.
Diese Arbeit präsentiert Fortschritte bei neuartigen Anwendungen der Audioanalyse und bei der Behandlung von Störfaktoren (überlappende Sprache, Störgeräusche und Nachhall). Zuerst werden ein System zur Klassifikation von akustischen Szenen und ein Verfahren zur akustischen Gang-basierten Erkennung von Personen präsentiert. Anschließend werden Verbesserungen auf den zwei etablierten Arbeitsgebieten Speaker Diarization und robuste Spracherkennung vorgestellt. Gemeinsam stellen die vorgeschlagenen Module ein komplettes System zur akustischen Szenenanalyse dar.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. W. Hemmert
Tag der mündlichen Prüfung: 26.11.2014
[D-Ri27]
Mario Pavlic. Kamerabasierte Nebeldetektion und Sichtweitenschätzung im Fahrzeug.
Dissertation, Technische Universität München, 2014.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-1678-3.
In dieser Arbeit wird ein neues Verfahren zur maschinellen Nebeldetektion vorgestellt. Es besteht aus einer Klassifizierungsprozedur, welche anhand von spektralbasierten Merkmalen sowohl bei Tag als auch bei Nacht eine zuverlässige Unterscheidung ermöglicht. Dabei wird das Leistungsspektrum einer zweistufigen Merkmalsreduktion unterzogen, welche aus einer Abtastung im Frequenzbereich mittels einer neu vorgestellten Gabor Bandpass Filterbank sowie einer anschließenden Hauptkomponentenanalyse besteht. Dadurch erzielt bereits ein linearer Klassifikator ein hohes Trennvermögen.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Gerhard Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. habil. Walter Stechele
Tag der mündlichen Prüfung: 27.06.2014
[D-Ri26]
Martin Hofmann. Detection, Tracking and Gait-Based Identification of Multiple People in Videos.
Dissertation, Technische Universität München, 2013.
Erschienen im Verlag Dr. Huth, München, ISBN 978-3-8439-1371-3.
This thesis addresses multiple challenges in the field of vision-based surveillance and monitoring. This includes low-level preprocessing, multi-camera object detection, multi-object tracking as well as gait-based person identification. More precisely, methods to reliably detect people from multiple heterogeneous video sources and to track them over time in potentially crowded scenarios are studied and novel improvements are presented. This thesis especially investigates the paradigm of global association-based trackers, which greatly outperform traditional sigle object tracking approaches. These algorithms make person detection and tracking not only faster, but also more robust in realistic crowded surveillance scenarios. All presented methods are tested on publicly available benchmark databases and signficant performance improvements can be reported.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. Rainer Stiefelhagen
Tag der mündlichen Prüfung: 29.11.2013
[D-Ri25]
Tobias Rehrl. Multimodale Mensch-Roboter-Interaktion für Ambient Assisted Living.
Dissertation, Technische Universität München, 2013.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-1372-0.
In dieser Arbeit werden nonverbale Aspekte in der Mensch-Roboter-Interaktion und bildbasierte Objektverfolgungsmethoden für Ambient Assisted Living untersucht. Zunächst werden Methoden zur Erkennung von Gesten und Mimik entwickelt, dabei werden verschiedene Verfahren aus der Mustererkennung eingesetzt. Graphische Modelle werden in dieser Arbeit zur Gestaltung des bildbasierten Verfolgungsprozesses von Objekten verwendet. Ein Spieleszenario auf einem Roboter greift die entwickelten Methoden auf.
1. Berichter: Prof. Dr. habil. Gerhard Rigoll
2. Berichter: Prof. Dr. Horst-Michael Groß
Tag der mündlichen Prüfung: 18.11.2013
[D-Ri24]
Moritz Kaiser. Construction of a 3D Facial Model for Tracking and Animation.
Dissertation, Technische Universität München, 2012.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-84390-873-3.
Facial modeling can be used for a variety of applications, such as face recognition, face tracking, age detection, expression recognition or facial animation. In this thesis, a 3D facial model, which is also able to synthesize facial expressions, is constructed with faces from a 3D face database. Therefore, dense point-to-point correspondences between the 3D faces are computed and then a Principal Component Analysis is applied to a set of faces of the database. The functionality of the facial model is demonstrated by means of two applications. The facial movements and the micro-movements within the faces of probands are tracked in multi-camera video sequences. Furthermore, the facial model is employed for animation purposes. Faces are replaced in video sequences, in which probands are talking and carrying out facial expressions.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr. sc. Samarjit Chakraborty
Tag der mündlichen Prüfung: 18.12.2012
[D-Ri23]
Ekaterina Timoshenko. Rhythm Information for Automated Spoken Language Identification.
Dissertation, Technische Universität München, 2012.
Die automatische Erkennung der Landessprache versucht, die Sprache oder den Dialekt einer Äußerung, die von einem menschlichen Sprecher gesprochen wird, automatisch zu erkennen. Dafür kann man verschiedene Arten von Informationen nutzen, die aus einem Sprachsignal extrahiert werden können. In dieser Dissertation wird ein neues auf Rhythmus Informationen basiertes System vorgestellt. Um den Einfluss der Rhythmus Features auf die Erkennungsrate zu erkunden, wird das Rhythmus System mit „Stand-der-Technik“-Systemen kombiniert und ausgewertet. Die Ergebnisse bestätigen, dass die vorgeschlagene Definition des Sprachrhythmus erfolgreich eingesetzt werden kann, um jedes getestete System zu verbessern.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Prof. Dr. S. Kramer
Tag der mündlichen Prüfung: 21.03.2012
[D-Ri22]
Stefan Graf. Interaktions- und Suchverfahren zur Integration mobiler Endgeräte in Fahrerinformationssysteme.
Dissertation, Technische Universität München, 2012.
Erschienen im Oldenbourg Wissenschaftsverlag, ISBN 978-3486717372.
Für viele Fahrer besteht der Wunsch nach Verfügbarkeit von Informationen aus mobilen Endgeräten auch während der Fahrt. Zur sicheren Nutzung dieser Geräte dient eine Integration in Fahrerinformationssysteme (FIS). Die Arbeit bietet eine Übersicht über unterschiedliche Integrationsszenarien. Die hierarchischen Menüstrukturen bestehender FIS sind jedoch für eine flexible Integration nur bedingt geeignet. Als Lösungsansatz wird daher eine Kombination aus Objektorientierung, Such-Interaktion, adaptiver hierarchischer Menüstruktur und Informations-Navigation (Browsing) verwendet. Die Evaluierung des Ansatzes erfolgte über Nutzerstudien bis hin zu einer umfassenden Fahrsimulationsuntersuchung. Im Vergleich der Such-Interaktionen für FIS zeigte sich die Überlegenheit einer uneingeschränkten Suche gegenüber einer Kategorie-Suche. Zudem wiesen die Untersuchungen die serienreife Eignung des Konzepts nach.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr. phil. Klaus Bengler
Tag der mündlichen Prüfung: 17.02.2012
[D-Ri21]
Tony Matthias Poitschke. Blickbasierte Mensch-Maschine Interaktion im Automobil.
Dissertation, Technische Universität München, 2011.
Ziel der vorliegenden Arbeit ist die Konzeption neuartiger, intuitiver Benutzerschnittstellen zur Reduktion der Fahrerablenkung im Kraftfahrzeug. Dazu stellt die Arbeit unterschiedliche Verfahren zur Erkennung der Fahrerablenkung vor: mittels (a) einer Überwachung der Interaktion, (b) einer Analyse von Fahrzeugparametern sowie (c) einer Erfassung der Blickrichtung des Fahrers. Aufbauend auf einer umfassenden Analyse dieser unterschiedlichen Parameter stellt die Arbeit verschiedene Konzepte zur Anpassung des Informationsflusses an den Verlauf der visuellen Aufmerksamkeit des Fahrers vor und gelangt im Rahmen verschiedener Nutzerstudien zu einer eingehenden Bewertung der erarbeiteten Anzeige-Bedienkonzepte. Abschließend gibt die Arbeit einen Ausblick auf das Nutzungspotential der vorgestellten Ansätze zur Erfassung der Blickrichtung im Kontext anderer Anwendungsdomänen.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr. habil. Thomas Huckle
Tag der mündlichen Prüfung: 26.10.2011
[D-Ri20]
Benedikt Hörnler. Audio-Visual Event Recognition with Graphical Models.
Dissertation, Technische Universität München, 2010.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-86853-776-5. (PDF, 4138 kB)
In dieser Arbeit wurden unterschiedliche Aufgabenstellungen zur Erkennung von Events in Aufzeichnungen aus Videoüberwachung oder Videokonferenzen mit Hilfe von audio-visuellen Mustererkennungsverfahren analysiert. Aus den vorliegenden Daten werden hierfür akustische, visuelle und semantische Merkmale extrahiert und mit Hilfe von Graphischen Modellen verarbeitet. Diese eignen sich besonders für die Modellierung von multimodalen Merkmalssequenzen und bieten eine effiziente Möglichkeit für die automatische Datenfusion. Alle Modelle werden zunächst ausführlich theoretisch beschrieben und anschließend werden die notwendigen Strukturen für das Lernen der benötigten Parameter und die Erkennung dargestellt. Abschließend werden die Ergebnisse und weitere mögliche Forschungsansätze präsentiert. Graphische Modelle eignen sich für die vorliegende Aufgabenstellung, allerdings hängen die Ergebnisse relativ stark von der Art der Aufgabe ab.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.rer.nat. M. Kranz
Tag der mündlichen Prüfung: 20.12.2010
[D-Ri19]
Dejan Arsic. Detection and Tracking of Objects for Behavioral Analysis in Sensor Networks.
Dissertation, Technische Universität München, 2010.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-86853-455-9.
Videoüberwachungssysteme werden immer häufiger zur Wahrung der Sicherheit in öffentlichen und privaten Einrichtungen eingesetzt. Diese dienen derzeit nur zur Abschreckung und zur Aufklärung von Verbrechen, da nur speziell ausgebildetes Sicherheitspersonal die Videodaten in Echtzeit analysieren kann. Deshalb soll die Erkennung von möglichen Gefahren automatisiert werden, um Kosten zu senken und das Personal zu entlasten. Dafür wurden in dieser Arbeit Systeme zur Detektion und Verfolgung von Personen in Videosequenzen entwickelt. Da in 2D Szenarien oft Verdeckungen relevanter Bereiche auftreten, wurde mittels Homographie zwischen mehreren Kameraperspektiven dieses Problem erfolgreich behandelt. Auf diese Weise können nun personenbezogene Merkmale extrahiert werden und mit Verfahren der Mustererkennung vielversprechend auf verdächtige Verhaltensmuster hin untersucht werden.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Prof.Dr. J. Ferryman, Univ. of Reading, UK
Tag der mündlichen Prüfung: 22.04.2010
[D-Ri18]
Natasa Milicic. Sichere und ergonomische Nutzung von Head-Up Displays im Fahrzeug.
Dissertation, Technische Universität München, 2010.
Das Head-Up Display (HUD) ist im Fahrzeug eine innovative Technologie, die von den Nutzern sehr gut angenommen wird. Negative Effekte, die mit dem HUD in Verbindung gebracht werden, sind aus der Flugforschung bekannt. In dieser Dissertation wird eine Versuchsreihe vorgestellt, die sich kritisch mit diesen negativen Effekten im automotiven Kontext auseinandersetzt. Damit wird ein weiterer Grundstein für die zukünftige Nutzung des Head-Up Displays gelegt. Die Motivation bilden die Sicherheits- und Komfortvorteile, die das HUD mit sich bringt. Folgende Fragestellungen wurden untersucht:
1.Wie müssen Informationen im HUD dargestellt werden?
2.Welche weiteren Informationen können im HUD angezeigt werden, ohne negative Effekte hervorzurufen?
3.Treten negative Effekte auf, wenn im HUD eine größere Anzeigefläche zur Verfügung steht? Anhand der Ergebnisse wurde eine Guideline für die Informationsdarstellung abgeleitet.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Prof. Ph.D. G. Klinker
Tag der mündlichen Prüfung: 20.04.2010
[D-Ri17]
Andreas Muigg. Implizites Workloadmanagement. Konzept einer zeitlich-situativen Informationsfilterung im Automobil.
Dissertation, Technische Universität München, 2009. (PDF, 7623 kB)
Das Ziel dieser Arbeit ist die Konzeption und Validierung eines Systems, das die Ausgabe von Systemmeldungen im Fahrzeug zeitlich an die vorherrschende Situation anpasst. Auf Basis einer Simulatorstudie, welche die Reaktionsschemata auf Fahrzeugmeldungen untersucht, wird der Ansatz eines impliziten Workloadmanagements entwickelt. Hierbei handelt es sich um eine indirekte Abschätzung der benötigten Aufmerksamkeit zur Bewältigung der Fahraufgabe. Die Realisierung erfolgt über ein Bayes’sches Netz, das über logische Verknüpfungen und Inferenzwahrscheinlichkeiten aus den vorhandenen CAN-Daten eine hinreichend genaue Situationsbestimmung und daraus die benötigte Fahreraufmerksamkeit modelliert. Das System wird anhand einer Realfahrtstudie in einem Versuchsträger validiert und der potenzielle Nutzen ausgewiesen.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr. rer.nat. H. Bubb, i.R.
Tag der mündlichen Prüfung: 9.12.2009
[D-Ri16]
Stefan Schwärzler. Graphische Modelle im natürlichsprachlichen Mensch-Maschine-Dialog.
Dissertation, Technische Universität München, 2010.
In dieser Arbeit werden die Verarbeitungsstufen des natürlichsprachlichen Mensch-Maschine-Dialogs am Beispiel eines automatischen Flugauskunftssystems einheitlich mit Graphischen Modellen (GM) modelliert. Die Erkennung von bedeutungstragenden Wortphrasen aus dem Spracherkenner wird mit einem zweistufigen Modell realisiert, welches stochastische und regelbasierte Verfahren kombiniert. Um aus diesen Wortphrasen Strategien für einen natürlichen Dialogablauf zu entwickeln, wird ein diskretes Hidden-Markov-Modell verwendet. Mit der Berechnung der Dialogstrategie zur Laufzeit kann sich das System schnell auf veränderte Situationen einstellen und bleibt flexibel einsetzbar. Die entwickelten GM werden theoretisch analysiert, Trainingsalgorithmen werden abgeleitet und Experimente für die jeweilige Verarbeitungsstufe durchgeführt. Abschließend wird eine Realisierungsmöglichkeit mithilfe von Agenten und deren Erweiterbarkeit aufgezeigt.
1. Berichter: apl. Prof. Dr.-Ing. habil. G. Ruske
2. Berichter: Univ.-Prof. Dr. rer. nat. habil. A. Brüggemann-Klein
Tag der mündlichen Prüfung: 15.01.2010
[D-Ri15]
Joachim Schenk. Online-Erkennung handgeschriebener Whiteboard-Notizen.
Dissertation, Technische Universität München, 2009.
Die automatische Erkennung von Whiteboard-Notizen erfährt durch ihren Einsatz in sog. „intelligenten Besprechungszimmern“ eine zunehmende Bedeutung auf dem Gebiet der Mustererkennung. Dabei stellen Verzerrungen der Schrift, bedingt durch die stehende Körperhaltung beim Schreiben, eine besondere Herausforderung dar. In dieser Arbeit werden zunächst ein auf kontinuierlichen Hidden-Markov-Modellen (HMM) basierendes System sowie ein auf diskreten HMM basierendes System zur Online-Erkennung von Whiteboard-Notizen entwickelt und anschließend drei Ansätze zur Verbesserung der Erkennungsleistung dieser Systeme beschrieben. Es erfolgt eine Selektion der für die Handschrifterkennung am Whiteboard relevanten Merkmale. Die Ergebnisse zeigen, dass der binärwertige Stiftdruck im diskreten Fall nicht adäquat modellierbar ist, weswegen geeignete Verfahren zur verlustfreien Modellierung des Druckmerkmals entwickelt werden. Die Schriftlinien innerhalb einer am Whiteboard geschriebenen Textzeile weisen starke Verzerrungen auf. Deshalb wird ein neuartiges Verfahren zur Schätzung des Verlaufs der Schriftlinien vorgestellt und eine Reihe von Möglichkeiten beschrieben, wie mithilfe der Kenntnis über den Verlauf der Schriftlinien die Leistungsfähigkeit sowohl des kontinuierlichen als auch des diskreten Erkennungssystems verbessert werden kann.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: apl. Prof. Dr.-Ing. habil. W. Stechele
Tag der mündlichen Prüfung: 25.06.2009
[D-Ri14]
Stefan Hoch. Kontextmanagement und Wissensanalyse im kognitiven Automobil der Zukunft.
Dissertation, Technische Universität München, 2009.
Das Automobil hat seit seiner Erfindung einen enormen Wandel vom reinen Transportmittel hin zu einem Fahrzeug vollzogen, das mit den verschiedensten technischen Systemen für Sicherheit und Komfort und einer Vielzahl von sensorischen und aktuatorischen Fähigkeiten ausgestattet ist. Die vorliegende Arbeit widmet sich diesem Trend zur Entwicklung kognitiver Automobile. Im Mittelpunkt stehen dabei die Analyse und Exploration von drei wichtigen Forschungs- und Entwicklungsaspekten im Rahmen der automobilen Informationserfassung und -verarbeitung: das Management des situativen Kontexts, die Analyse und Interpretation vorhandenen Wissens und die erweiterte Erfassung und Modellierung des Fahrerverhaltens. Die vorliegende Arbeit liefert eine integrative Betrachtung und praktische Umsetzung dieser Lösungsansätze, von denen jeder für sich einen Beitrag zu einer konsequenten Weiterentwicklung kognitiver Automobile liefert.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr. phil. rer. soc. habil. B. Färber, Universität der Bundeswehr München
Tag der mündlichen Prüfung: 26.05.2009
[D-Ri13]
Sascha Schreiber. Personenverfolgung und Gestenerkennung in Videodaten.
Dissertation, Technische Universität München, 2009.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-86853-081-0.
Die computergestützte Analyse von Bild- und Videodaten gewinnt seit nunmehr zwei Jahrzehnten immer mehr an Bedeutung. Als ein Teilgebiet stellt dabei die automatische Detektion und Verfolgung von Objekten die fundamentale Grundlage für zahlreiche weiterführende Aufgaben aus dem Bereich der Videoanalyse dar. Die vorliegende Arbeit beschäftigt sich mit der Entwicklung einer neuartigen Architektur zur automatisierten Personenverfolgung mit Fokus auf Besprechungsszenarien. Angelehnt an das physiologische Verständnis der menschlichen Szenenanalyse wird hierzu die Problemstellung des Personentrackings sowohl aus der bottom-up sowie gleichzeitig aus der top-down Sichtweise betrachtet. Ziel hierbei ist eine hybride Systemarchitektur, welche basierend auf einer datengetriebenen Optimierung von Zustandshypothesen eine effiziente Technik zur simultanen Verfolgung mehrerer Personen anhand deren Köpfen realisiert. Unter Nutzung von verschiedenen Objektmodellierungen werden im Rahmen dieser Arbeit diverse Architekturen implementiert, gegeneinander evaluiert und die erzielten Ergebnisse anhand definierter Metriken diskutiert. Die erhaltenen Trackingergebnisse bilden die Basisinformation für die weiterführende Gestenerkennung. In realen Besprechungen werden Personen häufig von anderen Teilnehmern verdeckt, so dass die ausgeführten Gesten in der zweidimensionalen Bildebene vom System nur partikulär erfasst werden können. Aus diesem Grund wird in dieser Arbeit weiter untersucht, wie sich unterschiedliche Störungen auf die Erkennungsrate von Gesten auswirken. Darauf aufbauend werden Systemkonzepte, die eine Kompensation dieser Störungen erlauben, entworfen und evaluiert.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. K. Kroschel, Universität Karlsruhe (TH)
Tag der mündlichen Prüfung: 16.04.2009
[D-Ri12]
Markus Ablaßmeier. Multimodales, kontextadaptives Informationsmanagement im Automobil.
Dissertation, Technische Universität München, 2009.
Die vorliegende Arbeit liefert neuartige Ansätze zum Umgang mit großen Datenmengen im Fahrzeug. Dabei werden effiziente Dialogstrategien für den Fahrer identifiziert, geeignete multimodale Interfaces konzipiert und anschließend in Studien bewertet. Die Grundlage hierfür liefert ein multimodales, kontextadaptives Dialogmanagement. Zur effektiven Informationsauffindung erfährt der Fahrer Unterstützung durch eine datenübergreifende Fahrzeug-Suchmaschine. In einem erweiterten Ansatz erfolgt ein effizienter Informationszugriff über ein objektorientiertes, vernetztes Datenbrowsing. Anhand neuartiger Visualisierungsstrategien wird die intuitive Darstellung umfangreicher Informationen aufgezeigt. Des Weiteren vereinfachen intelligente Informationsagenten ständig wiederkehrende Handlungsabläufe und bereiten die erforderlichen Informationen situationsgerecht auf. Schließlich werden die Möglichkeiten von großflächigen Head-Up Displays aufgezeigt.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr. rer.nat. H. Bubb, i.R.
Tag der mündlichen Prüfung: 09.03.2009
[D-Ri11]
Daniel Modrow. Echtzeitfähige aktive Stereoskopie für technische und biometrische Anwendungen.
Dissertation, Technische Universität München, 2008.
Diese Arbeit befasst sich mit der dreidimensionalen Erfassung generischer Objekte. Der Schwerpunkt liegt dabei auf einer echtzeitfähigen Sensorik für biometrische Anwendungen, von der auch technische Implementierungen profitieren können. Als Basis dient die aktive Stereoskopie, die ideale Voraussetzungen für ein berührungsloses Messverfahren bietet. Es wird ein Überblick über den aktuellen Stand der Technik im Bereich der Tiefen und Entfernungsmessung gegeben, der auch die Grundlagen für die neu entwickelten Ansätze bereitstellt. Darüber hinaus liefert diese Arbeit einen Ausblick auf mögliche Weiterentwicklungen im Bereich der dreidimensionalen Objekterfassung.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing., Dr.-Ing. habil. A. Knoll
Tag der mündlichen Prüfung: 22.12.2008
[D-Ri10]
Stephan Reiter. Multimodale Modellierung von Gruppenaktionen zur Segmentierung von Besprechungen.
Dissertation, Technische Universität München, 2008.
Geschäftliche Besprechungen nehmen einen immer größeren Zeitraum im Berufsleben ein. Vor diesem Hintergrund werden in der vorliegenden Arbeit innovative Verfahren vorgestellt, um aufgezeichnete Besprechungen automatisch zu analysieren und in Gruppenaktionen zu gliedern. Dazu werden statische Klassifikationsverfahren eingesetzt, wobei die Segmentierung mittels zweier im Rahmen dieser Arbeit neu entwickelter Verfahren erfolgt. Rekurrente Neuronale Netze mit Long Short-Term Memory Zellen und eine von Neuronalen Feldern neu abgeleitete Architektur stellen Alternativen zu den vorgenannten Verfahren dar. Um die dynamischen Eigenschaften einer Besprechung zu modellieren werden Hidden-Markov-Modelle und erstmalig Hidden Conditional Random Fields für diese Aufgabe angewendet. Hybride Verfahren und zweistufige Ansätze, die statische und dynamische Klassifikationsverfahren kombinieren, erreichen trotz der geringen Datenmenge hervorragende Ergebnisse.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr. F. Puente León
Tag der mündlichen Prüfung: 10.07.2008
[D-Ri9]
Ronald Müller. A System for Automatic Face Analysis Based on Statistical Shape and Texture Models.
Dissertation, Technische Universität München, 2008.
Diese Arbeit stellt die Struktur, die wissenschaftlichen Algorithmen und Evaluationsergebnisse eines Software-Systems zur automatischen Analyse menschlicher Gesichter vor. Die Analyse richtet sich hierbei sowohl auf eine möglichst präzise Re-Synthese unbekannter Gesichter, als auch auf die Extraktion abstrakter Information, wie z.B. Geschlecht, Alter und Mimik einer Person in einem digitalen Bild. Die verschiedenen implementierten und untersuchten Verfahren basieren auf der Idee der sog. Active Appearance Models, die versuchen mithilfe statistischer Methoden eine Quellentrennung und damit eine Varianzreduktion in dem Erscheinungsbild von Objekten zu erreichen. Die Forschung konzentriert sich dabei auf die Optimierung der Ausführungsgeschwindigkeit und Analysequalität, was sich in den Ergebnissen der Vergleichsevaluierungen eindrucksvoll wiederspiegelt.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. habil. A. W. Koch
Tag der mündlichen Prüfung: 26.11.2008
[D-Ri8]
Stefan Reifinger. Multimodale Interaktion in Augmented Reality Umgebungen am Beispiel der Spieledomäne.
Dissertation, Technische Universität München, 2008.
Die Kombination von realer und virtueller Umgebung wird als Augmented Reality bezeichnet. Dabei ist für den Nutzer eine Interaktion sowohl mit der Realität als auch der Virtualität möglich. Interaktionsmöglichkeiten finden sich bei der Eingabe und der Ausgabe, aber auch bei der Wechselwirkung zwischen Realität und Virtualität. Daher werden in dieser Arbeit Verfahren vorgestellt, die ebensolche Interaktionsmöglichkeiten umsetzen. So wird beispielsweise die Ausgabe um eine virtuelle Akustik, die Eingabe durch Verwendung von Gestenerkennung und die Wechselwirkung durch eine bildbasierte Kollisionserkennung erweitert. Zieldomäne der Arbeit ist die Spieledomäne, für die exemplarisch Bowling und Billard in die Augmented Reality transferiert wird. Diese Demonstratoren dienen der Evaluierung der entwickelten Interaktionskonzepte.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. W. Hemmert
Tag der mündlichen Prüfung: 19.11.2008
[D-Ri7]
Marc Al-Hames. Graphische Modelle in der Mustererkennung.
Dissertation, Technische Universität München, 2008.
Graphische Modelle verbinden die Wahrscheinlichkeits- und die Graphentheorie. Dadurch können Probleme intuitiv erfasst und häufig mit geringer Rechenkomplexität gelöst werden. In dieser Arbeit wird untersucht, wie Graphische Modelle für verschiedene Mustererkennungsprobleme verwendet werden können: Zur Erkennung von Schnitten und Szenen in Videos wird ein zweistufiges Modell entwickelt. Benutzereingaben werden mit einem asynchronen Modell fusioniert. Um Aktionen in Konferenzen aus fehlerbehafteten Daten zu erkennen, wird ein Hidden Markov Modell mit einem linearen dynamischen System verbunden. Für einen automatischen Zusammenschnitt von Konferenzvideos werden Modelle, die Daten segmentieren und klassifizieren können, verwendet und Trainingsstrukturen entworfen. Die entwickelten Modelle werden analysiert, Berechnungs- und Lernalgorithmen abgeleitet, die Erkennungsleistungen evaluiert und mögliche Erweiterungen aufgezeigt.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr. H. Buhnke, Universität Bern (Schweiz)
Tag der mündlichen Prüfung: 25.04.2008
[D-Ri6]
Anil Taner. Vergleich verschiedener Systeme zur Sichtverbesserung bei Nacht in Personenkraftwagen.
Dissertation, Technische Universität München, 2007.
Erschienen im Cuvillier Verlag Göttingen, ISBN 978-3-86727-448-7.
Sichtverbesserungssysteme erweitern die Sicht des Autofahrers über die Grenzen des Abblendlichts hinaus, ohne dabei andere Verkehrsteilnehmer zu blenden. So genannte NightVision-Systeme erfassen das Vorfeld des Fahrzeugs mit einer Wärmebildkamera und zeigen das Bild in einem Bildschirm an. Ziel dieser Arbeit ist es, den Fahrer bei der Aufnahme der Information aus der NightVision-Anzeige zu unterstützen. Dazu markieren Bildverarbeitungsalgorithmen Lebewesen im Bild, um die Erkennbarkeit von Gefahren zu verbessern, und heben den Fahrbahnverlauf im Wärmebild hervor, um die Orientierung im Bild zu vereinfachen. Als Alternative zu NightVision-Systemen skizziert diese Arbeit ein Adaptives Fernlicht, das seine Ausleuchtung automatisch der Verkehrssituation anpasst und die Sicht verbessert, ohne andere Verkehrsteilnehmer zu blenden und ohne dem Fahrer ein Bild anzuzeigen. Probanden bewerten die verschiedenen Systeme dieser Arbeit in Fahrversuchen im realen nächtlichen Straßenverkehr.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. G. Färber
Tag der mündlichen Prüfung: 23.07.2007
[D-Ri5]
Axel Wismüller. Exploratory Morphogenesis (XOM) - A Novel Computational Framework for Self-Organization: Cross-Fertilization between Electrical, Biomedical, and Computer Engineering.
Dissertation, Technische Universität München, 2006.
Diese Schrift zur bioanalogen Informationsverarbeitung begründet ein neuartiges Berechnungsmodell (Exploratory Morphogenesis - XOM), welches die Visualisierung komplexer Daten und die Selbstorganisation geometrischer Strukturen (Morphogenese) aus einer gemeinsamen Sichtweise interpretiert. Lediglich auf wenigen einfachen Prinzipien beruhend, besticht XOM überraschend als ein ubiquitär einsetzbares Konzept für die Musteranalyse und Datenvisualisierung in Naturwissenschaft und Technik, indem es strukturerhaltende Dimensionsreduktion, Clusteranalyse, Musterregistrierung, inkrementelles Lernen unter Zwangsbedingungen sowie die Analyse nichtmetrischer Dissimilaritätsdaten in einen gemeinsamen Bezugsrahmen überführt. XOM läßt sich als eine Verallgemeinerung des "Deformable Feature Map"-Algorithmus motivieren, der im Kontext eines Systems zur automatischen Segmentierung und Registrierung multispektraler MRT-Daten des menschlichen Gehirns eingeführt und quantitativ analysiert wird.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Hauske
Tag der mündlichen Prüfung: 16.10.2006
[D-Ri4]
Uri Iurgel. Automatic Media Monitoring Using Stochastic Pattern Recognition Techniques.
Dissertation, Technische Universität München, 2006.
Die vorliegende Abhandlung stellt einen Demonstrator für die automatische Medienauswertung vor, der deutschsprachige Nachrichtensendungen nach vorgegebenen Themen durchsucht. Ziel ist es, die Arbeit von professionellen Medienauswertern zu unterstützen. Die Forschungsergebnisse bezüglich der einzelnen Module des Demonstrators werden zusammen mit den erreichten Innovationen dargestellt. Die Leistungsfähigkeit sowohl der Module als auch des gesamten Systems wird anhand von ausführlichen Tests untersucht. Mittels visueller Indizierungsverfahren werden Themengrenzen in Fernsehnachrichten bestimmt. Ein auf Nachrichten spezialisierter Spracherkenner wandelt die Audiosignale in Text um, welche von einem Themenklassifizierer auf das Vorkommen von vorgegebenen Themen überprüft werden. Es werden statistische Klassifizierer wie Hidden Markov Modelle und Support Vector Machines verwendet, die dem neuesten Stand der Technik entsprechen.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. W. Utschick
Tag der mündlichen Prüfung: 29.5.2006
[D-Ri3]
Jan Robert Stadermann. Automatische Spracherkennung mit hybriden akustischen Modellen.
Dissertation, Technische Universität München, 2006.
Erschienen im Verlag Dr. Hut, München, ISBN 3-89963-414-4.
Das akustische Modell eines Spracherkenners basiert auf Methoden der statistischen Mustererkennung, um eine parametrische Repräsentation der gesprochenen Äußerung zu ermöglichen. Zusammen mit einer Vorverarbeitung zur Datenreduktion, einem Wörterbuch zur orthografisch korrekten Darstellung und einem Sprachmodell zur Eingrenzung wahrscheinlicher Worte ist das akustische Modell das Kernelement des Dekoders zur Konvertierung gesprochener Sprache in geschriebenen Text. Diese Arbeit beschreibt als Schwerpunkt die Elemente eines hybriden akustischen Modells mit verbundenen Auftrittswahrscheinlichkeiten (TP, engl. tied-posteriors) bestehend aus einem statischen Klassifikator und Hidden-Markov-Modellen (HMM). Vorteile des TP-Ansatzes sind eine große Flexibilität, sowie eine niedrigere Wortfehlerrate bei relativ wenigen, zu trainierenden Parametern. Als Beispiele für geeignete statische Klassifikatoren werden neuronale Netze mit und ohne Rückkopplung und Support-Vektor-Maschinen ausführlich vorgestellt. Zur Verbesserung dieser neuronalen Netze sind neben der Phonem-, bzw. HMM-Zustandsklassifikation, Zusatzaufgaben parallel trainiert worden. Es hat sich als vorteilhaft herausgestellt, wenn zusätzlich das Geschlecht des Sprechers klassifiziert wird, da diese Aufgabe einfach zu lernen und unabhängig von der Lautklassifikation ist. Die Verwendung von SVM kann bisher nur bei sehr kleinem Vokabular (11 Zahlwörter) evaluiert werden, da die Klassifikation mit mehreren SVM bislang sehr viel Rechenzeit erfordert. Dennoch lassen sich einige positive Tendenzen dieses Systems besonders bezüglich der Robustheit gegenüber Geräuschen erkennen. Neben den sprecherunabhängigen Systemen werden weiterhin Möglichkeiten präsentiert, die TP-Modelle an einen einzelnen Sprecher zu adaptieren. Erwähnenswert ist hierbei, daß sowohl Parameter des Klassifikators (untersucht worden sind in dieser Arbeit neuronale Netze), als auch Parameter der HMM unabhängig voneinander und mit zusätzlichem Gewinn adaptiert werden können. Abschließend bieten hybride akustische Modelle zusätzliche Anwendungsmöglichkeiten für die verteilte Spracherkennung, bei der die Komponenten örtlich verteilt arbeiten und über einen Kanal verbunden sind. Besonders die Flexibilität bei der Veränderung einzelner Komponenten kann mit Gauß'schen akustischen Modellen nicht erreicht werden.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. H. Ney, RWTH Aachen
Tag der mündlichen Prüfung: 16.11.2005
[D-Ri2]
Frank Wallhoff. Entwicklung und Evaluierung neuartiger Verfahren zur automatischen Gesichtsdetektion, Identifikation und Emotionserkennung.
Dissertation, Technische Universität München, 2006.
Die Arbeit befasst sich mit der Konzeption, Integration und Beurteilung von neuen, rechnergestützten Methoden zur Findung und Erkennung von Gesichtern in Einzel- und Bewegtbildern, sowie der Emotionserkennung über deren dynamisches Mienenspiel. Die verwendeten Methoden stammen aus dem Bereich der Mustererkennung und umfassen die Hauptachsentransformation, künstliche neuronale Netze, Support Vektor Maschinen, Hidden Markov Modelle sowie daraus abgeleitete hybride Systeme. Nach der Untersuchung der involvierten Einzelkomponenten werden neuartige, integrierte Systeme zur blickwinkelunabhängigen Gesichtverfolgung für omnidirektionales Bildmaterial und zur robusten kontaktlosen Zugangskontrolle in Flugzeugen präsentiert. Darüber hinaus werden Lösungen zur Profilerkennung bei modellierter Frontalansicht, wie auch eine Personen unabhängige Erkennung spontaner Mimiken vorgestellt, und in Anlehnung an die Perzeptionsleistung des Menschen evaluiert.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. E. Steinbach
Tag der mündlichen Prüfung: 25.04.2006
[D-Ri1]
Anja Brakensiek. Modellierungstechniken und Adaptionsverfahren für die On- und Off-Line Schrifterkennung.
Dissertation, Technische Universität München, 2002.
Die vorliegende Arbeit beschreibt verschiedene Aspekte der automatischen On- und Off-Line Schrifterkennung, die auf der Verwendung von Hidden Markov Modellen (HMM) basiert. Neben der Erkennung kursiver Handschrift werden auch gedruckte Dokumente untersucht, wobei die Vorverarbeitungs- und Merkmalextraktionsmethoden jeweils dem Schrifttyp angepaßt werden. Der Schwerpunkt der Arbeit liegt jedoch auf der Untersuchung von hybriden Modellierungstechniken für die HMMs und der Entwicklung von Kontextmodellen, der Einbeziehung von Sprachmodellen (Zeichen N-Gramme) zur Erkennung von Worten mit unbegrenztem Vokabular und verschiedenen Adaptionsverfahren. Für die Adaption von Erkennungssystemen auf bestimmte Schreiber oder bestimmte lokale Schreibweisen werden außerdem unterschiedliche Konfidenzmaße verglichen.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. H.-M. Groß, TU Ilmenau
Tag der mündlichen Prüfung: 16.12.2002
Prof. Fastl
[D-F16]
Klaus Laumann. Über Methoden zur Qualitätsbeurteilung von virtuellen Kopfhörern.
Dissertation, Technische Universität München, 2016.
Die Wiedergabe binauraler Signale über Lautsprecher wird gewöhnlich anhand der Lokalisation beurteilt. Wegen der Fehleranfälligkeit der Binauraltechnik wurden Alternativen zur Evaluierung von solchen "virtuellen Kopfhörern" erforscht. Dabei erwies sich die Lateralisation als geeignetes Qualitätsmaß, der interaurale Kohärenzgrad hingegen nicht. Im konkreten Anwendungsfall war es zielführend, sechs bis acht bewegliche virtuelle Quellen in Kopfnähe mit Sekundärquellen oberhalb des Hörers zu erzeugen.
1. Berichter: apl. Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Prof. Dr.-Ing. Klaus Diepold
Tag der mündlichen Prüfung: 12.12.2016
[D-F15]
Florian Völk. Interrelations of Virtual Acoustics and Hearing Research by the Example of Binaural Synthesis.
Dissertation, Technische Universität München, 2013.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-84391-113-9.
This thesis provides a theoretical and methodical framework for employing virtual acoustics systems for audio playback in hearing research as well as auditory quality evaluation of virtual acoustics systems using methods of Psychoacoustics. The framework is verified by the example of binaural synthesis, which is derived system theoretically and evaluated by physical and psychoacoustical measurements. The results provide an explanation of the case of the missing 6dB and suggest a schematic working model of the buildup of hearing sensations with regard to auditory localization and loudness.
1. Berichter: apl. Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Univ.-Prof. Dr.-Ing. W. Hemmert
Tag der mündlichen Prüfung: 22.05.2013
[D-F14]
Tobias Rader. Speech Perception of Cochlear Implanted Patients with Combined Electric-Acoustic Stimulation.
Dissertation, Technische Universität München, 2012.
Die elektrisch-akustische Stimulation (EAS) bezeichnet die Erregung des Hörnervs mit einer Innenohr-Hörprothese durch elektrische Impulse bei Ertaubung der hohen Frequenzen und die simultane Nutzung des niederfrequenten Restgehörs mittels Hörgerät am selben Ohr. In der Dissertation wird das Multi-Source Noise Field als Untersuchungsumgebung für die anschließende realitätsnahe Messung von Sprachverständlichkeitsschwellen in verschiedenen Störgeräuschsituationen konzipiert und realisiert. Die Übergabefrequenz zwischen akustischer und elektrischer Stimulation wird anhand psychoakustischer Tonhöhenvergleiche ermittelt. Die Ergebnisse der Messungen bei Patienten mit Innenohr-Hörprothesen werden anhand von Simulationen an Normalhörenden nachvollzogen und in einem Modell beschrieben.
1. Berichter: Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Prof. Dr. K. Diepold
Tag der mündlichen Prüfung: 14.05.2012
[D-F13]
Daniel Menzel. Zum Einfluss von Farben auf das Lautheitsurteil.
Dissertation, Technische Universität München, 2011.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-86853-971-4. (PDF, 4631 kB)
Die vorliegende Arbeit befasst sich mit der Fragestellung, inwieweit Beurteilungen der Lautheit, also der subjektiv wahrgenommenen Lautstärke, nicht nur von Parametern des Schalls sondern auch von gleichzeitig dargebotenen Farbreizen abhängen. Hierzu bewerteten Probanden in umfangreichen psychoakustischen Untersuchungen die Lautheit unterschiedlicher Schalle, während sie verschiedenfarbige optische Stimuli in Form von Farbflächen, Standbildern, Bewegtbildern und virtuellen Realitäten betrachteten. Bei etwa 40% der Probanden trat eine Beeinflussung auf: Im Allgemeinen führten Rot und Magenta zu erhöhten Lautheitsbewertungen im Vergleich zu Grau und Grün mit Unterschieden von etwa 12%. Es wurde ein mathematisches Modell erstellt, das in vielen Fällen die Prognose der zu erwartenden Beeinflussung der Lautheitsurteile ermöglicht und z.B. im Rahmen des sound-quality engineerings bei der Gestaltung erwünschter Klangbilder eingesetzt werden kann.
1. Berichter: Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Prof. Dr.-Ing. W. Hemmert
Tag der mündlichen Prüfung: 05.05.2011
[D-F12]
Stefan Kerber. Wahrnehmbarkeit von Fahrzeugaußengeräuschen in Hintergrundgeräuschen: Psychoakustische Beurteilungen und modellbasierte Prognosen.
Dissertation, Technische Universität München, 2008.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-89963-909-4.
Die höchstzulässigen Außengeräuschpegel von Kraftfahrzeugen sind seit den siebziger Jahren stetig gesenkt worden. Dadurch entsteht die Gefahr, dass Einzelfahrzeuge im Hintergrundlärm nicht rechtzeitig gehört werden. Die vorliegende Arbeit untersucht deshalb mittels psychoakustischer Methoden die Wahrnehmbarkeit von Fahrzeugaußengeräuschen in unterschiedlichen Hintergrundgeräuschen. Es werden „kritische Abstände“ definiert, in denen ein Fahrzeug von Fußgängern wahrgenommen werden muss, damit Unfälle sicher vermieden werden können. Aufbauend auf umfangreichen psychoakustischen Untersuchungen zu Reaktionszeiten und Mithörschwellen wird ein Algorithmus entwickelt, der die Wahrnehmbarkeit von PKW-Geräuschen in Hintergrundgeräuschen zuverlässig, mit Korrelationen zwischen Experiment und Berechnung von 0.799 – 0.965, vorhersagen kann. Es zeigt sich, dass bereits in einem etwas lauteren Hintergrundgeräusch von 63.1dB(A) einige aktuelle PKW zu leise für eine rechtzeitige akustische Wahrnehmung sind.
1. Berichter: Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Prof. Dr.-Ing. K. Diepold
Tag der mündlichen Prüfung: 10.12.2008
[D-F11]
Markus Fruhmann. Ein Modell zur Wahrnehmung der Ausgeprägtheit der Tonhöhe.
Dissertation, Technische Universität München, 2006.
Die psychoakustische Empfindungsgröße "Ausgeprägtheit der Tonhöhe" beschreibt unabhängig von der Tonhöhe deren Deutlichkeit oder Ausgeprägtheit. In der Arbeit werden Ergebnisse psychoakustischer Experimente verschiedenster Schallarten bezüglich dieser Wahrnehmung dargestellt und anhand von Modellvorstellungen der Schallverarbeitung durch das menschliche Gehör beschrieben. Darauf aufbauend wird ein Modell erstellt, welches experimentelle Daten synthetischer und realer Schalle qualitativ und überwiegend auch quantitativ nachvollziehen kann. In der praktischen Anwendung lassen sich die "Ausgeprägtheit der Tonhöhe" sowie das erstellte Modell zur Geräuschbeurteilung, beispielsweise beim "Sound Quality Design" von Produkten, oder der Immissionsbeurteilung heranziehen.
1. Berichter: Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Prof. Dr.-Ing. K. Diepold
Tag der mündlichen Prüfung: 21.12.2006
[D-F10]
Fred Antonio Nentwich. Transfer-Pfad-Analyse im Zeitbereich zur Auralisierung von PKW-Innengeräuschen.
Dissertation, Technische Universität München, 2004.
Erschienen im Shaker Verlag Aachen, ISBN 3-8322-2975-2.
Die Arbeit beschreibt eine Simulation des Innengeräusches eines Kraftfahrzeuges. Das Fahrgeräusch besteht aus Geräuschanteilen, die von verschiedenen Schallquellen stammen und über mehrere Transferpfade in die Fahrgastkabine gelangen. Die einzelnen Geräuschanteile werden im Zeitbereich synthetisiert und durch Überlagerung zum Gesamtgeräusch zusammengefügt. Die Darbietung und subjektive Beurteilung der Simulation erlaubt eine Bewertung des Einflusses der einzelnen Geräuschanteile auf den Höreindruck des Fahrgeräusches. Weiters wird zur Synchronisation serieller Messungen am Motor ein neuartiges Verfahren entwickelt, das die phasenrichtige Überlagerung der Zeitsignale gewährleistet. Anhand der Beispiele von harten Motorlagern und dünnen Fensterscheiben wird demonstriert, daß die Simulation eine Vorhersage ermöglicht, wie sich eine Fahrzeugmodifikation auf das wahrgenommene Klangbild des Fahrgeräusches auswirken würde. Die Synthesen werden durch Fahrversuche und Hörvergleiche validiert.
1. Berichter: Apl. Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Univ.-Prof. Dr.-Ing. A. W. Koch
Tag der mündlichen Prüfung: 17.05.2004
[D-F9]
Georg Schmalfuß. Anwendung psychoakustischer Methoden und Modelle zur Feinanpassung von Hörgeräten mit natürlichen Schallen. Dissertation, Technische Universität München, 2004.
Gegenstand der Arbeit ist die Entwicklung eines interaktiven, multimedialen Hörgeräteanpassverfahrens, bei dem Höreindrücke des Patienten gemessen und/oder vorhergesagt werden, um auf geeignete Signalverarbeitungsparameter des Hörgerätes zu schließen. Hauptergebnisse sind ein Hördimensionsinventar zum Erfassen des Höreindruckes bei natürlichen Schallen sowie psychoakustische Modelle der kategorialen Lautstärke, Klanghelligkeit und Angenehmheit für Schwerhörende. In einem Praxistest wird nachgewiesen, dass die Anwendung des Hördimensionsinventars, kombiniert mit einem neuartigen Optimierungsalgorithmus auf Basis von Fuzzy-Logik, die Versorgungsqualität erhöht.
1. Berichter: Apl. Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Univ.-Prof. Dr.-Ing. G. Hauske
Tag der mündlichen Prüfung: 05.05.2004
[D-F8]
Christine Patsouras. Geräuschqualität von Fahrzeugen - Beurteilung, Gestaltung und multimodale Einflüsse.
Dissertation, Technische Universität München, 2003.
Erschienen im Shaker Verlag Aachen, ISBN 3-8322-1928-5.
In der vorliegenden Arbeit wird die Tauglichkeit unterschiedlicher psychometrischer Methoden zur Beurteilung der Geräuschqualität hinsichtlich verschiedener Anwendungsgebiete studiert. Die Geräuschqualität von synthetisierten motorähnlichen Geräuschen, synthetisierten Innengeräuschen von Hochgeschwindigkeitszügen und insbesondere von Außenstandgeräuschen Diesel angetriebener Fahrzeuge wird quantitativ erfaßt und die Auswirkungen simulierter, passiver Maßnahmen auf die Geräuschqualität untersucht. Für den Fall des Außenstandgeräuschs Diesel angetriebener Fahrzeuge wird basierend auf den Resultaten der psychoakustischen Experimente die Geräuschqualität durch eine Verknüpfung der Lautheit und des Diesel typischen Charakters der Geräusche nach einem City Block Modell beschrieben. Des weiteren wird der Einfluss nicht-akustischer Parameter auf die auditive Wahrnehmung untersucht, wobei der Fokus neben Konzentrationseinflüssen auf audio-visuellen Interaktionen liegt.
1. Prüfer: Apl. Prof. Dr.-Ing. habil. H. Fastl
2. Prüfer: Univ.-Prof. Dr.techn. J. Swoboda
Tag der mündlichen Prüfung: 14.07.2003
[D-F7]
Bernhard Seeber. Untersuchung der auditiven Lokalisation mit einer Lichtzeigermethode.
Dissertation, Technische Universität München, 2003.
Die Dissertation stellt eine neue Methode zur Untersuchung der auditiven Lokalisation vor, die sich durch eine hohe Genauigkeit und geringe methodische Einflüsse auszeichnet. Dabei wird ein Lichtzeiger rechnergesteuert mit Hilfe eines Trackballs auf die wahrgenommene Schallrichtung eingestellt. Mit Hilfe dieser Methode wird ein Verfahren zur individuell-optimalen Auswahl einer Außenohrübertragungsfunktion (AOÜF) aus mehreren fremden für Anwendungen der virtuellen Akustik entwickelt. Für die Heranschätzung auditiver Richtungen an visuelle wird gezeigt, daß sie in der virtuellen Hörumgebung mit fremden AOÜF geringer als mit individuellen AOÜF oder in der realen Umgebung ausfällt. Eine Studie mit Cochlea-implantierten Patienten, die kontralateral ein Hörgerät oder ein zweites Implantat nutzen, weist deren Fähigkeit zur Lokalisation nach. Für einen bilateral implantierten Patienten konnten erstmals interaurale Pegeldifferenzen als dominierende Lokalisationsinformation identifiziert werden.
1. Berichter: Apl. Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Univ.-Prof. Dr.-Ing. G. Färber
Tag der mündlichen Prüfung: 21.05.2003
[D-F6]
Josef Chalupper. Perzeptive Folgen von Innenohrschwerhörigkeit: Modellierung, Simulation und Rehabilitation.
Dissertation, Technische Universität München, 2002.
Erschienen im Shaker Verlag Aachen, Reihe "Medizintechnik", ISBN 3-8322-0767-8.
Ausgehend von psychoakustischen Messungen an Normal- und Innenohrschwerhörigen wird das dynamische Lautheitsmodell nach Zwicker auf Schwerhörige erweitert, indem lediglich die Lautheitsfunktion an einen individuellen Hörverlust angepaßt wird. Darauf aufbauend werden Modelle zur Berechnung von zeitlichen und spektralen Mithörschwellen, der Lautstärkeschwankung und der Sprachverständlichkeit entwickelt, die zahlreiche psychoakustische Meßergebnisse sowohl von Normal- als auch Schwerhörigen nachvollziehen können. Aus den psychoakustischen Modellen werden Signalverarbeitungsalgorithmen abgeleitet, die einen individuellen Hörverlust auralisieren bzw. eine vorhandene Hörschädigung weitgehend rehabilitieren können.
1. Berichter: Prof. Dr.-Ing. H. Fastl
2. Berichter: Prof. Dr.-Ing. H. Marko
Tag der mündlichen Prüfung: 29.04.2002
[D-F5]
Ingeborg Stemplinger. Beurteilung, Messung und Prognose der Globalen Lautheit von Geräuschimmissionen.
Dissertation, Technische Universität München, 1999.
Erschienen im Herbert Utz Verlag München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-680-X.
Die Analyse der subjektiv empfundenen Globalen Lautheit von Geräuschimmissionen als Maß für die Lärmbelastung und deren meßtechnische Nachbildung bilden die zentrale Fragestellung dieser Arbeit. Die durch die psychoakustischen Experimente gewonnenen Daten lassen sich durch die Messung der Lautheit nach DIN 45631 und anschließende Perzentilwertberechnung gehörrichtig nachbilden. Ein statistisches Verfahren zur Berechnung des Vertrauensbereiches von Lautheitsperzentilen aus der Lautheits-Zeitfunktion ermöglicht erstmals deren qualitätsgesicherte Messung. Durch ein neu entwickeltes Prognoseverfahren kann die Globale Lautheit in Abhängigkeit der Lärmvorbelastung des Gebietes abgeschätzt werden.
1. Berichter: apl. Prof. Dr.-Ing. H. Fastl
2. Berichter: Univ.-Prof. Dr.-Ing. J. Hagenauer
Tag der mündlichen Prüfung: 08.11.1999
[D-F4]
Helmut Spannheimer. Geräuschminderung im Kraftfahrzeug mit aktiven Resonatoren.
Dissertation, Technische Universität München, 1997.
Erschienen im Verlag Hieronymus Buchreproduktions GmbH, München, Reihe "Akustik", ISBN 3-933083-10-9.
Zur Geräuschminderung in Kraftfahrzeugen wurde ein aktiver Resonator entwickelt, der in einem Frequenzbereich von 50 Hz bis 200 Hz die Eigenschaften eines Helmholtzresonators bei seiner Resonanzfrequenz nachbildet. Das System wurde mit einem digitalen Regler realisiert, der über ein Mikrofon als Sensor einen Lautsprecher ansteuert. Die Möglichkeiten zur Schalldruckreduktion, die optimale Anordnung und die effektivste Auslegung des Resonators wurden mit einer modalen Schalldruckberechnung bestimmt und an einem Modellhohlraum überprüft. Schließlich wurde das System für verschiedene Anwendungsfälle in Fahrzeuge integriert, im Fahrbetrieb erprobt und die Wirksamkeit subjektiv und objektiv beurteilt.
1. Berichter: apl. Prof. Dr.-Ing. H. Fastl
2. Berichter: Univ.-Prof. Dr. rer. nat. H. Kinder
Tag der mündlichen Prüfung: 23.09.1997
[D-F3]
Gerhard Krump. Beschreibung des akustischen Nachtones mit Hilfe von Mithörschwellenmustern.
Dissertation, Technische Universität München, 1993.
Nach Abschalten von rechnergenerierten Linienspektren mit spektraler Lücke bzw. spektraler Überhöhung ist ein leiser, abklingender Nachton (Zwicker-Ton) wahrnehmbar. Der Einfluß des Phasenspektrums auf die Zeitstruktur dieser Anregungsschalle wird mit Hilfe der Gruppenlaufzeit dargelegt. Die Tonhöhe und die Qualität des akustischen Nachtones wird in Abhängigkeit von Breite, Tiefe und Flankensteigung der spektralen Lücke sowie Bandbreite, Pegel und Zeitstruktur der Anregung untersucht. Anhand dieser Meßergebnisse wird ein Funktionsschema entwickelt, mit dem die Tonhöhe des Nachtones mittels rechnersimulierter Mithörschwellen auf 0,3 Bark genau berechnet werden kann.
1. Berichter: apl. Prof. Dr.-Ing. H. Fastl
2. Berichter: Univ.-Prof. em. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 04.02.1993
[D-F2]
Ulrich Widmann. Ein Modell der psychoakustischen Lästigkeit von Schallen und seine Anwendung in der Praxis der Lärmbeurteilung. Dissertation, Technische Universität München, 1992.
Aufbauend auf einer Pilotstudie von Zwicker wird die psychoakustische Lästigkeit von Schallen definiert und deren Abhängigkeit von den Hörempfindungen Lautheit, Schärfe, Schwankungsstärke und Rauhigkeit untersucht. Die Ergebnisse werden in einem Modell zusammengefaßt. Auf der Basis der Spezifischen Lautheit werden Berechnungsmodelle der untersuchten Hörempfindungen entwickelt, die es zusammen mit dem Modell der psychoakustischen Lästigkeit erstmals ermöglichen, die akustische Komponente der Lästigkeit von Lärm meßtechnisch gehörrichtig aus dem Schallsignal abzuleiten. Das Modell hat sich bei der Beurteilung zahlreicher technischer Geräuschquellen gut bewährt.
1. Berichter: apl. Prof. Dr.-Ing. H. Fastl
2. Berichter: Univ.-Prof. Dr.-Ing. H. Marko
Tag der mündlichen Prüfung: 30.07.1992
[D-F1]
Gisbert Gralla. Wahrnehmungskriterien bei Mithörschwellenmessungen und deren Simulation in Rechnermodellen.
Dissertation, Technische Universität München, 1991.
Mithörschwellen-Muster repräsentieren ein Maß für das spektrale und zeitliche Auflösungsvermögen des Gehörs. Durch die experimentelle Bestimmung der bei Mithörschwellenmessungen relevanten Wahrnehmungskriterien konnte eine Anzahl von Phänomenen, die bei der Interpretation von Mithörschwellen eine zentrale Rolle spielen, erklärt werden. Auf der Grundlage dieser Untersuchungen wurden anhand der Spezifischen Lautheit Modellvorstellungen zu den Entstehungsmechanismen von Mithörschwellen entwickelt und als Rechnermodelle implementiert.
1. Berichter: apl. Prof. Dr.-Ing. H. Fastl
2. Berichter: Univ.-Prof. em. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 13.08.1991
Prof. Schuller
[D-Sch11]
Raymond Brückner. Application of Deep Learning Methods in Computational Paralinguistics.
Dissertation, Technische Universität München, 2020.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Univ.-Prof. Dr. rer.nat. Jakob Macke
Tag der mündlichen Prüfung: 30.03.2020
[D-Sch10]
Erik Marchi. Automatic Emotion Recognition in the Voice of Children with Autism Spectrum Conditions.
Dissertation, Technische Universität München, 2019.
Diese Arbeit erweitert den Stand der Technik durch die Untersuchung inwiefern akustische Merkmale relevant sind, wenn Kinder mit Autismus-Spektrum-Störungen (ASC) Emotionen ausdrücken. Experimentelle Ergebnisse werden mithilfe von unterschiedlichen Sprachdaten von Kindern mit und ohne ASC gegenübergestellt. Auf Basis der akustischen Analyse und Relevanz der Merkmale wird ein onlinebasiertes Sprachanalyse Programm entwickelt und in die perzeptuelle Spieleplattform ASC-Inclusion integriert, welche ein wirksames pädagogisches Interventionsinstrument darstellt.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Univ.-Prof. Dr. sc. techn. Samarjit Chakraborty
Tag der mündlichen Prüfung: 09.10.2019
[D-Sch9]
Shahin Amiriparian. Deep Representation Learning Techniques for Audio Signal Processing.
Dissertation, Technische Universität München, 2019.
Diese Arbeit untersucht das Potential tiefer neuronaler Netze für das Lernen von Repräsentationen aus Audiosignalen. Innovative tiefe Lernmodelle basierend auf neuronalen Faltungsnetzwerken und rekurrenten neuronalen Netzen werden vorgestellt. Darüber hinaus werden umfassende Experimente durchgeführt, um die Anwendbarkeit der vorgestellten Technologien für diverse Audioerkennungsaufgaben zu evaluieren. Es wird gezeigt, dass die erarbeiteten Systeme aussagekräftige Repräsentationen lernen.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Univ.-Prof. Dr.-Ing. Sami Haddadin
Tag der mündlichen Prüfung: 20.12.2019
[D-Sch8]
Florian Pokorny. Towards an Automatic Earlier Recognition of Autism Spectrum Disorder, Fragile X Syndrome, and Rett Syndrome through Intelligent Pre-linguistic Vocalisation Analysis.
Dissertation, Technische Universität München, 2019.
Die Autismus-Spektrum-Störung, das Fragile-X-Syndrom, und das Rett-Syndrom zählen zu jenen Entwicklungsstörungen, die aufgrund einer späten klinischen Manifestation meist erst im Kleinkindalter diagnostiziert werden. In dieser Arbeit wurde die Möglichkeit einer automatischen Erkennung dieser Störungen basierend auf akustischen Parametern prälinguistischer Lautäußerungen und Methoden aus dem Bereich des Maschinellen Lernens untersucht. Die erzielten Ergebnisse könnten einen wichtigen Beitrag für eine künftige Früherkennung und Frühintervention leisten.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Univ.-Prof. Dr.-Ing. Werner Hemmert
Tag der mündlichen Prüfung: 01.07.2019
[D-Sch7]
Simone Hantke. Intelligentes, spielorientiertes Crowdsourcing für die Verarbeitung von Audiodaten.
Dissertation, Technische Universität München, 2019.
In dieser Arbeit wird eine intelligente, crowdsourcing-basierte Plattform mit spielorientierten Elementen und innovativen maschinellen Lernalgorithmen für die Datensammlung und Annotation vorgestellt. Es wurden diverse Audiodaten gesammelt und die Plattform in einer Vielzahl von Klassifikations- und Spracherkennungsstudien sowie mittels der Durchführung von Hörversuchen evaluiert. Durch die eingeführten Verfahren kann künftig die Audio-Datenerfassung in erheblichem Maße beschleunigt sowie kostengünstiger und zuverlässiger durchgeführt werden.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Univ.-Prof. Dr.-Ing. Werner Hemmert
Tag der mündlichen Prüfung: 28.05.2019
[D-Sch6]
Kun Qian. Automatic General Audio Signal Classification.
Dissertation, Technische Universität München, 2018.
Die automatische Klassifikation von Audiosignalen konzentriert sich mehr auf die maschinelle Erkennung von Audiosignalen aus dem täglichen Leben als auf Sprach-oder Musiksignale. In dieser Arbeit werden drei typische Aufgaben vorgestellt, nämlich die Klassifikation von Schnarchgeräuschen, die Klassifikation von Vogelgesang und die Klassifikation akustischer Szenen, welche mögliche Anwendungen im Bereich der Gesundheitsvorsorge, der Ökologie und der öffentlichen Sicherheit darstellen.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Univ.-Prof. Dr.-Ing. Werner Hemmert
Tag der mündlichen Prüfung: 28.11.2018
[D-Sch5]
Jun Deng. Feature Transfer Learning for Speech Emotion Recognition.
Dissertation, Technische Universität München, 2016.
Mit der Verfügbarkeit der von verschiedenen Geräten aufgenommenen Sprachdaten, hat die ungleiche Verteilung zwischen den Trainings- und Testdaten eine nachteilige Auswirkung auf die Sprachemotionserkennungssystemen. Um dieses Problem zu beheben, schlägt diese Arbeit eine Reihe von neuen Übertragungslernmethoden vor, die auf Autoencoder basieren. Die experimentellen Ergebnisse zeigen die Vorteile der vorgeschlagenen Algorithmen gegenüber anderen modernen Übertragungslernmethoden.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Univ.-Prof. Dr.-Ing. Werner Hemmert
Tag der mündlichen Prüfung: 02.06.2016
[D-Sch4]
Felix Weninger. Intelligent Single-Channel Methods for Multi-Source audio Analysis.
Dissertation, Technische Universität München, 2015.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-2314-9.
Diese Arbeit untersucht das Potenzial von aktuellen maschinellen Lernmethoden für das anspruchsvolle Problem der Informationsgewinnung aus einkanaligen Audiosignalen, wobei das Nutzsignal durch mehrere Störquellen überlagert ist. Weltweit führende Ergebnisse werden auf dem Problem der Trennung von Sprache und nichtstationärem Hintergrundgeräusch erzielt. Daneben werden auch mehrere Anwendungen aus der polyphonen Musikverarbeitung beispielhaft vorgestellt.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Univ.-Prof. Dr. rer. nat. habil. Hans-Joachim Bungartz
3. Berichter: Univ.-Prof. Dr.-Ing. Eckehard Steinbach
Tag der mündlichen Prüfung: 07.05.2015
[D-Sch3]
Zixing Zhang. Semi-Autonomous Data Enrichment and Optimisation for Intelligent Speech Analysis.
Dissertation, Technische Universität München, 2015.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-2148-0.
Um die Herausforderungen rund um die Menge und Qualität der Daten im Rahmen der intelligenten Sprachanalyse anzugehen, widmet sich die Arbeit der halbautonomen Daten-Bereicherung und Optimierungsansätzen. Insbesondere werden die (nicht-)annotierten Daten genutzt; Split-Vektorquantisierung wird für Spiel Kompression verwendet; und Long Short-Term Memory rekurrente neuronale Netze werden ausgewertet, um Nachhall zu mildern. Mit diesen Ansätzen wird eine bessere Leistung erzielt.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Prof. Gordon Cheng
Tag der mündlichen Prüfung: 16.04.2015
[D-Sch2]
Florian Eyben. Real-time Speech and Music Classification by Large Audio Feature Space Extraction.
Dissertation, Technische Universität München, 2015.
Erschienen im Springer Verlag, ISBN 978-3-319-27298-6.
Die automatische Klassifikation von Sprache und Musik hat mit dem Einzug von Sprachtechnologien in Geräte des Alltagslebens rapide an Bedeutung gewonnen. Diese Dissertation trägt zum Stand-der-Technik bei, durch Definition von Standardsets akustischer Merkmale und Implementierung dieser in einem quelloffenen Framework für Echtzeitanalyse. Diese Sets wurden auf einer Vielzahl von Sprach und Musik Klassifikationsaufgaben evaluiert. Die entwickelten Merkmalsets wurden bereits in zahlreichen Arbeiten anderer Forscher verwendet.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Prof. Dr.-Ing. Werner Hemmert
Tag der mündlichen Prüfung: 20.01.2015
[D-Sch1]
Martin Wöllmer. Context-Sensitive Machine Learning for Intelligent Human Behavior Analysis.
Dissertation, Technische Universität München, 2013.
Intelligente automatische Analyse menschlichen Verhaltens ist eine essenzielle Voraussetzung für Dialogsysteme, die eine natürliche, emotionssensitive Mensch-Maschine-Interaktion ermöglichen sollen. Diese Arbeit beschäftigt sich mit der automatischen Analyse verbalen und nicht-verbalen Verhaltens und stellt neue Architekturen zur Sprachverarbeitung und zum maschinellen Lernen vor, welche die Extraktion des gesprochenen Inhalts sowie des emotionalen Zustands aus dem Sprachsignal ermöglichen.
1. Berichter: PD Dr.-Ing. Björn Schuller
2. Berichter: Prof. Dr. André, Elisabeth
Tag der mündlichen Prüfung: 06.02.2013
Prof. Ruske
[D-R16]
Stefan Schwärzler. Graphische Modelle im natürlichsprachlichen Mensch-Maschine-Dialog.
Dissertation, Technische Universität München, 2010.
In dieser Arbeit werden die Verarbeitungsstufen des natürlichsprachlichen Mensch-Maschine-Dialogs am Beispiel eines automatischen Flugauskunftssystems einheitlich mit Graphischen Modellen (GM) modelliert. Die Erkennung von bedeutungstragenden Wortphrasen aus dem Spracherkenner wird mit einem zweistufigen Modell realisiert, welches stochastische und regelbasierte Verfahren kombiniert. Um aus diesen Wortphrasen Strategien für einen natürlichen Dialogablauf zu entwickeln, wird ein diskretes Hidden-Markov-Modell verwendet. Mit der Berechnung der Dialogstrategie zur Laufzeit kann sich das System schnell auf veränderte Situationen einstellen und bleibt flexibel einsetzbar. Die entwickelten GM werden theoretisch analysiert, Trainingsalgorithmen werden abgeleitet und Experimente für die jeweilige Verarbeitungsstufe durchgeführt. Abschließend wird eine Realisierungsmöglichkeit mithilfe von Agenten und deren Erweiterbarkeit aufgezeigt.
1. Berichter: apl. Prof. Dr.-Ing. habil. G. Ruske
2. Berichter: Univ.-Prof. Dr. rer. nat. habil. A. Brüggemann-Klein
Tag der mündlichen Prüfung: 15.01.2010
[D-R15]
Tobias Moosmayr. Objektivierung von transienten Störgeräuschen im Fahrzeuginnenraum.
Dissertation, Technische Universität München, 2009.
Erschienen in Fortschritt-Berichte VDI, Reihe 12, Nr. 705, VDI Verlag, Düsseldorf, ISBN 978-3-18-370512-2.
Transiente Störgeräusche im Fahrzeug, die durch das Aneinanderreiben und -schlagen von Interieurmaterialien entstehen, vermitteln dem Kunden den Eindruck minderer Qualität. Die vorliegende Arbeit stellt ein objektives Verfahren vor, das diese Geräusche kundennah bewertet und priorisiert. Bisherige Methoden beschränken sich rein auf die Auswertung des Störgeräuschs im Luftschall. Die Bewertung des vorliegenden Verfahrens basiert auf der gemeinsamen Betrachtung von Luftschallsignalen und verschiedenen Fahrzeuganregungen. Der erste Teil fokussiert sich auf die Anregung, welche entweder bei einer Fahrt über raue Straßen oder am Prüfstand ins Fahrzeug eingeleitet wird. Die Anregungssignale des Prüfstands sind Siniussweeps und Rauschsignale. Ihre Wirkung auf Störgeräusche wird näher beleuchtet. Die Luftschallanalyse des zweiten Teils untersucht bei unterschiedlichen Anregungsstufen das Fahrzeuginnengeräusch und dokumentiert, wann welches Störgeräusch detektiert worden ist. Zudem werden alle gleichklingenden Störgeräusche gruppiert und priorisiert. Die Bewertung und Priorisierung erfolgt aus dem Zusammenspiel von Detektion und Anregungsstufe. Störgeräusche, die bereits bei niedriger Anregung auftreten, sind demnach lästiger als solche, die erst bei starker Straßenanregung hörbar sind.
1. Berichter: apl. Prof. Dr.-Ing. habil. G. Ruske, i.R.
2. Berichter: Univ.-Prof. Dr. rer.nat. H. Bubb, i.R.
Tag der mündlichen Prüfung: 29.6.2009
[D-R14]
Ronald Römer. Robuste Spracherkennung auf der Basis recheneffizienter auditiver Modelle.
Dissertation, Technische Universität München, 2009.
In der vorliegenden Arbeit werden grundlegende Eigenschaften des Peripheren Auditiven Systems und auch des Zentralen Auditiven Systems in einem echtzeitfähigen Vereinheitlichten Auditiven Modell mit Geräuschunterdrückung (VAMIG) integriert. Mit diesem Modell können auditive Merkmale unterschiedlicher Ausprägung für automatische Spracherkennungssysteme erzeugt werden. Zur Beurteilung des Verhaltens der einzelnen VAMIG-Ausprägungen werden sowohl die „Robustheit“ der Merkmale als auch die resultierende Erkenngenauigkeit dieser Merkmale bei verschiedenen Störgeräuschen und unterschiedlichen Störintensitäten unter Verwendung der Aurora-2 Datenbasis untersucht und miteinander verglichen.
1. Berichter: apl. Prof. Dr.-Ing. habil. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. habil. R. Hoffmann, Technische Universität Dresden
Tag der mündlichen Prüfung: 10.03.2009
[D-R13]
Ulrich Türk. Compensation Techniques for Network Mismatch in Telephone-Based Speaker Verification.
Dissertation, Technische Universität München, 2008.
Wie in den meisten sprachverarbeitenden Erkennungssystemen wirken sich auch in der automatischen Sprecher-Verifikation Schwankungen der akustischen Eigenschaften negativ auf die Erkennungsleistung aus. In dieser Arbeit wird ein Adaptierungsverfahren auf der Basis des MLLR-Algorithmus entwickelt, das HMM-Sprecher-Modelle, die mit Sprachdaten von Festnetz-Telefonen trainiert wurden, für den Einsatz mit Daten aus dem GSM-Netz adaptiert. Die Adaption eines Sprechermodells erfolgt wahlweise mit einem Parametersatz oder mit mehreren Parameter-Sätzen, die auf phonetisch oder akustisch bestimmte Gruppen von Gauß-Mixturen des Modells angewendet werden. Mehrere Varianten der Adaptierung werden untersucht und mit der Sprachdatenbank VeriDat evaluiert. Bei Verwendung von sprecher-spezifischen Parameter-Sätzen kann im Vergleich zu einem Standard-Trainingsverfahren eine größere Verbesserung der Verifikationsleistung erzielt werden.
1. Berichter: apl. Prof. Dr.-Ing. habil. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. G. Färber
Tag der mündlichen Prüfung: 22.02.2008
[D-R12]
Tibor Fabian. Confidence Measurement Techniques in Automatic Speech Recognition and Dialog Management.
Dissertation, Technische Universität München, 2008.
Erschienen im: Der Andere Verlag, Tönning, Lübeck und Marburg, ISBN 978-3-89959-755-4. (PDF, 1740 kB)
Zuverlässige Konfidenzmaße dienen als Entscheidungsgrundlage und sind gleichzeitig die Voraussetzung für ergonomisches Dialogmanagement in sprachbasierter Mensch-Maschine-Kommunikation. Diese Arbeit beschreibt den aktuellen Stand der Technik im Bereich der Konfidenzmaße zusammen mit deren möglichen Einsatzgebieten. Die vorgestellten Methoden sind anhand verschiedener Gesichtspunkte kategorisiert. Der Hauptbeitrag der Dissertation liegt in der Beschreibung diverser Anwendungstechniken der Konfidenzmaße für die Verbesserung der Qualität von Spracherkennungssystemen. Vorgestellt wird ein neuartiger dynamischer Pruning-Ansatz, der wechselnde Eigenschaften des Suchraums berücksichtigt, um zeitliche Veränderungen im Viterbi-Suchalgorithmus abzubilden. Die Arbeit behandelt auch mögliche Konzepte der Dialogsteuerung mit dem Ziel, Ergonomie und Benutzerakzeptanz sprachbasierter Applikationen zu erhöhen.
1. Berichter: apl. Prof. Dr.-Ing., Dr.-Ing. habil. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. habil. R. Hoffmann (Technische Universität Dresden)
Tag der mündlichen Prüfung: 30.05.2008
[D-R11]
Sergey Astrov. Optimization of algorithms for large vocabulary isolated word recognition in embedded devices.
Dissertation, Technische Universität München, 2007.
In dieser Arbeit werden verschiedene Ansätze zur Reduktion des Speicherbedarfs und Rechenaufwands automatischer Spracherkennungssysteme für mobile Geräte untersucht. Für eine Reduktion des Speicherbedarfs und der Emissionswahrscheinlichkeitsberechnungen werden Stream-basierte HMMs ausführlich diskutiert und ein zusammengefasstes Codebook Verfahren präsentiert. Im Rahmen einer Beschleunigung der Viterbi Suche wird ein neuartiger Verbund von Baumstruktur und Wortstamm-basierter Suche vorgestellt. Der Nachweis der Wirksamkeit des Verfahrens erfolgt anhand umfangreicher und konsistenter Experimente mit unmittelbarem Bezug zu realen Anwendungen.
1. Berichter: apl. Prof. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. H. Ney (RWTH Aachen)
Tag der mündlichen Prüfung: 26.02.2007
[D-R10]
Robert Lieb. Efficient Integration of Hierarchical Knowledge Sources and the Estimation of Semantic Confidences for Automatic Speech Interpretation.
Dissertation, Technische Universität München, 2006.
Diese Arbeit beschreibt ein System zur Interpretation von natürlicher Sprache, das als Teil eines automatischen Dialogsystems applikations-spezifische Informationen aus Benutzeräußerungen extrahiert. Durch die Vereinigung von Spracherkennung und -interpretation gelingt es, die für die Informationsextraktion erforderliche hierarchische Struktur einer Äußerung direkt aus dem Sprachsignal zu gewinnen. Die effiziente Realisierung des Dekoders beruht auf dem mächtigen Kalkül der gewichteten endlichen Transduktoren (engl. WFST), der voranschreitend mit dem Ablauf des Dekodiervorgangs aus allen involvierten Wissensquellen eine optimale Netzwerkdarstellung des aktiven Suchraums generiert. Neben dem besten Ergebnis erlaubt die integrierte Dekoderarchitektur die Erzeugung von grammatischen Alternativen, auf deren Basis semantische Konfidenzen für die extrahierten Informationen geschätzt werden. Damit wird die Fehlerrobustheit erhöht, ohne dass hierfür eine weitere Wissensquelle erforderlich ist.
1. Berichter: apl. Prof. Dr.-Ing. G. Ruske
2. Berichter: Univ-Prof. Dr.-Ing. G. A. Fink (Universität Dortmund)
Tag der mündlichen Prüfung: 3.11.2006
[D-R9]
Matthias Thomae. Hierarchical Language Modeling for One-Stage Stochastic Interpretation of Natural Speech.
Dissertation, Technische Universität München, 2006.
Die Arbeit beschäftigt sich mit der automatischen Interpretation natürlicher, gesprochener Äußerungen in eng umgrenzten Anwendungsdomänen. Konkret wird das Problem anhand eines Dialogsystems für eine Flughafenauskunft untersucht. Im Gegensatz zu heutigen, zweistufigen Systemen wird hierbei eine enge Kopplung von Spracherkennung und semantischer Verarbeitung vorgenommen, was Interpretationsfehler durch frühe Entscheidungen vermeidet. Der vorgestellte einstufige Dekodierungsansatz basiert auf einer einheitlichen, stochastischen Wissensdarstellung in Form von Hierarchien gewichteter Übergangsnetzwerke, die Phoneme, Wörter, Wortklassen und semantische Konzepte repräsentieren. Teil dieser Darstellung ist ein robustes semantisches Modell, welches durch Kombination datengetriebener und regelbasierter Verfahren geschätzt wird. Die Untersuchung dieses hierarchischen Sprachmodells ist Schwerpunkt der Arbeit. Daneben werden Methoden zur Modellierung unbekannter Wörter und zur Evaluierung semantischer Bäume vorgestellt.
1. Berichter: apl. Prof. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr. phil. nat. H. Seidl, TU München
Tag der mündlichen Prüfung: 27.04.2006
[D-R8]
Robert Faltlhauser. Erzeugung robuster akustisch-phonetischer Modelle für die automatische Spracherkennung durch explizite Gruppenbildungen.
Dissertation, Technische Universität München, 2003.
In dieser Arbeit wird die Anpassung eines automatischen Spracherkennungssystems an unterschiedliche Sprecher und Sprechgeschwindigkeiten mittels expliziter Gruppenbildungen, die einen Kompromiss zwischen Spezialisierung einerseits und robuster Parameterschätzung andererseits ermöglichen, realisiert. Ein Schwerpunkt liegt auf der Gruppierung von HMM-Modellzuständen mittels Entscheidungsbaumverfahren. Für die Modellselektion in der Erkennungsphase werden passende Klassifikationssysteme entwickelt. Darüber hinaus wird mit einem Eigenvoice-Ansatz ein neuartiger Trainingsalgorithmus eingeführt.
1. Berichter: apl. Prof. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. habil. R. Hoffmann (Technische Univ., Dresden)
Tag der mündlichen Prüfung: 08.01.2003
[D-R7]
Josef G. Bauer. Diskriminative Methoden zur automatischen Spracherkennung für Telefon-Anwendungen.
Dissertation, Technische Universität München, 2001.
Im Mittelpunkt der Arbeit steht die Optimierung der Erkennungsgenauigkeit eines Systems zur automatischen Erkennung gesprochener Sprache. Dazu werden diskriminative Methoden zur Schtäzung der Parameter von Hidden-Markov-Modellen verwendet. Im Hinblick auf eine einfache, schnelle und direkte Anwendbarkeit wird das Minimum-Classification-Error-Trainingsverfahren algorithmisch weiterentwickelt. Unter anderem wird eine Methode zur einfachen Bestimmung der Schrittweite für das verwendete Gradientenverfahren vorgestellt. Der Nachweis der Wirksamkeit der Verfahren erfolgt anhand umfangreicher und konsistenter Experimente mit unmittelbarem Bezug zu realen Anwendungen.
1. Berichter: apl. Prof. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. G. Färber
Tag der mündlichen Prüfung: 11.07.2001
[D-R6]
Thilo Pfau. Methoden zur Erhöhung der Robustheit automatischer Spracherkennungssysteme gegenüber Variationen der Sprechgeschwindigkeit.
Dissertation, Technische Universität München, 2000.
In dieser Arbeit werden verschiedene Ansätze zur Erhöhung der Robustheit automatischer Spracherkennungssysteme gegenüber Variationen der Sprechgeschwindigkeit untersucht. Die Basis bilden Hidden Markov Modelle (HMMs). Im Rahmen einer Reduktion von Intramodell-Variationen wird eine Sprechgeschwindigkeitsnormierung durch Interpolation, ein Verfahren zur Sprechernormierung und zwei Methoden zur Modellierung von Aussprachevarianten vorgestellt. Für eine Anpassung des Systems an unterschiedliche Sprechgeschwindigkeiten wird das Maximum Aposteriori Training zur Schätzung von HMM-Parametern ausführlich diskutiert und ein neuartiges merkmals- und regelbasiertes Verfahren zur Bestimmung der Sprechgeschwindigkeit präsentiert.
1. Berichter: apl. Prof. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. G. Hauske
Tag der mündlichen Prüfung: 04.10.2000
[D-R5]
Jochen Junkawitsch. Detektion von Schlüsselwörtern in fließender Sprache.
Dissertation, Technische Universität München, 2000.
Erschienen im Shaker Verlag Aachen, Reihe "Berichte aus der Informatik", 2000, ISBN 3-8265-7787-6.
Der Gegenstand der vorliegenden Arbeit ist die Entwicklung eines neuartigen Verfahrens für Keyword-Spotting, das auf die speziellen Anforderungen der Schlüsselwortdetektion ausgerichtet ist und auf der direkten Optimierung eines Konfidenzmaßes beruht. Es werden vier verschiedene Möglichkeiten zur Definition von Konfidenzmaßen hergeleitet und zwei alternative Suchalgorithmen entwickelt, die eine Optimierung dieser Konfidenzmaße gewährleisten. Ausführliche Experimente bestätigen die Effektivität des vorgestellten Verfahrens, indem die Figure-Of-Merit von 81.5% auf 87.9% gesteigert wird.
1. Berichter: apl. Prof. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. E. Paulus, TU Braunschweig
3. Berichter: Univ.-Prof. Dr.-Ing. W. Entenmann
Tag der mündlichen Prüfung: 07.07.2000
[D-R4]
Franz Wolfertstetter. Verallgemeinerte stochastische Modellierung für die automatische Spracherkennung.
Dissertation, Technische Universität München, 1996.
Erschienen im Shaker Verlag Aachen, Reihe "Informatik", ISBN 3-8265-2312-1.
Die Arbeit behandelt am Beispiel natürlicher Sprache die Probleme und Lösungen bei der stochastischen Modellierung und Klassifikation von Signalen, die stark von Zufallsprozessen bestimmt sind. Der Schwerpunkt liegt in der Nachbildung des Signalverlaufs mit neuartigen stochastischen Markov-Graphen, die als ein sich verzweigendes und wieder rekombinierendes Pfadsystem mit Zuständen variabler Streuung interpretiert werden können. Zum Training der Modellparameter werden das sogenannte "Maximum-Likelihood"- und diskriminative Verfahren gegenübergestellt. Für die Verarbeitung fließender Sprache wird ein System zum Training und zur Erkennung mit beliebig strukturierten stochastischen Modellen entwickelt.
1. Berichter: Priv.-Doz. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. H. Ney (RWTH Aachen)
Tag der mündlichen Prüfung: 20.12.1996
[D-R3]
Wolfgang Reichl. Diskriminative Lernverfahren für die automatische Spracherkennung.
Dissertation, Technische Universität München, 1996.
Erschienen im Shaker Verlag Aachen, Reihe "Informatik", ISBN 3-8265-1554-4.
In dieser Arbeit werden verschiedene Ansätze zur Erhöhung der Erkennungsleistung eines automatischen Spracherkennungssystems durch diskriminative Lernverfahren untersucht und experimentell überprüft. Ihre Verwandtschaft mit Algorithmen für das Lernen neuronaler Netze wird aufgezeigt. Die stochastische Modellierung der sprachlichen Einheiten erfolgt durch Hidden-Markov-Modelle oder mit einem hybriden Ansatz aus neuronalen Netzen und Hidden-Markov-Modellen. Die klassische Maximum-Likelihood-Schätzung für die Modellparameter betrachtet die Modelle unabhängig voneinander, während die diskriminativen Lernverfahren die Modelle gezielt auf ihre Unterscheidbarkeit optimieren.
1. Berichter: Priv.-Doz. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. E. Paulus (Technische Universität Braunschweig)
Tag der mündlichen Prüfung: 19.06.1996
[D-R2]
Bernd Plannerer. Erkennung fließender Sprache mit integrierten Suchmethoden.
Dissertation, Technische Universität München, 1995.
Die Arbeit beschreibt ein System zur sprecherunabhängigen Erkennung fließend gesprochener Sprache bei großen Wortschätzen. Hierzu wurde ein integriertes Suchverfahren mit einer besonders flexiblen Systemarchitektur entwickelt. Experimentelle Untersuchungen zur Robustheit der verwendeten Hidden-Markov-Modelle sowie des Gesamtsystems weisen die Funktionsfähigkeit nach. Ein Verfahren zur Integration weiterer akustischer Wissensquellen wird vorgestellt.
1. Berichter: Priv.-Doz. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. W. Heß (Universität Bonn)
Tag der mündlichen Prüfung: 15.09.1995
[D-R1]
Manfred Beham. Merkmalsextraktion und Regelgewinnung für die automatische Spracherkennung.
Dissertation, Technische Universität München, 1995.
In dieser Arbeit wird ein regelbasiertes Spracherkennungssystem entwickelt, das für die akustisch-phonetische Analyse Methoden zur automatischen Wissensgewinnung einsetzt. Es werden spezielle Merkmale definiert und ein unscharfes Regelwerk ("Fuzzy-Logik") aufgestellt, das stufenweise komplexere Ereignisse modelliert, bis zuletzt alle deutschen Sprachlaute und damit ganze Wörter oder Sätze erkannt werden. Den Schwerpunkt bilden neue Lernverfahren, die die nötigen Regeln zur Verknüpfung der Merkmale automatisch generieren. Die Regeln werten einerseits statische spektrale Merkmale aus, während die zeitliche Modellierung mit einem modifizierten Viterbi-Algorithmus erfolgt, der der stochastischen Modellierung entstammt.
1. Berichter: Priv.-Doz. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
Tag der mündlichen Prüfung: 13.03.1995
Prof. Lang
[D-L23]
Björn Schuller. Automatische Emotionserkennung aus sprachlicher und manueller Interaktion.
Dissertation, Technische Universität München, 2006.
Integration emotionaler Aspekte ist Basis natürlicher und zukunftsweisender Mensch-Maschine-Kommunikation. Vor diesem Hintergrund werden innovative Verfahren zur robusten maschinellen Erkennung menschlicher Gefühle aus Sprache und Daten der manuellen Interaktion beschrieben. Auf Signalebene werden evolutionäre Generierung und Selektion neuartiger Merkmale vorgestellt. Hinsichtlich optimaler Leistung erfolgen extensive Vergleiche dynamischer Modellierung und mittels deskriptiver Statistik gebildeter Funktionale sowie diverser Klassifikations- und Ensembletechniken. Die inhaltliche Interpretation emotionaler Äußerungen stützt die Erkennung und ermöglicht sie auch aus geschriebenem Text. Ein Exkurs in die Spracherkennung und String-Matching behandelt die Texterfassung. Abschließend wird eine synergetische multimodale Fusion aller Information geleistet. Drei Szenarien – robuste Sprachverarbeitung, Musiksuche und Interaktion im Fahrzeug – demonstrieren praxistauglichen Einsatz und Transfer.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang, i.R.
2. Berichter: Univ.-Prof. Dr.-Ing. J. Hagenauer
Tag der mündlichen Prüfung: 07.06.2006
[D-L22]
Frank Althoff. Ein generischer Ansatz zur Integration multimodaler Benutzereingaben.
Dissertation, Technische Universität München, 2004.
Basierend auf den Ergebnissen einer umfangreichen Usability-Untersuchung wird in der vorliegenden Arbeit ein generisches Konzept für die Verarbeitung multimodaler Benutzereingaben vorgestellt. Die zugrundeliegende Systemarchitektur operiert auf einer abstrakten Modellierung semantisch-dekodierter Benutzereingaben und ist unabhängig sowohl von der Art und der Anzahl der Eingabegeräte als auch von der Anwendungsdomäne universell verwendbar. Es wird ein innovativer, hybrider Integrationsalgorithmus diskutiert, der an das Prinzip der natürlichen Evolution angelehnt ist. Mehrere Lösungshypothesen konkurrieren miteinander im Hinblick auf eine optimale Interpretation der Benutzerinteraktionen. Das Maß für die Sicherheit einer spezifischen Integrationshypothese wird aus einer statistisch gewichteten Bewertung ermittelt, in der die semantische Repräsentation der aktuellen Benutzereingabe, die zeitlichen Beziehungen zwischen den Symbolsequenzen, die Zustände der einzelnen Systemmodule, empirische Benutzerdaten und vorherige Integrationsergebnisse eingehen. Spezielle genetische Operatoren verbinden die Eigenschaften von guten Problemlösungen und erzeugen in einem iterativen Prozess neue Integrationsergebnisse. In Kombination mit einer regelbasierten Vorverarbeitung für die zeitliche Segmentierung zusammengehöriger Informationsanteile ermöglicht dieses Konzept einen flexiblen, intuitiven und fehlerrobusten Mensch-Maschine-Dialog. Die Leistungsfähigkeit des Systems wird anhand von verschiedenen Demonstratoren unter Beweis gestellt.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang, i.R.
2. Berichter: Univ.-Prof. G. J. Klinker Ph. D.
3. Berichter: Univ.-Prof. Dr.-Ing. E. Steinbach
Tag der mündlichen Prüfung: 06.10.2004
[D-L21]
Michael Geiger. Berührungslose Bedienung von Infotainment-Systemen im Fahrzeug.
Dissertation, Technische Universität München, 2003.
Die vorliegende Arbeit beschreibt die Realisierung eines Gesamtkonzepts zur berührungslosen Bedienung eines Infotainment-Systems im Kraftfahrzeug. Von zentralem Interesse ist dabei die visuelle Interaktion mittels dynamischer Hand- und Kopfgesten. Durch die ergonomische Auslastung der menschlichen Kapazitäten soll dem Fahrer eine möglichst natürliche und intuitive Interaktion bereitgestellt werden. Aufbauend auf sehr positiven Befunden grundlegender Benutzerstudien wird eine gestenoptimierte Bedienumgebung entwickelt. Diese erweist sich aufgrund entwicklungsbegleitender Gebrauchstauglichkeitstests (usability tests) als weitgehend intuitiv bedienbar sowie wenig ablenkend und findet zudem breite Akzeptanz. Darüber hinaus wird eine neue Technologie eingeführt, die eine robuste, fahrzeugtaugliche (automotive) Erkennung von Hand- und Kopfgesten ermöglicht. Sie basiert auf der Merkmalgewinnung mittels Infrarot-Distanz-Sensor-Arrays und erbringt hohe Erkennungsraten unter Echtzeitbedingungen(realtime conditions) bei äußerst geringem Bedarf an Rechenleistung.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang, i.R.
2. Berichter: Univ.-Prof. Dr.-Ing. K. Diepold
Tag der mündlichen Prüfung: 27.10.2003
[D-L20]
Marc Hofmann. Intentionsbasierte maschinelle Interpretation von Benutzeraktionen.
Dissertation, Technische Universität München, 2003.
Hauptgegenstand der vorliegenden Arbeit ist ein Verfahren zur Interpretation von Benutzeraktionen, ausgehend von allen potenziellen Intentionen des Benutzers. Für die Klassifikation des Benutzerziels wird dabei nicht die ursprüngliche Aktion rekonstruiert, sondern die Merkmale einer beobachteten Eingabe direkt mit allen Intentionshypothesen in Bezug gesetzt und anhand von Kontextwissen plausibilisiert. Dies ermöglicht eine robuste Klassifikation, selbst auf Basis unvollständiger und verrauschter Beobachtungsfolgen. Das für das Verstehen von Benutzeraktionen vorausgesetzte Kontextwissen wird in Intentionsmodellen codiert, die charakteristische syntaktisch-semantische Beziehungen zwischen den Merkmalen einer Aktion und den Intentionshypothesen statistisch beschreiben. Die Intentionsmodelle werden anhand von Bayes?schen Netzen realisiert und dienen als Klassifikator des intentionsbasierten Ansatzes. Neben der Entwicklung der theoretischen Grundlagen wird der intentionsbasierte Ansatz auf eine Reihe klassischer Aufgabenstellungen des Forschungsgebietes der Mensch-Maschine-Kommunikation angewendet. Dabei entstehen innovative Beiträge zu den Themen Sprachverstehen, Planerkennung, Benutzermodellierung und Gestikerkennung.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang, i. R.
2. Berichter: Univ.-Prof. Dr.-Ing. J. Eberspächer
Tag der mündlichen Prüfung: 16.10.2003
[D-L19]
Jörg Hunsinger. Multimodale Erfassung mathematischer Formeln durch einstufig-probabilistische semantische Decodierung.
Dissertation, Technische Universität München, 2003.
Hauptgegenstand dieser Arbeit ist ein neuartiges Verfahren zur automatischen maschinellen Erfassung mathematischer Formeln mittels natürlicher Handschrift, Sprache und Stiftgestik. Die Besonderheit des verfolgten Ansatzes liegt in der Integration aller notwendigen Systemkomponenten in einem erwartungsgetriebenen, einstufig-probabilistischen Decodierungsverfahren, das Handschrift- und Spracheingaben in eine semantische Darstellung mathematischer Formeln transformiert. Eine Neuerung auf dem Teilgebiet der Online-Erkennung handgeschriebener Formeln liegt in der statistischen Beschreibung der zweidimensionalen Symbolanordnung einschließlich der Schriftgradvariation im Rahmen einer kontextfreien Grammatik. Die Formelstrukturanalyse fügt sich dadurch nahtlos in das Gesamtverfahren ein, wodurch unter anderem die Segmentierung auf Symbolebene erheblich vereinfacht wird. Ein weiteres Systemmerkmal ist die maschinelle Übersetzung handgeschriebener und typographischer in gesprochene Formeln.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr. rer. nat. J. Schlichter
3. Berichter: Univ.-Prof. Dr.-Ing. E. Steinbach
Tag der mündlichen Prüfung: 10.03.2003
[D-L18]
Bernhard Niedermaier. Entwicklung und Bewertung eines Rapid-Prototyping Ansatzes zur multimodalen Mensch-Maschine-Interaktion im Kraftfahrzeug.
Dissertation, Technische Universität München, 2003.
Basierend auf einer Analyse der Anforderungen liefert die vorliegende Arbeit einen Beitrag zur Entwicklung des theoretischen Fundaments für Werkzeuge zur prototypischen Realisierung multimodaler Bedienkonzepte. Als Grundlage dienen dabei eine kontextfreie und damit allgemein anwendbare Modellierung der Modalitäten sowie eine an die Problemstellung angepasste formale Repräsentation des Bediendialogs. Darauf aufbauend werden Maßnahmen beschrieben, mit denen bereits im Spezifikationsprozess die Benutzbarkeit während der Fahrt sichergestellt werden kann. Daneben wird eine universell einsetzbare Heuristik zur Ausführung des Dialogs entwickelt. Auf Grundlage des dabei entstandenen Werkzeugs wird ein Nutzertest durchgeführt. Dieser zeigt, dass die vorgeschlagenen Konzepte gut geeignet und für Entwickler sehr verständlich sind.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr.-Ing. Dr.-Ing. E.h. G. Schmidt
Tag der mündlichen Prüfung: 24.02.2003
[D-L17]
Stephan Demmerer. Simulation von Schallfeldern am Kraftfahrzeug.
Dissertation, Technische Universität München, 2002.
In der Arbeit wurde ein experimentell-rechnerisches Verfahren zur Simulation von Schallfeldern entwickelt. Dabei wurden zunächst grundlegende theoretische Überlegungen dargelegt und anhand eines Prinzipversuchs überprüft. Daraus wurde eine neue Methode zur Lokalisierung von Schallquellen entwickelt, das räumliche Auflösungsvermögen bestimmt und mit theoretischen Überlegungen verglichen. Mit diesen Grundlagen wurde ein Verfahren zur Simulation des Fahrzeugaußengeräusches entworfen, mit dem man den Beitrag jeder Teilschallquelle zum Gesamtgeräusch ermitteln kann. Weiterhin wurde ein Innengeräuschverfahren zur Analyse der Art und des Ortes des Schalleintritts in die Fahrgastzelle entwickelt.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr. rer. nat. H. Kinder
Tag der mündlichen Prüfung: 24.04.2002
[D-L16]
Lars Witta. Entwurf und Realisierung interaktiver modaler Berechnungs- und Optimierverfahren für gekoppelte Struktur-Fluid-Systeme.
Dissertation, Technische Universität München, 2001.
Erschienen im Hieronymus Verlag München, Reihe "Strukturdynamik", ISBN 3-89791-232-5.
Mit Hilfe einer neuartigen Kopplungsbedingung wird die Bewegungsgleichung eines mit schallabsorbierendem Material ausgekleideten Struktur-Hohlraum-Systems aufgestellt und modal gelöst. Das modale Lösungsverfahren wird zum sogenannten "modalen Korrekturverfahren" erweitert, mit dem es gelingt, den Rechenzeitbedarf für die Berechnung von Modellvarianten und die automatische Optimierung solcher Systeme drastisch zu senken. Die durch die modalen Verfahren bedingten Näherungsfehler werden untersucht, und quantitativ erfaßt. Es wird die Realisierung eines interaktiven Programmsystems beschrieben, welches die Vorteile, die sich durch den Einsatz der entwickelten Methoden ergeben, demonstriert.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr. techn. J. Swoboda
Tag der mündlichen Prüfung: 26.07.2001
[D-L15]
Dietmar Mass. Schnelle rechnerische Komfortoptimierung von Kraftfahrzeugen mittels modaler Korrektur.
Dissertation, Technische Universität München, 2001.
Ausgehend von einer Energieschreibweise der Bewegungsgleichungen eines gekoppelten Struktur-Hohlraum-Systems wird ein Verfahren entwickelt, das auf der Basis modaler Korrekturen eine Berechnung von Modifikationen in gegenüber konventioneller Finite-Elemente-Rechnung drastisch reduzierter Zeit ermöglicht. Es erlaubt auch das Einbinden experimenteller Methoden, um die Modellierunsgüte des Rechenmodells zu verbessern. In grundlegenden und praxisbezogenen Beispielen wird die Leistungsfähigkeit des Verfahrens demonstriert und seine Anwendungsmöglichkeiten zur Berechnung komfortrelevanter Fahrzeugeigenschaften, wie Schwingungsverhalten und Innenraumakustik, dargestellt.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr.-Ing. K. Antreich
Tag der mündlichen Prüfung: 26.07.2001
[D-L14]
Robert Neuss. Usability Engineering als Ansatz zum multimodalen Mensch-Maschine Dialog.
Dissertation, Technische Universität München, 2001.
Multimodale Mensch-Maschine-Kommunikation soll die Benutzung von Software durch freie Verwendung von Kommunikationskanälen wie Sprache, Gestik etc. erleichtern. Diese Arbeit untersucht zuerst Einzelmodalitäten, um die Eigenschaften eines multimodalen Systems postulieren zu können. Gemäß des Usability Engineerings wird dann ein Prototyp aufgebaut, um Benutzertests durchzuführen. Die Entwicklung dieses Systems, welches in einen Fahrsimulator integriert ist und die Bedienung von Komponenten wie Radio, Navigationssystem und Telefon ermöglicht, erfolgt zyklisch durch Tests und Verbesserungen. Die Resultate sind ein benutzeradäquates Design sowie Praxiserfahrungen mit den neuen Techniken.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr.-Ing. G. Färber
Tag der mündlichen Prüfung: 13.06.2001
[D-L13]
Peter Morguet. Stochastische Modellierung von Bildsequenzen zur Segmentierung und Erkennung dynamischer Gesten.
Dissertation, Technische Universität München, 2000.
In der Arbeit wird die Entwicklung eines bildverarbeitungsgestützten Systems für den mit Handgesten gesteuerten Mensch-Maschine-Dialog vorgestellt. Mit zwei alternativen Ansätzen, die auf der stochastischen Modellierung mit teilweise erweiterten Hidden-Markov-Modellen beruhen, werden gestische Bewegungen im kontinuierlichen Videostrom zeitlich segmentiert und klassifiziert. Zur Anpassung der räumlich-zeitlichen Bildsequenzen an die serielle Verarbeitung werden mehrere Merkmalsextraktionsverfahren entwickelt und vergleichend untersucht. Als Beispielanwendung wird die Implementierung eines echtzeitfähigen dreidimensionalen Szenen-Editors beschrieben. Über das Konzept der indirekten Manipulation sind hierin auch komplexe Aktionen über Gesten intuitiv steuerbar.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr.-Ing. J. Hagenauer
Tag der mündlichen Prüfung: 06.12.2000
[D-L12]
Angela Engels. Aufmerksamkeitsbasierte Lokalisierung und Bewertung relevanter Information auf Papierdokumenten.
Dissertation, Technische Universität München, 2000.
Die Arbeit beschreibt in einem Sender-Empfänger-Modell eine neue, aufmerksamkeitsbasierte Sichtweise auf Dokumente: der Autor markiert relevante Informationen auf dem Dokument durch auffällige gestalterische Merkmale, die die Aufmerksamkeit eines Lesers auf den ersten Blick anziehen und ihm so eine effiziente Informationsextraktion ermöglichen. Die Arbeit setzt diesen Mechanismus in ein technisches Verfahren um, das ausschließlich auf dem Bild eines eingescannten Papierdokuments relevante Information findet und die Relevanz der einzelnen Informationen relativ zueinander beurteilt. Wichtige Schritte bei der Umsetzung sind die Formalisierung einer psychologischen Theorie zur Texturwahrnehmung und eine Befragung zur Wahrnehmung von gestalterischen Merkmalen.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr. rer. nat. A. Dengel, DFKI Kaiserslautern
Tag der mündlichen Prüfung: 02.08.2000
[D-L11]
Christian Krapichler. Eine neue Mensch-Maschine-Schnittstelle für die Analyse medizinischer 3D-Bilddaten in einer virtuellen Umgebung.
Dissertation, Technische Universität München, 1999.
Erschienen im Herbert Utz Verlag München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-587-0.
Durch die Entwicklung neuer Verfahren der 3D-Visualisierung und der intuitiven räumlichen Interaktion entstand ein VR-System, mit dem alle Arbeitsschritte der digitalen medizinischen Bildanalyse durchgeführt werden können. Die neuen Interaktionsmethoden umfassen die Analyse von Handgestik, Sprachverstehen und den Einsatz von VR-Eingabegeräten ebenso wie innovative virtuelle Werkzeuge. Im Vergleich zur heute üblichen Darbietung unzähliger Schichtaufnahmen erleichtert der Einsatz des entwickelten VR-Systems das Erfassen und analysieren räumlicher Zusammenhänge und die weitere Verarbeitung der tomographischen Bilddaten. Durch die an die menschlichen Sinne und Fähigkeiten angepaßten Darstellungs- und Interaktionsformen ist es dem Mediziner möglich, den gesamten Arbeitsablauf in einer Zeitspanne zu bewältigen, die den Einsatz im klinischen Alltag erlaubt.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Priv.-Doz. Dr. sc. hum., Dr. rer. biol. hum. habil. K.-H. Englmeier (GSF, Neuherberg)
Tag der mündlichen Prüfung: 29.6.1999
[D-L10]
Udo Bub. Anwendungsspezifische Online-Anpassung von Hidden-Markov-Modellen in automatischen Spracherkennungssytemen.
Dissertation, Technische Universität München, 1999.
Die Arbeit befaßt sich mit den Problemen, die in der automatischen Spracherkennung entstehen, wenn zwischen dem Trainings- und Testdatensatz eine Fehlanpassung vorliegt. Insbesondere Ungleichheiten bei den akustisch-phonetischen Lautkontexten führen zu einer verschlechterten Erkennung. Diesem Trend wird durch neuartige Lernalgorithmen entgegengewirkt, die während der Anwendungsphase online ablauffähig sind. Bei unüberwachtem Lernen kann bei 6000 Adaptionswörtern die Fehlerrate um 56 % gesenkt werden, bei überwachtem Lernen um 67 %. Dies entspricht der Erkennung eines Modells, das im Falle des Vorliegens geeigneter Sprachdatenbanken hätte trainiert werden können.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Prof. Dr. techn. H. Schwärzel
3. Berichter: Univ.-Prof. Dr.-Ing. E. Paulus (TU Braunschweig)
[D-L9]
Joachim Köhler. Erstellung einer statistisch modellierten multilingualen Lautbibliothek.
Dissertation, Technische Universität München, 1999.
Erschienen im Shaker Verlag Aachen, Reihe "Berichte aus der Informatik", ISBN 3-8265-7154-1.
Die vorliegende Arbeit beschreibt die Entwicklung einer multilingualen Lautbibliothek für die statistische Spracherkennung. Dazu werden die akustisch-phonetischen Ähnlichkeiten zwischen verschiedenen Sprachen ausgenutzt. Basierend auf der HMM-Technologie werden Verfahren entwickelt, mit denen die sprachspezifischen Modelle in multilinguale Lautmodelle überführt werden. Dadurch läßt sich eine drastische Einsparung von Modellparametern erreichen, ohne daß ein signifikanter Abfall der Worterkennungsrate auftritt. Im zweiten Teil der Arbeit werden dann Methoden zur Portierung der multilingualen Sprachlaute in neue Sprachen entwickelt und beschrieben.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr.-Ing. W. Hess (Universität Bonn)
Eingereicht am: 22.6.1999
[D-L8]
Henning Lenz. Entwicklung nichtlinearer, diskreter Regler zum Abbau von Verkehrsflußinhomogenitäten mithilfe makroskopischer Verkehrsflußmodelle.
Dissertation, Technische Universität München, 1999.
Erschienen im Shaker Verlag Aachen, Reihe "Berichte aus der Steuerungs- und Regelungstechnik", ISBN 3-8265-4997-X.
Ein Schema für die Entwicklung nichtlinearer Regler wurde vorgestellt, mit dem Ziel, Inhomogenitäten im Straßenverkehr abzubauen. Die Anforderungen an einen derartigen Regler wurden modellunabhängig formuliert. Eine Datenanalyse zeigte, daß Geschwindigkeitsbegrenzungen so geschaltet werden können, daß sie diese Anforderungen erfüllen. Für einen effizienten Abbau von Stop-&-Go-Wellen bietet sich eine im Ort vorausschauende Strategie an. Weitere Anwendungen in der Verkehhrstechnik wurden dargestellt.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Hon.-Prof. Dr. rer. nat. habil B. Schürmann (Universität Frankfurt)
Tag der mündlichen Prüfung: 04.02.1999
[D-L7]
Christoph Wagner. Verkehrsflußmodelle unter Berücksichtigung eines internen Freiheitsgrades.
Dissertation, Technische Universität München, 1997.
Ausgehend von einer kinetischen Verkehrsgleichung auf einem durch die Wunschgeschwindigkeit der Fahrer erweiterten Ort-Geschwindigkeit-Phasenraum wird durch Momentenbildung ein verbessertes makroskopisches Verkehrsflußmodell abgeleitet. Das Modell zeigt ein realistisches dynamisches Verhalten über den gesamten Dichtebereich und liefert neben der genauen Form und der funktionalen Abhängigkeit von bisher nur heuristisch eingeführten Termen der Modellgleichungen auch die dazugehörigen Transportkoeffizienten. Weiterhin erlaubt der zusätzlich eingeführte Freiheitsgrad und die davon abgeleiteten Größen nun eine direkte Modellierung von Regeleingriffen.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr. rer. nat. B. Schürmann (Universität Frankfurt)
3. Berichter: Priv.-Doz. Dr. rer. nat. H. Hofmann (Physik-Department Garching)
Tag der mündlichen Prüfung: 26.11.1997
[D-L6]
Robert Zwickenpflug. Entwurf und Realisierung eines Systems zur Erstellung von verteilten Anwendungen für kontinuierliche Medien.
Dissertation, Technische Universität München, 1997.
Erschienen im Herbert Utz Verlag München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-271-5.
Zur Erstellung von modularen verteilten Anwendungen für kontinuierliche Medien wird ein Client-Server-System vorgestellt. Es erlaubt, Dienste in für den Endbenutzer einfach zu handhabender Art und Weise auf einem Rechnernetz zu verteilen und mehreren Benutzern zugänglich zu machen. Dienste können über definierte Anschlüsse miteinander kommunizieren. Jeder Benutzer kann neue Dienste in das Rechnernetz an einer von ihm frei wählbaren Stelle einbringen und diese untereinander und mit bereits vorhandenen Diensten verbinden. Er kann bei diesen Verbindungen auch Dienste mitverwenden, die von einem anderen Benutzer eingebracht worden sind.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr.-Ing. J. Eberspächer
Tag der mündlichen Prüfung: 17.11.1997
[D-L5]
Holger Stahl. Konsistente Integration stochastischer Wissensquellen zur semantischen Decodierung gesprochener Äußerungen.
Dissertation, Technische Universität München, 1997.
Erschienen im Herbert Utz Verlag München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-219-7.
Diese Arbeit beschreibt die Entwicklung eines Systems zum Verstehen natürlicher, fließend gesprochener Sprache. Den Kern des Systems bildet ein semantischer Decoder, der das Sprachsignal einer Äußerung auf den zugehörigen Bedeutungsinhalt abbildet. Dazu wird eine Maximum-a-posteriori-Klassifikation durchgeführt, d.h. auf der Basis stochastischen Wissens wird der wahrscheinlichste Bedeutungsinhalt zum gegebenen Sprachsignal ermittelt. Die Einführung der semantischen Gliederung zur Repräsentation des Bedeutungsinhaltes und die konsistente, nahtlose Verknüpfung der stochastischen Wissensquellen ermöglichten eine äußerst effiziente Implementierung des semantischen Decoders mit hoher Treffsicherheit.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr. techn. J. Swoboda
Tag der mündlichen Prüfung: 31.07.1997
[D-L4]
Johannes Müller. Die semantische Gliederung zur Repräsentation des Bedeutungsinhalts innerhalb sprachverstehender Systeme.
Dissertation, Technische Universität München, 1997.
Erschienen im Herbert Utz Verlag, München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-210-3.
Die semantische Gliederung wird als eine neuartige Repräsentation des Bedeutungsinhaltes einer gesprochenen Äußerung aus einer vorgegebenen Domäne innerhalb eines sprachverstehenden Systems vorgestellt. Da sie eine probabilistische Aussage über die ihr zugrundeliegende Wortkette erlaubt, wird die unmittelbare Decodierung einer Sprachsignal-Merkmalsvektorenfolge in eine solche semantische Gliederung durch einen rein stochastischen Algorithmus ermöglicht. Als Beispielapplikation wurde ein "sprachverstehender Grafikeditor" implementiert, mit dem dreidimensionale Objekte auf dem Bildschirm mit natürlichsprachlichen Kommandos erzeugt, verändert oder gelöscht werden können. Durch Übertragung der Algorithmen in einen "sprachverstehenden Serviceroboter" wurde der anschauliche Nachweis der System-Portabilität erbracht. Darüber hinaus ermöglicht die semantische Gliederung als Interlingua-Ebene die automatische Übersetzung von natürlicher, gesprochener oder geschriebener Sprache.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr.-Ing. G. Färber
Tag der mündlichen Prüfung: 27.06.1997
[D-L3]
Hans-Jürgen Winkler. Entwurf und Realisierung eines auf statistischen Ansätzen basierenden Systems zur Erkennung handgeschriebener mathematischer Formeln.
Dissertation, Technische Universität München, 1997.
Erschienen im Herbert Utz Verlag, München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-216-2.
In dieser Arbeit wird ein System zur Erkennung handgeschriebener mathematischer Formeln vorgestellt. Die Problemstellung bestehend aus Symbolsegmentierung, -erkennung und struktureller Analyse wird hierbei mittels eines statistischen Ansatzes beschrieben und unter Verwendung von wissensbasierten und stochastischen Verfahren bearbeitet. Im Gegensatz zu den bisher vorgestellten Analysemethoden können somit Entscheidungsalternativen innerhalb der einzelnen Verarbeitungsstufen toleriert und im weiteren Verlauf durch neu erworbenes Wissen automatisch aufgelöst werden. Die erzielten Erkennungsergebnisse demonstrieren die Leistungsfähigkeit des realisierten Systems.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr. rer. nat. B. Radig
Tag der mündlichen Prüfung: 18.06.1997
[D-L2]
Anton Obermaier. Modellierung des adaptiven Mensch-Maschine-Dialoges und experimentelle Untersuchungen an einem Prototypen.
Dissertation, Technische Universität München, 1996.
Die vorliegende Arbeit zeigt neue Prinzipien zum maschinell unterstützten Dialog zwischen Mensch und Computer. Als Versuchsumgebung wird dazu ein Intelligentes Tutorielles System (ITS) konzipiert und prototypisch realisiert. Tests mit Versuchspersonen demonstrieren, wie durch dynamische Bewertung mit Hilfe von Lernzielen eine permanente Benutzereinschätzung durchgeführt werden kann. Das Dialogverhalten und das Niveau der Tutorsitzung passen sich automatisch an die individuellen Bedürfnisse des Benutzers an.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr.-Ing. K. Antreich
Tag der mündlichen Prüfung: 21.03.1996
[D-L1]
Hermann Klingele. Rekonstruktion des Schallfeldes um ein in Eigenmoden schwingendes Objekt unter Verwendung holographischer Schwingungsmeßtechniken.
Dissertation, Technische Universität München, 1995.
Mittels holographischer Interferometrie werden Schwingungen technischer Objekte berührungslos, flächenhaft und in aller drei Raumrichtungen vermessen. Zusätzlich erfolgt die Erfassung der Oberflächengestalt durch Verfahren der Streifenprojektion. Durch Verknüpfen beider Datensätze wird eine Randelemente-Beschreibung der schwingenden Oberfläche erstellt. Eine neuartige Variante des akustischen Randelementeverfahrens erlaubt die Berechnung des zugehörigen Schalldruckfeldes auch für sehr viel Knotenpunkte des Rechenmodells. Die Leistungsfähigkeit des Verfahrens wird experimentell demonstriert. Abschließend werden Anwendungen vorgestellt.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr. rer. nat. H.E. Gaub
Tag der mündlichen Prüfung: 27.02.1995
Prof. Terhardt
[D-T15]
Claus von Rücker. Ein Verfahren zur Tonhöhenanalyse unter Berücksichtigung zeitlich-spektraler Kontrasteffekte.
Dissertation, Technische Universität München, 1999. Erschienen im Herbert Utz Verlag München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-696-6.
Die Arbeit beschreibt ein Verfahren zur Tonhöhenanalyse nichtstationärer Schallsignale. Es zeichnet sich durch die Berücksichtigung derjenigen wesentlichen Gehöreigenschaften aus, die in psychoakustischen Experimenten zur Tonhöhenwahrnehmung beobachtet werden können. Neben den elementaren Eigenschaften der Frequenzanalyse des Gehörs gehören dazu insbesondere zeitlich-spektrale Kontrasteffekte, die von bisherigen Verfahren nicht erfaßt werden. Das Verfahren ist in der Lage, sowohl die Tonhöhen, als auch den Zeitverlauf ihrer Prominenz bei zeitvarianten Schallen nachzubilden.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. G. Hauske
Tag der mündlichen Prüfung: 22.12.1999
[D-T14]
Miriam Noemí Valenzuela. Untersuchungen und Berechnungsverfahren zur Klangqualität von Klaviertönen.
Dissertation, Technische Universität München, 1998. Erschienen im Herbert Utz Verlag München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-343-6.
In dieser Arbeit wurden Modelle und Verfahren entwickelt, mit denen diejenigen Schallsignalparameter ermittelt werden können, die für den spezifischen Klang eines Klaviertons und dessen Qualität charakteristisch sind. Mit Hörversuchen wurde untersucht, worin die hörbare Unähnlichkeit im Klang verschiedener Klaviertöne besteht. Die erarbeiteten Verfahren für die meßtechnische Erfassung der Unterscheidungskriterien ermöglicht die gezielte Verbesserung sowohl elektronischer als auch akustischer Klaviere. Das entwickelte Modell für die Berechnung der Klangqualität von Klaviertönen könnte als automatische Klangqualitätskontrolle sowohl für Einzeltöne wie auch für Instrumente eingesetzt werden.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Prof. Dr.-Ing. habil. H. Fleischer (Universität der Bundeswehr, Neubiberg)
Tag der mündlichen Prüfung: 20.04.1998
[D-T13]
Markus Mummert. Sprachcodierung durch Konturierung eines gehörangepaßten Spektrogramms und ihre Anwendung zur Datenreduktion.
Dissertation, Technische Universität München, 1997. Erschienen im VDI-Verlag Düsseldorf, Fortschritt-Berichte VDI, Reihe 10 "Informatik/Kommunikationstechnik", Nr. 522, ISBN 3-18-352210-1.(PDF, 5015 kB)
Konturen als Träger der relevanten Information entsprechen bei der Hörwahrnehmung unter anderem den hörbaren Teiltönen. Die Arbeit behandelt Audiorepräsentationen mit Konturen, die als 'Gratlinien' eines gehörangepaßten Spektrogramms definiert sind. Ausgehend von einer bekannten Repräsentation werden zusätzliche Gratlinien und eine neue Signalrekonstruktion eingeführt. Eine Klassifizierung der Linien trennt tonale und geräuschhafte Signalanteile. Damit werden Sprachcodierungen mit Datenraten bis hinab zu 4 kbit/s realisiert.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. J. Hagenauer
Tag der mündlichen Prüfung: 12.12.1997
[D-T12]
Uwe Baumann. Ein Verfahren zur Erkennung und Trennung multipler akustischer Objekte.
Dissertation, Technische Universität München, 1995. Erschienen im Herbert Utz Verlag München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-218-9.
Das gesunde Gehör ist in der Lage, aus einer Mixtur von Geräuschen und Stimmen einzelne Schallquellen herauszuhören. Mit der Arbeit wird ein Beitrag zur Lösung des Problems geleistet, jene Fähigkeit nachzubilden. Dazu wurden psychoakustische und gestaltpsychologische Erkenntnisse über das Hören herangezogen. Das Verfahren wurde mit einfachen Musiksignalen erprobt. Es gelang eine weitgehende Zerlegung dieser Signale in die Einzelstimmen.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. G. Hauske
Tag der mündlichen Prüfung: 27.06.1995
[D-T11]
Stefan Wartini. Zur Rolle der Spektraltonhöhen und ihrer Akzentuierung bei der Wahrnehmung von Sprache.
Dissertation, Technische Universität München, 1995. Erschienen im VDI-Verlag Düsseldorf, Fortschritt-Berichte VDI, Reihe 10 "Informatik/Kommunikationstechnik", Nr. 398, ISBN 3-18-339810-9.
Durch gezielte Synthese von Sprachsignalen bzw. sprachähnlichen Testschallen aus Teiltönen wurde die Rolle der Spektraltonhöhen untersucht. Insbesondere wurde die Akzentuierung von Teiltönen untersucht, welche diese in Abhängigkeit vom vorhergehenden Sprachsignalverlauf erfahren können. Es wird nachgewiesen, daß die Akzentuierung bei der Wahrnehmung von Sprache mit hoher Wahrscheinlichkeit eine erhebliche Rolle spielt.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. em. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 14.06.1995
[D-T10]
Klaus Heldmann. Wahrnehmung, gehörgerechte Analyse und Merkmalsextraktion technischer Schalle.
Dissertation, Technische Universität München, 1994.
Zur Untersuchung der Wahrnehmung technischer Schalle und der verbalen Beschreibung der Hörempfindungen werden zahlreiche psychoakustische Experimente durchgeführt. Die Empfindungsgröße Impulshaftigkeit erweist sich als zweckmäßig zur Beschreibung kurzzeitig auftretender, auch energetisch untergeordneter Schallereignisse. Die gehörgerechte Schallanalyse mit dem Teiltonlinienzeitmuster stellt eine visuelle Entsprechung des auditiv Wahrgenommenen dar. Die Teiltonlinien repräsentieren die vollständige akustische Information beliebiger nicht-synthetischer Schalle. Eine bemerkenswerte Datenreduktion kann erzielt werden. Die Merkmalsextraktion aus dem Teiltonlinienzeitmuster ermöglicht eine erfolgreiche, an der menschlichen Wahrnehmung orientierte Klassifizierung technischer Schalle.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. E. Sackmann
Tag der mündlichen Prüfung: 21.03.1994
[D-T9]
Klaus Pfaffelhuber. Das dynamische Verhalten der Geige an der Anstreichstelle und sein Einfluß auf das Klangsignal.
Dissertation, Technische Universität München, 1993.
Das weitgehend lineare Verhalten einer Geige erlaubt es, Eigenschaften, welche für den Klang wesentlich sind, durch die Admittanz der Saiten an der Anstreichstelle zu beschreiben. Durch Partialbruchzerlegung werden die Impuls- bzw. Sprungantworten in Eigenschwingungen zerlegt. Die so mit einer realistischen Stegeingangsadmittanz berechneten Schwingungsantworten enthalten auch sämtliche Eigenschwingungen der angekoppelten Geige. Mit Hilfe eines Algorithmus zur numerischen Simulation des Anstreichvorgangs werden die Abhängigkeiten zwischen dem Verlauf der Saitensprungantwort und dem Verlauf der gestrichenen Schwingung demonstriert.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. F. Schneider
Tag der mündlichen Prüfung: 03.11.1993
[D-T8]
Dieter Jurzitza. Technische Grundlagen der Messung otoakustischer Emissionen sowie deren Anwendung auf die Untersuchung der nichtlinearen Verzerrungen des Ohres.
Dissertation, Technische Universität München, 1992.
Zur Messung von otoakustischen Emissionen (OAE) wird eine Meßsonde in den Gehörgang eingeführt, die Schallsender und Schallempfänger enthält. Die akustischen Eigenschaften von Meßsonden werden untersucht und beschrieben. Für ihre Anpassung an das Gehör als Quelle der OAE wurde Modelle entwickelt. Messungen von Verzerrungsproduktemissionen wurden durchgeführt. Die Meßergebnisse werden mit Simulationsdaten, mit Daten von einem analogen elektronischen Innenohrmodell sowie mit davon deutlich abweichenden Ergebnissen psychoakustischer Messungen der auralen Differenztöne verglichen. Die gefundenen Unterschiede werden anhand von Eigenschaften des Gehörs erklärt.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. em. Dr.-Ing. R. Saal
Tag der mündlichen Prüfung: 07.02.1993
[D-T7]
Thomas Lechner. Piezoelektrische PVDF-Biegewandler und ihr Einsatz in einer taktilen Hörprothese, bei Schnellemikrofonen und in einem hydromechanischen Cochleamodell.
Dissertation, Technische Universität München, 1991.
Die Arbeit behandelt Aufbau, Eigenschaften und drei Anwendungen von piezoelektrischen Biegewandlern aus PVDF. Reizgeber für eine Hörprothese wurden hinsichtlich Zuverlässigkeit und Energiebedarf verbessert. Für den Einsatz als Schnellemikrofon werden verschiedene Bauformen rechnerisch und experimentell verglichen. An einem hydromechanischen Innenohrmodell wurde mit Hilfe der Wandler eine nicht-lineare Rückkopplung auf der Basilarmembran aufgebaut.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. K. Antreich
Tag der mündlichen Prüfung: 17.12.1991
[D-T6]
Martin Schlang. Methoden zur Störschallunterdrückung bei ortsungebundener Spracheingabe in Räumen.
Dissertation, Technische Universität München, 1991.
Der Verzicht auf Nahbesprechungsmikrofone am Telefon, in Videokonferenzen oder bei der automatischen Spracherkennung führt zu einer Überlagerung von Sprache mit Nachhall und Hintergrundgeräuschen. Diese unerwünschten Signalanteile werden durch einkanalige und mehrkanalige Verfahren kompensiert. Das einkanalige basiert auf einer Filterung in spektralen Teilbändern unter Einbeziehung von Wissensquellen über die spektrale Verteilung von menschlicher Sprache, Nachhall und Störgeräuschen. Das mehrkanalige verwendet ein steuerbare Mikrofonarray, dessen Hauptkeule sich automatisch auf den Sprecher fokussiert.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. em. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 23.07.1991
[D-T5]
Wolfgang Heinbach. Gehörgerechte Repräsentation von Audiosignalen durch das Teiltonzeitmuster.
Dissertation, Technische Universität München, 1988.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 20.01.1988
[D-T4]
Wilhelm Aures. Berechnungsverfahren für den Wohlklang beliebiger Schallsignale, ein Beitrag zur gehörbezogenen Schallanalyse.
Dissertation, Technische Universität München, 1984.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 28.09.1984
[D-T3]
Michael Köhlmann. Rhythmische Segmentierung von Schallsignalen und ihre Anwendung auf die Analyse von Sprache und Musik.
Dissertation, Technische Universität München, 1984.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 10.05.1984
[D-T2]
Kurt Benedini. Psychoakustische Messung der Klangfarben-Ähnlichkeit harmonischer Klänge und Beschreibung der Zusammenhänge zwischen Amplitudenspektrum und Klangfarbe durch ein Modell.
Dissertation, Technische Universität München, 1978.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 19.12.1978
[D-T1]
Hermann Schütte. Bestimmung der subjektiven Ereigniszeitpunkte aufeinanderfolgender Schallimpulse durch psychoakustische Messungen.
Dissertation, Technische Universität München, 1977.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. em. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 21.10.1977