Prof. Rigoll
Martin Knoche. Cross-Resolution Face Verification.
Dissertation, Technische Universität München, 2024.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Gerhard Rigoll
2. Berichter: Sen. Prof. Dr.-Ing. Klaus Diepold
Tag der mündlichen Prüfung: 20.12.2024
Ludwig Kürzinger. Exploring Hybrid CTC/Attention End-to-End Speech Recognition: Adversarial Robustness, Sinc Convolutions and CTC Segmentation.
Dissertation, Technische Universität München, 2024.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Gerhard Rigoll
2. Berichter: Sen. Prof. Dr.-Ing. Hermann Ney, RWTH Aachen
Tag der mündlichen Prüfung: 24.05.2024
Tobias Watzel. Enhancements for Hybrid and End-to-End Speech Recognition Architectures.
Dissertation, Technische Universität München, 2023.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Gerhard Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. Tim Fingscheidt
Tag der mündlichen Prüfung: 26.04.2023
Stefan Hörmann. Robust Face Recognition Under Adverse Conditions.
Dissertation, Technische Universität München, 2023.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Gerhard Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. Eckehard Steinbach
Tag der mündlichen Prüfung: 07.03.2023
Okan Köpüklü. Towards Efficient Human Activity Recognition.
Dissertation, Technische Universität München, 2022.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr. Daniel Rückert
Tag der mündlichen Prüfung: 15.06.2022
Lujun Li. Hybrid and End-to-End Approches for Noise Robust Automatic Speech Recognition.
Dissertation, Technische Universität München, 2022.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. Werner Hemmert
Tag der mündlichen Prüfung: 22.03.2022
Maryam Babaee. Multiple People Tracking and Gait Recognition for Video Surveillance.
Dissertation, Technische Universität München, 2021.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. Horst-Michael Groß (TU Ilmenau)
Tag der mündlichen Prüfung: 06.05.2021
Patrick Lindemann. Mixed-Reality Driver-Car Interaction from Manual to Autonomous Driving.
Dissertation, Technische Universität München, 2020.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Prof. Dr. Klaus Bengler
Tag der mündlichen Prüfung: 25.06.2020
Simon Schenk. Methods for Camera- and Head-up-Display-based Driver-Car Communication.
Dissertation, Technische Universität München, 2019.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-4180-8
In this thesis three different systems for novel driver-car communication are presented. All of these systems use the camera as input and a head-up display as output device. The systems are evaluated at different levels ranging from offline validation to driving simulator experiments. The three systems are a camera-based thumb gesture detection, a gaze-only interaction scheme, and a visual guidance system.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. Erhardt Barth
Tag der mündlichen Prüfung: 25.06.2019
Daniel Merget. Robust Facial Landmark Detection in the Wild.
Dissertation, Technische Universität München, 2019.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-3995-9
Facial landmark detection is a well-studied topic in the field of computer vision that aims to find important key points in human faces. In the wild, the task is particularly challenging due to the high variability of shapes, expressions, poses, lighting conditions, and occlusions. This work presents a state-of-the-art approach to robustly solve the problem of facial landmark detection even under such difficult conditions. A key novelty of the presented approach lies in the fact that it is based on a fullyconvolutional architecture, making it invariant to translation. Translation invariance is particularly useful when a separate face detector is not available, desirable, or reliable (enough). Fully-convolutional architectures, however, suffer from a comparatively narrow receptive field. This shortcoming is mitigated by a novel implicit kernel convolution. Multiple experiments verify that the implicit kernel convolution improves both landmark detection performance and convergence speed in comparison to other state-of-the-art approaches. Moreover, a proof of concept for face detection-free landmark detection based on the novel approach is provided. High resolutions are handled by a pyramid-like multi-resolution fusion approach, whereas low resolutions are handled by a super resolution mechanism. The presented approach therefore constitutes a generalizable way of robustly detecting facial landmarks in the wild.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. Bin Yang
Tag der mündlichen Prüfung: 12.02.2019
Philipp Tiefenbacher. Mobile Mediated Reality.
Dissertation, Technische Universität München, 2017.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-3154-0,
Smart devices have advanced the digital age, because they allow viewing and interacting with virtual content anytime and almost everywhere. The digital content displayed on these devices is explicitly separated from the real world and isolates socially. Since the information is only visible on a single device, it is challenging one world that blends real and digital content and treats them as equal, i.e., real and virual content can be added, edited, and removed from the world.
This thesis targets the challenges of embedding mediated reality on a handheld device: Tracking, diminished reality, and virtual content manipulation. First, a markerless tracking technique is presented that integrates inertial measurement units and allows precisely aligning virtual and real content. Combining the results of the tracking algorithm with the findings in image inpainting, a new algorithm is derived that imperceptibly deducts real-world content in real time. Since mediated reality includes the adaption of new and existing virtual contents, techniques are proposed that permit easy manipulation of virtual objects directly on the handheld. A computer-supported cooperative work confirms the benefits of mediated reality. Here, the blending of virtual objects with the real world demontrates to be superior to digital drawings. This thesis shows that the challenges of a mobile mediated reality can and are worth to be mastered.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. Horst-Michael Groß
Tag der mündlichen Prüfung: 10.04.2017
Kevin Alonso Gonzales. Heterogeneous Data Mining of Earth Observation Archives: Integration and Fusion of Images, Maps and In-situ Data.
Dissertation, Technische Universität München, 2017.
The Earth Observation (EO) community faces a heterogeneous Big Data scenario where the main challenge is not only to provide better and more efficient algorithms, but also to design and implement tools that allow a greater exploitation of the available information. In line with the challenge, this thesis focuses on the integration, mining and exploitation of a wide range of heterogeneous EO data in order to efficiently extract valuable information for a better understanding of EO image content.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Prof. Dr. Mihai Datcu
Tag der mündlichen Prüfung: 31.03.2017
Reza Bahmanyar. Conception and Assessment of Semantic Feature Descriptors for Earth Observation Images.
Dissertation, Technische Universität München, 2016.
The volume of civil high resolution Earth Observation (EO) images has steeply increased during the past decade due to numerous advances in airborne and spaceborne imaging technologies and has already leveraged a number of new applications. On the other hand, the large quantity of available images has extremely increased the challenge of exploring and understanding the full content of the images (i.e., their semantics). Therefore, the development of new image mining systems providing satisfactory results with reasonable computational effort became highly demanded. The existing EO image mining systems are usually based on extracted image features provided by various feature descriptors which can represent either pixel level patterns or the higher level semantics of images. Thus, developing feature descriptors which are able to represent the content of images relevant to the users' requirements helps to improve the accuracy and efficiency of image mining systems. As a consequence, this dissertation introduces new approaches based on Latent Dirichlet Allocation (LDA), a topic model for low and high level image feature descriptions. Moreover, the dissertation proposes novel methods based on LDA and information theory for evaluating various image feature descriptors independent of their application case. Since users usually evaluate image mining results based on their semantics, we conducted user studies for assessing the issues such as the sensory and the semantic gaps which affect the user acceptance of the results. Furthermore, this dissertation shows the importance of prior knowledge about the semantic structure of images in shortening the semantic gap between users and computers. All corresponding experiments are conducted on multispectral and SAR (airborne and space-borne) images; the results are validated by employing standard classification and clustering methods (e.g., SVM and k-means) in order to be comparable to previously obtained results in our discipline. The results demonstrate that by using higher level feature descriptors, the user acceptance of image mining results increases because the images are described by their semantic content. Furthermore, the results show that an evaluation of the feature descriptors regardless of their application allows us to generalize the evaluation outcomes to various applications. In addition, our studies and experiments indicate that the sensory and the semantic gaps should not be overlooked due to their high impact upon the user acceptance of image mining results. Finally, our analyses show that exploring the space of image features leverages an understanding of the image semantics.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Prof. Dr. Daniel Cremers
3. Berichter: Prof. Dr. habil. Mihai Datcu
Tag der mündlichen Prüfung: 25.10.2016
Mohammadreza Babaee. Immersive Interactive Data Mining and MachineLearning Algorithms for Big Data Visualization.
Dissertation, Technische Universität München, 2016.
This thesis addresses several challenges in the area of human-machine communication for applications in data mining and visualization. An Immersive Visual Data Mining (IVDM) system is presented, which allows the interactive display of images in a Cave Automatic Virtual Environment (CAVE). New (interactive) algorithms based on non-negative matrix factorization are presented for dimensionality reduction. Finally, a new active learning algorithm for the annotation of images is presented.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. habil. D. Wollherr
3. Berichter: Prof. Dr. Mihai Datcu
Tag der mündlichen Prüfung: 30.03.2016
Nicolas Lehment. Stochastic Optimisation Methods and Pattern Search Algorithms for Augmented Reality Videoconferencing.
Dissertation, Technische Universität München, 2015.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-2495-5.
This dissertation introduces a novel system for collaborative telepresence based on the mutual integration of two users' surroundings into a consensus reality. Other than in classical videoconferences or immersive telepresence systems, there is no separation between the users' environments. Instead, the users have the impression of standing in their own room and see their conversation partner rendered through a head mounted display, as if they shared the same physical space. The following pages describe the overall system architecture required to achieve this effect and provide an examination of the two core challenges arising from this interaction scenario. In order to integrate two differently shaped rooms into a shared environment, the position of the users and the layout of the floorspace must be aligned carefully. At first, the human pose tracking is considered in detail. This tracking of posture can be understood as a high dimensional optimisation problem in a stochastic framework. The central problem of approximating the observation likelihood of a given pose is discussed in detail. Furthermore, the integration of the resulting approximation function into an Annealing Particle Filter is described and evaluated extensively. Once the users' poses and positions are known, their environment can be merged into a shared consensus reality. This leads to a second optimisation problem. Since the participating rooms can have very different layouts, discontinuities between the two spaces can destroy the illusion of co-presence. The problem is expressed through a series of energy functions, which can be approached as a maximisation problem. The design of these energy terms is discussed in detail and a thorough examination of their characteristics is given. Common to both topics is the expression of otherwise intractable problems in a global optimisation framework and their central role in driving the envisioned telepresence system. While the creation of the consensus reality sets the foundation for projecting two rooms into a common workspace, the human pose tracking then drives the interaction with virtual content. The goal is to provide a channel for communication over distance which incorporates not only visual and auditory cues, but allows the users to interact naturally by sharing the same physical space - even if they are on different continents.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Prof. Bernard Merialdo
Tag der mündlichen Prüfung: 10.12.2015
Florian Laquai. Anticipation Assistance For Drivers.
Dissertation, Technische Universität München, 2014.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-2136-7. (PDF, 17MB)
Anticipatory driving has the potential to prevent or mitigate dangerous traffic situations. The future availability of Car2X Communication provides the necessary data for an Advanced Driver Asisstance System (ADAS) that can facilitate this behavior. Several Human Machine Interfaces (HMIs) are developed and evaluated in driving simulators and real world experiments. These HMIs use large Head-Up Displays, digital instrument clusters, LED arrays and tactile feedback to inform the driver and induce an early deceleration. Additionally a Car Following Model is developed to assess the impact of the system on a larger scale and at different penetration rates.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Gudrun J. Klinker, Ph.D.
Tag der mündlichen Prüfung: 16.12.2014
Jürgen Blume. Methoden und Anwendungen zur intuitiven Mensch-Roboter-Interaktion.
Dissertation, Technische Universität München, 2014.
The aim of this thesis is to provide an intuitive interaction between humans and robots focusing on user interfaces and usability. For this purpose an architecture supporting multimodal interaction channels was designed and orchestrated using a knowledge-based system controller. For a natural interaction with a robot in dialogue situations, a human-inspired gaze control was developed. An intuitive programming concept was designed and evaluated. The thesis concludes with an overview of the application scenarios for intuitive interaction in social and industrial environments.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. habil. Dr. h. c. A.W. Koch
Tag der mündlichen Prüfung: 15.12.2014
Alexander Bannat. Ein Assistenzsystem zur digitalen Werker-Unterstützung in der industriellen Produktion.
Dissertation, Technische Universität München, 2014.
This thesis is focusing on the development of a worker assistant system. The system features an abstract representation of work plans, a component for detecting the workflow of the worker and a display unit for presenting operating instructions. The developed assistant system is capable of supporting a worker in his assembly task. First, an overview about relevant aspects of industrial production is given. The developed rule-based approach for defining workplans is explained within a sample implementation. Afterwards, two approaches for detecting the workers workflow are presented. These include the analysis of 3D-features using state machines, as well as a statistical analysis of 2D-motion flow vectors. Each approach is evaluated in user trials. The third part is focused on two concepts for the presentation of operating instructions during a manual assembly task. Each concept is evaluated in user trials and the results are discussed. The thesis concludes with a summary of the developed concepts and integrated components as well as the results of the experiments. Finally, an outlook is given.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Prof. Dr. rer. nat. M. Kleinsteuber
Tag der mündlichen Prüfung: 27.11.2014
Jürgen Geiger. Robust Methods for Content Analysis of Auditory Scenes.
Dissertation, Technische Universität München, 2014. (PDF, 2688 kB)
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-1986-9.
This thesis presents progress in new possibilities and addressing disturbing factors (overlapping speech, noise, and reverberation), first, by proposing ideas for a system for the classification of acoustic scenes and a method for acoustic gait-based person identification. Both of them are two relatively new audio recognition tasks. Furthermore, improvements for two established methods (speaker diarization and robust speech recognition) are presented. Together, the proposed modules represent a complete system for auditory scene analysis.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. W. Hemmert
Tag der mündlichen Prüfung: 26.11.2014
Mario Pavlic. Kamerabasierte Nebeldetektion und Sichtweitenschätzung im Fahrzeug.
Dissertation, Technische Universität München, 2014.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-1678-3.
In dieser Arbeit wird ein neues Verfahren zur maschinellen Nebeldetektion vorgestellt. Es besteht aus einer Klassifizierungsprozedur, welche anhand von spektralbasierten Merkmalen sowohl bei Tag als auch bei Nacht eine zuverlässige Unterscheidung ermöglicht. Dabei wird das Leistungsspektrum einer zweistufigen Merkmalsreduktion unterzogen, welche aus einer Abtastung im Frequenzbereich mittels einer neu vorgestellten Gabor Bandpass Filterbank sowie einer anschließenden Hauptkomponentenanalyse besteht. Dadurch erzielt bereits ein linearer Klassifikator ein hohes Trennvermögen.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Gerhard Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. habil. Walter Stechele
Tag der mündlichen Prüfung: 27.06.2014
Martin Hofmann. Detection, Tracking and Gait-Based Identification of Multiple People in Videos.
Dissertation, Technische Universität München, 2013.
Erschienen im Verlag Dr. Huth, München, ISBN 978-3-8439-1371-3.
This thesis addresses multiple challenges in the field of vision-based surveillance and monitoring. This includes low-level preprocessing, multi-camera object detection, multi-object tracking as well as gait-based person identification. More precisely, methods to reliably detect people from multiple heterogeneous video sources and to track them over time in potentially crowded scenarios are studied and novel improvements are presented. This thesis especially investigates the paradigm of global association-based trackers, which greatly outperform traditional sigle object tracking approaches. These algorithms make person detection and tracking not only faster, but also more robust in realistic crowded surveillance scenarios. All presented methods are tested on publicly available benchmark databases and signficant performance improvements can be reported.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. Rainer Stiefelhagen
Tag der mündlichen Prüfung: 29.11.2013
Tobias Rehrl. Multimodale Mensch-Roboter-Interaktion für Ambient Assisted Living.
Dissertation, Technische Universität München, 2013.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-1372-0.
In this thesis, non-verbal aspects of human-robot interaction and image-based tracking methods for Ambient Assisted Living are investigated. First, methods for gesture and facial expression recognition are developed; therefore, various methods of pattern recognition techniques are applied. Graphical models are used in this thesis for the design of image-based object tracking. A game scenario on a social robot serves as application platform for the developed methods.
1. Berichter: Prof. Dr. habil. Gerhard Rigoll
2. Berichter: Prof. Dr. Horst-Michael Groß
Tag der mündlichen Prüfung: 18.11.2013
Moritz Kaiser. Construction of a 3D Facial Model for Tracking and Animation.
Dissertation, Technische Universität München, 2012.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-84390-873-3.
Facial modeling can be used for a variety of applications, such as face recognition, face tracking, age detection, expression recognition or facial animation. In this thesis, a 3D facial model, which is also able to synthesize facial expressions, is constructed with faces from a 3D face database. Therefore, dense point-to-point correspondences between the 3D faces are computed and then a Principal Component Analysis is applied to a set of faces of the database. The functionality of the facial model is demonstrated by means of two applications. The facial movements and the micro-movements within the faces of probands are tracked in multi-camera video sequences. Furthermore, the facial model is employed for animation purposes. Faces are replaced in video sequences, in which probands are talking and carrying out facial expressions.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr. sc. Samarjit Chakraborty
Tag der mündlichen Prüfung: 18.12.2012
Ekaterina Timoshenko. Rhythm Information for Automated Spoken Language Identification.
Dissertation, Technische Universität München, 2012.
The automatic Language IDentification (LID) of spoken utterances attempts to automatically identify the language or dialect that is spoken by a human speaker. Language identification can be performed using different types of information that are extracted from a speech signal. Along with the standard LID systems that classify languages by the types of allowed phonemes and phonemes' combinations, a system based on rhythm information will be presented. Individual LID systems are firstly evaluated separately and then used together in different combinations to explore the influence of rhythm features on the overall performance. The results confirm that the proposed definition of speech rhythm can be successfully used to improve any LID system.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Prof. Dr. S. Kramer
Tag der mündlichen Prüfung: 21.03.2012
Stefan Graf. Interaktions- und Suchverfahren zur Integration mobiler Endgeräte in Fahrerinformationssysteme.
Dissertation, Technische Universität München, 2012.
Erschienen im Oldenbourg Wissenschaftsverlag, ISBN 978-3486717372.
Für viele Fahrer besteht der Wunsch nach Verfügbarkeit von Informationen aus mobilen Endgeräten auch während der Fahrt. Zur sicheren Nutzung dieser Geräte dient eine Integration in Fahrerinformationssysteme (FIS). Die Arbeit bietet eine Übersicht über unterschiedliche Integrationsszenarien. Die hierarchischen Menüstrukturen bestehender FIS sind jedoch für eine flexible Integration nur bedingt geeignet. Als Lösungsansatz wird daher eine Kombination aus Objektorientierung, Such-Interaktion, adaptiver hierarchischer Menüstruktur und Informations-Navigation (Browsing) verwendet. Die Evaluierung des Ansatzes erfolgte über Nutzerstudien bis hin zu einer umfassenden Fahrsimulationsuntersuchung. Im Vergleich der Such-Interaktionen für FIS zeigte sich die Überlegenheit einer uneingeschränkten Suche gegenüber einer Kategorie-Suche. Zudem wiesen die Untersuchungen die serienreife Eignung des Konzepts nach.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr. phil. Klaus Bengler
Tag der mündlichen Prüfung: 17.02.2012
Tony Matthias Poitschke. Blickbasierte Mensch-Maschine Interaktion im Automobil.
Dissertation, Technische Universität München, 2011.
The aim of this thesis is the design of new and intuitive user interfaces for reduced driver distraction in automobiles. Therefore, the thesis presents different methods for the detection of distraction in automotive scenarios by means of: (a) monitoring the interaction process, (b) analyzing vehicle data, and (c) tracking the gaze direction. Based on an extensive analysis of these parameters, various approaches for adapting the information flow to the driver’s visual attention are presented and evaluated. Finally, an overview of possible gaze-driven applications in other domains is presented.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr. habil. Thomas Huckle
Tag der mündlichen Prüfung: 26.10.2011
Benedikt Hörnler. Audio-Visual Event Recognition with Graphical Models.
Dissertation, Technische Universität München, 2010.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-86853-776-5. (PDF, 4138 kB)
In this work, different applications for the automated detection of events have been investigated utilizing audio-visual pattern recognition methods. The recorded data has been taken both from video surveillance or video conferences. Acoustic, visual and semantic features are extracted from the available data and are subsequently analysed with the help of graphical models. These are particularly suitable for modeling multi-modal feature sequences and provide an efficient way for automatic feature fusion. All models are first described in detail theoretically and then the necessary structure for both the learning of required parameters and the classification process are presented. Finally a conclusion is drawn by describing the results and further possible research approaches. Graphical models are suitable for these tasks, but the results are strongly depending on the kind of problem.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.rer.nat. M. Kranz
Tag der mündlichen Prüfung: 20.12.2010
Dejan Arsic. Detection and Tracking of Objects for Behavioral Analysis in Sensor Networks.
Dissertation, Technische Universität München, 2010.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-86853-455-9.
Video surveillance systems are frequently utilized to guarantee safety in public and private places. These are usually used to scare off potential offenders and for forensic use, as only highly trained security staff is able to analyze the data in real time. In order to lower the cost of operating such a system and to assist the operators and security personnel, it is desired to detect potential threats automatically. Therefore various approaches to detect and track people in video sequences have been implemented in this work. Due to the occlusion problem in 2D sceneries, a multi camera tracking framework utilizing homography has been introduced and evaluated. This way it is now possible to extract individual patterns for each person. These can be further analyzed for anomalies with common pattern recognition methods.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Prof.Dr. J. Ferryman, Univ. of Reading, UK
Tag der mündlichen Prüfung: 22.04.2010
Natasa Milicic. Sichere und ergonomische Nutzung von Head-Up Displays im Fahrzeug.
Dissertation, Technische Universität München, 2010.
The "Head-Up Display" (HUD) is an innovative technology in the vehicle that has been very well received by users. Negative effects associated with head-up displays are known from aviation research. This dissertation presents a series of tests that critically addresses these negative effects in an automotive context. This lays a further cornerstone for future use of the head-up display in the vehicle. The motivation behind this are the safety and convenience advantages that the HUD provides. This paper examines the following issues:
1. How should information be displayed on the HUD?
2. What other information could be displayed on the HUD without inducing negative effects?
3. Do negative effects appear if a large display area is available in the HUD?
A guideline for the display of information was derived from the results.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Prof. Ph.D. G. Klinker
Tag der mündlichen Prüfung: 20.04.2010
Andreas Muigg. Implizites Workloadmanagement. Konzept einer zeitlich-situativen Informationsfilterung im Automobil.
Dissertation, Technische Universität München, 2009. (PDF, 7623 kB)
The possibility of a system which adapts the readout of in-vehicle messages to the current situation is explored. Therefore, a study in a driving simulator delivers the knowledge of driver reaction on system messages. Based on these results, the concept of an implicit workload management is designed. So, an indirect approximation of the attention that is paid on the driving task is in the focus. A Bayesian net is used for modeling the system behavior. A real world study evaluates the concept and identifies the potential benefit of such a system.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr. rer.nat. H. Bubb, i.R.
Tag der mündlichen Prüfung: 9.12.2009
Stefan Schwärzler. Graphische Modelle im natürlichsprachlichen Mensch-Maschine-Dialog.
Dissertation, Technische Universität München, 2010.
In this thesis, procedures of natural spoken human-machine dialog are consistently modeled with graphical models using the example of automatic flight information systems. The recognition of semantic phrases of words from the speech recognizer is realized by a two-stage graphical model, which combines stochastic and rule-based methods. To develop strategies for a natural dialog flow from these word phrases, a discrete hidden Markov model is used. The system can adjust fast to modified situations and remains flexibly deployable due to the evaluation of the dialog strategy in run time. The developed graphical models are analyzed theoretically, training algorithms are derived and experiments for each procedure are carried out. Finally, possibilities for realizations based on software agents and their expandability are pointed out.
1. Berichter: apl. Prof. Dr.-Ing. habil. G. Ruske
2. Berichter: Univ.-Prof. Dr. rer. nat. habil. A. Brüggemann-Klein
Tag der mündlichen Prüfung: 15.01.2010
Joachim Schenk. Online-Erkennung handgeschriebener Whiteboard-Notizen.
Dissertation, Technische Universität München, 2009.
Handwriting recognition (HWR) on whiteboards experiences, due to its usage in so-called “Smart-Meeting-Rooms”, growing attention in the field of pattern recognition. Herein, distortions caused by the writer’s upright position are a challenge. In this thesis, systems for on-line HWR of whiteboards notes based on both continuous and discrete Hidden-Markov-Models (HMM) are developed and enhanced. Relevant features are selected and the pen’s pressure information is modeled in a lossless and implicit manner. The script lines within a line of text written on a whiteboard suffer from distortions. Hence, a novel approach for identifying the script lines in those texts is presented.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: apl. Prof. Dr.-Ing. habil. W. Stechele
Tag der mündlichen Prüfung: 25.06.2009
Stefan Hoch. Kontextmanagement und Wissensanalyse im kognitiven Automobil der Zukunft.
Dissertation, Technische Universität München, 2009.
Since their invention cars have made a decent change of intent from pure means of transportation to a vehicle equipped with a diversity of safety and comfort systems including advanced sensory and actuatory capabilitites. The work deals with this trend of developing cognitive vehicles. Its main focus rests on the analysis and exploration of important research and development issues within the scope of automotive information acquisition and processing: context management, analysis and interpretation of knowledge and the extended acquisition and modelling of drivers' behaviour. The work provides a comprehensive view and implementations on these topics, all of them contributing to a consistent enhancement of cognitive vehicles.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr. phil. rer. soc. habil. B. Färber, Universität der Bundeswehr München
Tag der mündlichen Prüfung: 26.05.2009
Sascha Schreiber. Personenverfolgung und Gestenerkennung in Videodaten.
Dissertation, Technische Universität München, 2009.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-86853-081-0.
The computer-aided analysis of image and video data gains more and more in importance for two decades. In this field of research the automatic detection and tracking of objects is the fundamental basis for numerous successive tasks. This thesis deals with the development of a novel architecture to automatically track persons, focussed on the domain of meeting scenarios. According to the physiological understanding of the human analysis of scenes, the problem of tracking persons is interpreted both in a bottom-up as well as in a top-down perception. This aims at a hybrid system architecture, which enables - employing a data-driven optimization of state hypotheses - an efficient technique to simultaneously track several persons based on their heads. Using different models for the head various architectures are implemented and evaluated within the context of this thesis. The results are discussed based on a number of metrics defined in an evaluation scheme. The result provided by the tracking system is the essential information for a subsequent gesture recognition. In real meetings persons are frequently occluded by other persons. In this way executed gestures can be detected only partially by the system. For this reason this thesis also investigates the influence of different perturbations on the recognition rate of gestures. Based on these insights system concepts, which allow for a compensation of the perturbations, are developed and evaluated.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. K. Kroschel, Universität Karlsruhe (TH)
Tag der mündlichen Prüfung: 16.04.2009
Markus Ablaßmeier. Multimodales, kontextadaptives Informationsmanagement im Automobil.
Dissertation, Technische Universität München, 2009.
The present thesis provides novel approaches for dealing with large amounts of data and information in vehicles. Therefore, efficient dialog strategies for the driver are identified, appropriate multimodal interfaces are developed and afterwards evaluated in usability studies. The fundamental background delivers a multimodal, context-adaptive dialog management. For an effective information retrieval the driver obtains support through an automotive search engine. In a further approach efficient information access is provided through an object-oriented, cross-linked data browsing. Based on novel visualization strategies the intuitive presentation of a large amount of information is shown. In addition intelligent information agents for the driver simplify operation procedures and prepare the necessary information in a situation and user adequate way. Finally, the potentials of large Head-Up Displays are presented and discussed.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr. rer.nat. H. Bubb, i.R.
Tag der mündlichen Prüfung: 09.03.2009
Daniel Modrow. Echtzeitfähige aktive Stereoskopie für technische und biometrische Anwendungen.
Dissertation, Technische Universität München, 2008.
This work considers with the three-dimensional acquisition of objects in general. It is focused on the development of a real-time sensor-system for biometric applications, which is beneficial for technical implementations as well. It is based on active stereoscopic systems, which hold ideal preconditions for unobtrusive measurement systems. An overview on state-of-the-art techniques is given, which deliver fundamentals for the newly developed approaches. Furthermore this work provides an outlook on possible future developments in the field of three-dimensional object acquisition.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing., Dr.-Ing. habil. A. Knoll
Tag der mündlichen Prüfung: 22.12.2008
Stephan Reiter. Multimodale Modellierung von Gruppenaktionen zur Segmentierung von Besprechungen.
Dissertation, Technische Universität München, 2008.
Business meetings play a more and more important role in professional life. Therefore in this work innovative methods are introduced to automatically analyze recorded meetings and to subdivide them into group actions. Static classification methods like Bayesian networks and support vector machines are employed. For the segmentation two novel techniques are developed. Recurrent neural nets with long short-term memory cells and a new architecture of parallel recurrent neural nets derived from neural fields give an alternative to the aforementioned procedures. To model the dynamic character of meetings hidden Markov models and for the first time hidden conditional random fields are applied to this task. Hybrid methods and layered approaches that combine static and dynamic classification methods, cope with the data sparseness in an efficient way. The proposed methods are evaluated in respect to their performance to segment meetings.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr. F. Puente León
Tag der mündlichen Prüfung: 10.07.2008
Ronald Müller. A System for Automatic Face Analysis Based on Statistical Shape and Texture Models.
Dissertation, Technische Universität München, 2008.
This thesis introduces the architecture, the scientific algorithms, and evaluation results of a software system for the automatic analysis of human faces. The analysis addresses a precise re-synthesis of unknown faces as well as the extraction of abstract information, like e.g. the gender, age, and facial expression of a face in an image. The different implemented and investigated approaches base on the idea of Active Appearance Models which strive for a source separation and thus for a variance reduction in the appearance of objects via statistical methods. Hereby, the research concentrates on the optimization of the execution time and quality of the analysis. The results of the comparative evaluations impressively confirm the success of the described advancements.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. habil. A. W. Koch
Tag der mündlichen Prüfung: 26.11.2008
Stefan Reifinger. Multimodale Interaktion in Augmented Reality Umgebungen am Beispiel der Spieledomäne.
Dissertation, Technische Universität München, 2008.
The combination of real and virtual environments is called Augmented Reality. Interaction with reality as well as virtuality is possible for the user. Possible interactions can be found for the input and the output as well as the interdependency of reality and virtuality. Thus, this work presents methods, which realize these interactions. For example, output is enhanced by a virtual acoustics system, input is expanded by an automatic gesture recognition system and the interdependency is enhanced by an image based collision detection system. Main focus of this work is the gaming domain. Exemplary bowling and billard is transferred into Augmented Reality. These demonstrators are the basis for the evaluation of the developed interactions in this work.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. W. Hemmert
Tag der mündlichen Prüfung: 19.11.2008
Marc Al-Hames. Graphische Modelle in der Mustererkennung.
Dissertation, Technische Universität München, 2008.
Graphical Models are a combination of probability and graph theory. They allow a unified view on various problems and provide low-complexity algorithms for probabilistic inference. This work investigates how Graphical Models can be used for different pattern recognition tasks: for the combined recognition of shot boundaries and scene changes in videos a two-layer model is developed. Bimodal user inputs are fused with an asynchronous model. For the robust recognition of group actions in meetings from disturbed data a Hidden Markov Model is combined with a linear dynamical system. To automatically edit conference videos, different models for segmentation and classification are presented and special training structures are designed. For each developed model inference and learning algorithms are derived and theoretically analysed. The recognition performance of all proposed models is evaluated and possible extensions are shown.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr. H. Buhnke, Universität Bern (Schweiz)
Tag der mündlichen Prüfung: 25.04.2008
Anil Taner. Vergleich verschiedener Systeme zur Sichtverbesserung bei Nacht in Personenkraftwagen.
Dissertation, Technische Universität München, 2007.
Erschienen im Cuvillier Verlag Göttingen, ISBN 978-3-86727-448-7.
Sichtverbesserungssysteme erweitern die Sicht des Autofahrers über die Grenzen des Abblendlichts hinaus, ohne dabei andere Verkehrsteilnehmer zu blenden. So genannte NightVision-Systeme erfassen das Vorfeld des Fahrzeugs mit einer Wärmebildkamera und zeigen das Bild in einem Bildschirm an. Ziel dieser Arbeit ist es, den Fahrer bei der Aufnahme der Information aus der NightVision-Anzeige zu unterstützen. Dazu markieren Bildverarbeitungsalgorithmen Lebewesen im Bild, um die Erkennbarkeit von Gefahren zu verbessern, und heben den Fahrbahnverlauf im Wärmebild hervor, um die Orientierung im Bild zu vereinfachen. Als Alternative zu NightVision-Systemen skizziert diese Arbeit ein Adaptives Fernlicht, das seine Ausleuchtung automatisch der Verkehrssituation anpasst und die Sicht verbessert, ohne andere Verkehrsteilnehmer zu blenden und ohne dem Fahrer ein Bild anzuzeigen. Probanden bewerten die verschiedenen Systeme dieser Arbeit in Fahrversuchen im realen nächtlichen Straßenverkehr.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. G. Färber
Tag der mündlichen Prüfung: 23.07.2007
Axel Wismüller. Exploratory Morphogenesis (XOM) - A Novel Computational Framework for Self-Organization: Cross-Fertilization between Electrical, Biomedical, and Computer Engineering.
Dissertation, Technische Universität München, 2006.
Diese Schrift zur bioanalogen Informationsverarbeitung begründet ein neuartiges Berechnungsmodell (Exploratory Morphogenesis - XOM), welches die Visualisierung komplexer Daten und die Selbstorganisation geometrischer Strukturen (Morphogenese) aus einer gemeinsamen Sichtweise interpretiert. Lediglich auf wenigen einfachen Prinzipien beruhend, besticht XOM überraschend als ein ubiquitär einsetzbares Konzept für die Musteranalyse und Datenvisualisierung in Naturwissenschaft und Technik, indem es strukturerhaltende Dimensionsreduktion, Clusteranalyse, Musterregistrierung, inkrementelles Lernen unter Zwangsbedingungen sowie die Analyse nichtmetrischer Dissimilaritätsdaten in einen gemeinsamen Bezugsrahmen überführt. XOM läßt sich als eine Verallgemeinerung des "Deformable Feature Map"-Algorithmus motivieren, der im Kontext eines Systems zur automatischen Segmentierung und Registrierung multispektraler MRT-Daten des menschlichen Gehirns eingeführt und quantitativ analysiert wird.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Hauske
Tag der mündlichen Prüfung: 16.10.2006
Uri Iurgel. Automatic Media Monitoring Using Stochastic Pattern Recognition Techniques.
Dissertation, Technische Universität München, 2006.
Die vorliegende Abhandlung stellt einen Demonstrator für die automatische Medienauswertung vor, der deutschsprachige Nachrichtensendungen nach vorgegebenen Themen durchsucht. Ziel ist es, die Arbeit von professionellen Medienauswertern zu unterstützen. Die Forschungsergebnisse bezüglich der einzelnen Module des Demonstrators werden zusammen mit den erreichten Innovationen dargestellt. Die Leistungsfähigkeit sowohl der Module als auch des gesamten Systems wird anhand von ausführlichen Tests untersucht. Mittels visueller Indizierungsverfahren werden Themengrenzen in Fernsehnachrichten bestimmt. Ein auf Nachrichten spezialisierter Spracherkenner wandelt die Audiosignale in Text um, welche von einem Themenklassifizierer auf das Vorkommen von vorgegebenen Themen überprüft werden. Es werden statistische Klassifizierer wie Hidden Markov Modelle und Support Vector Machines verwendet, die dem neuesten Stand der Technik entsprechen.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. W. Utschick
Tag der mündlichen Prüfung: 29.5.2006
Jan Robert Stadermann. Automatische Spracherkennung mit hybriden akustischen Modellen.
Dissertation, Technische Universität München, 2006.
Erschienen im Verlag Dr. Hut, München, ISBN 3-89963-414-4.
The speech recognizer's acoustic model is based on statistical pattern recognition to generate a parametric representation of a spoken utterance. The acoustic model is one of the decoder's core elements In combination with a feature extraction module for data reduction, a dictionary for orthographic transcription and a language model for modeling probable word sequences. This thesis' main focus is the hybrid acoustic model using a statistical classifier and hidden Markov models (HMM) connected by tied posterior probabilities (TP). Its main advantages are a high flexibility, low word error rates and a relatively small number of trainable parameters. From the variety of statistical classifiers multi-layer perceptrons, recurrent neural networks and support vector machines are presented in detail. To improve the neural networks additional tasks are to be classified on top of phoneme (or HMM state) classification. A successful one is the speaker's gender a task that is independent of the spoken phonemes and which can be learned easily by a neural network. A classifier composed of a set of support vector machines is evaluated only with a very small vocabulary size (11 digit words) due to a very long computation time. Positive tendencies especially with respect to robustness against noise are observable. Furthermore the speaker independent TP-models are adapted towards one specific speaker. The parameters of the classifier (neural networks have been investigated in this work) and the HMMs can be tuned independently with additional gain if both sets of parameters are adapted. Finally hybrid acoustic models are applied to distributed speech recognition where the recognizer's components are locally separated and connected with a channel. The TP-models are shown to be superior to Gauss models especially in terms of their flexible architecture.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. H. Ney, RWTH Aachen
Tag der mündlichen Prüfung: 16.11.2005
Frank Wallhoff. Entwicklung und Evaluierung neuartiger Verfahren zur automatischen Gesichtsdetektion, Identifikation und Emotionserkennung.
Dissertation, Technische Universität München, 2006.
This thesis is about the concepts, integration and evaluation of novel methods of finding and recognizing faces in single images and video sequences. Furthermore the recognition of emotional states using dynamical facial expressions is studied. The proposed methods are based on pattern recognition theories and cover the Principle Components Analysis, artificial Neural Networks, Support Vector Machines, Hidden Markov Models as well as Hybrid Systems. After the investigation of the involved functional units, several novel systems for gaze independent face tracking in omni-directional image material and the robust contact-less access control in airplanes are presented. Furthermore solutions for face profile recognition using frontal face models as well as a person independent recognition of spontaneous facial expressions are introduced and compared with human perception capabilities.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. E. Steinbach
Tag der mündlichen Prüfung: 25.04.2006
Anja Brakensiek. Modellierungstechniken und Adaptionsverfahren für die On- und Off-Line Schrifterkennung.
Dissertation, Technische Universität München, 2002.
The presented work describes several aspects for automatic on- and off-line script recognition, which is based on Hidden Markov Models (HMM). The recognition performance for cursive handwritten words as well as machine-printed documents is examined, whereas specific methods for preprocessing and feature extraction have been chosen for the current type of script. However, the topic of this work is the examination of hybrid modeling techniques for HMMs and the development of context models, the usage of language models (character n-grams) for word recognition with open vocabulary and different adaptation methods. Furthermore, for adaptation of recognition systems to a certain writer or a local writing style different confidence measures are compared.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. G. Rigoll
2. Berichter: Univ.-Prof. Dr.-Ing. H.-M. Groß, TU Ilmenau
Tag der mündlichen Prüfung: 16.12.2002
Prof. Fastl
Klaus Laumann. Über Methoden zur Qualitätsbeurteilung von virtuellen Kopfhörern.
Dissertation, Technische Universität München, 2016.
The reproduction of binaural signals via loudspeakers is usually assessed on the basis of localization. Because binaural technology is prone to errors, alternatives for evaluating such "virtual headphones" were investigated. Lateralization proved to be a suitable quality measure, whereas interaural coherence did not. For the specific implementation it was beneficial, to generate six to eight moveable virtual sources close to the head with secondary sources above the listener.
1. Berichter: apl. Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Prof. Dr.-Ing. Klaus Diepold
Tag der mündlichen Prüfung: 12.12.2016
Florian Völk. Interrelations of Virtual Acoustics and Hearing Research by the Example of Binaural Synthesis.
Dissertation, Technische Universität München, 2013.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-84391-113-9.
This thesis provides a theoretical and methodical framework for employing virtual acoustics systems for audio playback in hearing research as well as auditory quality evaluation of virtual acoustics systems using methods of Psychoacoustics. The framework is verified by the example of binaural synthesis, which is derived system theoretically and evaluated by physical and psychoacoustical measurements. The results provide an explanation of the case of the missing 6dB and suggest a schematic working model of the buildup of hearing sensations with regard to auditory localization and loudness.
1. Berichter: apl. Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Univ.-Prof. Dr.-Ing. W. Hemmert
Tag der mündlichen Prüfung: 22.05.2013
Tobias Rader. Speech Perception of Cochlear Implanted Patients with Combined Electric-Acoustic Stimulation.
Dissertation, Technische Universität München, 2012.
Electric-acoustic stimulation (EAS) means the stimulation of the hearing nerve with an inner ear hearing prostheses by electrical pulses to compensate high frequency deafness and in parallel using the low frequency residual hearing by a hearing aid at the same ear. In this doctoral dissertation, the “Multi-Source Noise Field” is developed and realized as examination environment for the subsequent realistic measurement of speech perception levels in various noisy situations. The transition frequency from acoustic to electric stimulation is determined by psycho-acoustic pitch comparison tests. The results of measurements from patients with inner ear hearing prosthesis have been reproduced by simulations with normal hearing persons and described by a model.
1. Berichter: Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Prof. Dr. K. Diepold
Tag der mündlichen Prüfung: 14.05.2012
Daniel Menzel. Zum Einfluss von Farben auf das Lautheitsurteil.
Dissertation, Technische Universität München, 2011.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-86853-971-4. (PDF, 4631 kB)
This thesis investigates the question to what extent loudness judgments depend not only on parameters of the sound, but also on the colour of simultaneously presented visual stimuli. In extensive psychoacoustic experiments subjects rated the loudness of synthetic, technical, and natural sounds while viewing differently coloured optical stimuli in the form of colour patches, still images, moving images, and virtual realities. It was found that loudness ratings of about 40% of the subjects were influenced by the colours: red and magenta generally lead to higher loudness ratings compared to grey and green with differences of about 12%. A mathematical model was developed which in many cases predicts typical colour influences on loudness judgments and which can be employed for example in applications of sound-quality engineering.
1. Berichter: Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Prof. Dr.-Ing. W. Hemmert
Tag der mündlichen Prüfung: 05.05.2011
Stefan Kerber. Wahrnehmbarkeit von Fahrzeugaußengeräuschen in Hintergrundgeräuschen: Psychoakustische Beurteilungen und modellbasierte Prognosen.
Dissertation, Technische Universität München, 2008.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-89963-909-4.
Since the nineteen seventies, the maximum vehicle exterior noise level permitted has been successively lowered. Thus, nowadays, the danger of perceiving single vehicles in a background noise too late to avoid accidents arises. This thesis therefore uses psychoacoustic methods in order to evaluate acoustic perceptibility of vehicle exterior noises in different background noises. “Critical distances”, which must exist between pedestrians and vehicles to safely avoid accidents, are defined. Based on psychoacoustic results regarding reaction times and masked thresholds, an algorithm for prediction of acoustic perceptibility in background noises is developed. Comparison of calculated and experimentally-determined results for perceptibility revealed reliable predictions, with correlations between 0.779 and 0.965. The results also show that several current vehicles are not perceptible soon enough to avoid accidents in a moderately loud background noise of 63.1 dB(A).
1. Berichter: Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Prof. Dr.-Ing. K. Diepold
Tag der mündlichen Prüfung: 10.12.2008
Markus Fruhmann. Ein Modell zur Wahrnehmung der Ausgeprägtheit der Tonhöhe.
Dissertation, Technische Universität München, 2006.
The psychoacoustic sensation "pitch strength" describes, independent from the absolute pitch, as how strong the pitch of a sound is perceived. The results of psychoacoustic experiments for a large variety of stimuli are presented and explained using modells of the signal processing of the human auditory system. Based on these findings, a modell was developed which is able to reproduce the experimental data found for synthetic and real sound stimuli qualitatively as well as quantitatively.
1. Berichter: Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Prof. Dr.-Ing. K. Diepold
Tag der mündlichen Prüfung: 21.12.2006
Fred Antonio Nentwich. Transfer-Pfad-Analyse im Zeitbereich zur Auralisierung von PKW-Innengeräuschen.
Dissertation, Technische Universität München, 2004.
Erschienen im Shaker Verlag Aachen, ISBN 3-8322-2975-2.
Die Arbeit beschreibt eine Simulation des Innengeräusches eines Kraftfahrzeuges. Das Fahrgeräusch besteht aus Geräuschanteilen, die von verschiedenen Schallquellen stammen und über mehrere Transferpfade in die Fahrgastkabine gelangen. Die einzelnen Geräuschanteile werden im Zeitbereich synthetisiert und durch Überlagerung zum Gesamtgeräusch zusammengefügt. Die Darbietung und subjektive Beurteilung der Simulation erlaubt eine Bewertung des Einflusses der einzelnen Geräuschanteile auf den Höreindruck des Fahrgeräusches. Weiters wird zur Synchronisation serieller Messungen am Motor ein neuartiges Verfahren entwickelt, das die phasenrichtige Überlagerung der Zeitsignale gewährleistet. Anhand der Beispiele von harten Motorlagern und dünnen Fensterscheiben wird demonstriert, daß die Simulation eine Vorhersage ermöglicht, wie sich eine Fahrzeugmodifikation auf das wahrgenommene Klangbild des Fahrgeräusches auswirken würde. Die Synthesen werden durch Fahrversuche und Hörvergleiche validiert.
1. Berichter: Apl. Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Univ.-Prof. Dr.-Ing. A. W. Koch
Tag der mündlichen Prüfung: 17.05.2004
Georg Schmalfuß. Anwendung psychoakustischer Methoden und Modelle zur Feinanpassung von Hörgeräten mit natürlichen Schallen. Dissertation, Technische Universität München, 2004.
Object of the work is the development of an interactive and multi-media based hearing aid fitting procedure with measurement and/or prediction of a patients hearing impression and conclusions to the parameters of the hearing aid. Main results are a system of hearing dimensions for measuring the hearing impression based on environmental sound pattern and psychoacoustical models of categorical loudness, timbre and auditive pleasantness for hearing impaired people. A test in praxis shows that using the hearing dimension system in combination with a new optimisation algorithm based on fuzzy logic leads to an improvement in the quality of care.
1. Berichter: Apl. Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Univ.-Prof. Dr.-Ing. G. Hauske
Tag der mündlichen Prüfung: 05.05.2004
Christine Patsouras. Geräuschqualität von Fahrzeugen - Beurteilung, Gestaltung und multimodale Einflüsse.
Dissertation, Technische Universität München, 2003.
Erschienen im Shaker Verlag Aachen, ISBN 3-8322-1928-5.
In der vorliegenden Arbeit wird die Tauglichkeit unterschiedlicher psychometrischer Methoden zur Beurteilung der Geräuschqualität hinsichtlich verschiedener Anwendungsgebiete studiert. Die Geräuschqualität von synthetisierten motorähnlichen Geräuschen, synthetisierten Innengeräuschen von Hochgeschwindigkeitszügen und insbesondere von Außenstandgeräuschen Diesel angetriebener Fahrzeuge wird quantitativ erfaßt und die Auswirkungen simulierter, passiver Maßnahmen auf die Geräuschqualität untersucht. Für den Fall des Außenstandgeräuschs Diesel angetriebener Fahrzeuge wird basierend auf den Resultaten der psychoakustischen Experimente die Geräuschqualität durch eine Verknüpfung der Lautheit und des Diesel typischen Charakters der Geräusche nach einem City Block Modell beschrieben. Des weiteren wird der Einfluss nicht-akustischer Parameter auf die auditive Wahrnehmung untersucht, wobei der Fokus neben Konzentrationseinflüssen auf audio-visuellen Interaktionen liegt.
1. Prüfer: Apl. Prof. Dr.-Ing. habil. H. Fastl
2. Prüfer: Univ.-Prof. Dr.techn. J. Swoboda
Tag der mündlichen Prüfung: 14.07.2003
Bernhard Seeber. Untersuchung der auditiven Lokalisation mit einer Lichtzeigermethode.
Dissertation, Technische Universität München, 2003.
Die Dissertation stellt eine neue Methode zur Untersuchung der auditiven Lokalisation vor, die sich durch eine hohe Genauigkeit und geringe methodische Einflüsse auszeichnet. Dabei wird ein Lichtzeiger rechnergesteuert mit Hilfe eines Trackballs auf die wahrgenommene Schallrichtung eingestellt. Mit Hilfe dieser Methode wird ein Verfahren zur individuell-optimalen Auswahl einer Außenohrübertragungsfunktion (AOÜF) aus mehreren fremden für Anwendungen der virtuellen Akustik entwickelt. Für die Heranschätzung auditiver Richtungen an visuelle wird gezeigt, daß sie in der virtuellen Hörumgebung mit fremden AOÜF geringer als mit individuellen AOÜF oder in der realen Umgebung ausfällt. Eine Studie mit Cochlea-implantierten Patienten, die kontralateral ein Hörgerät oder ein zweites Implantat nutzen, weist deren Fähigkeit zur Lokalisation nach. Für einen bilateral implantierten Patienten konnten erstmals interaurale Pegeldifferenzen als dominierende Lokalisationsinformation identifiziert werden.
1. Berichter: Apl. Prof. Dr.-Ing. habil. H. Fastl
2. Berichter: Univ.-Prof. Dr.-Ing. G. Färber
Tag der mündlichen Prüfung: 21.05.2003
Josef Chalupper. Perzeptive Folgen von Innenohrschwerhörigkeit: Modellierung, Simulation und Rehabilitation.
Dissertation, Technische Universität München, 2002.
Erschienen im Shaker Verlag Aachen, Reihe "Medizintechnik", ISBN 3-8322-0767-8.
Ausgehend von psychoakustischen Messungen an Normal- und Innenohrschwerhörigen wird das dynamische Lautheitsmodell nach Zwicker auf Schwerhörige erweitert, indem lediglich die Lautheitsfunktion an einen individuellen Hörverlust angepaßt wird. Darauf aufbauend werden Modelle zur Berechnung von zeitlichen und spektralen Mithörschwellen, der Lautstärkeschwankung und der Sprachverständlichkeit entwickelt, die zahlreiche psychoakustische Meßergebnisse sowohl von Normal- als auch Schwerhörigen nachvollziehen können. Aus den psychoakustischen Modellen werden Signalverarbeitungsalgorithmen abgeleitet, die einen individuellen Hörverlust auralisieren bzw. eine vorhandene Hörschädigung weitgehend rehabilitieren können.
1. Berichter: Prof. Dr.-Ing. H. Fastl
2. Berichter: Prof. Dr.-Ing. H. Marko
Tag der mündlichen Prüfung: 29.04.2002
Ingeborg Stemplinger. Beurteilung, Messung und Prognose der Globalen Lautheit von Geräuschimmissionen.
Dissertation, Technische Universität München, 1999.
Erschienen im Herbert Utz Verlag München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-680-X.
Die Analyse der subjektiv empfundenen Globalen Lautheit von Geräuschimmissionen als Maß für die Lärmbelastung und deren meßtechnische Nachbildung bilden die zentrale Fragestellung dieser Arbeit. Die durch die psychoakustischen Experimente gewonnenen Daten lassen sich durch die Messung der Lautheit nach DIN 45631 und anschließende Perzentilwertberechnung gehörrichtig nachbilden. Ein statistisches Verfahren zur Berechnung des Vertrauensbereiches von Lautheitsperzentilen aus der Lautheits-Zeitfunktion ermöglicht erstmals deren qualitätsgesicherte Messung. Durch ein neu entwickeltes Prognoseverfahren kann die Globale Lautheit in Abhängigkeit der Lärmvorbelastung des Gebietes abgeschätzt werden.
1. Berichter: apl. Prof. Dr.-Ing. H. Fastl
2. Berichter: Univ.-Prof. Dr.-Ing. J. Hagenauer
Tag der mündlichen Prüfung: 08.11.1999
Helmut Spannheimer. Geräuschminderung im Kraftfahrzeug mit aktiven Resonatoren.
Dissertation, Technische Universität München, 1997.
Erschienen im Verlag Hieronymus Buchreproduktions GmbH, München, Reihe "Akustik", ISBN 3-933083-10-9.
Zur Geräuschminderung in Kraftfahrzeugen wurde ein aktiver Resonator entwickelt, der in einem Frequenzbereich von 50 Hz bis 200 Hz die Eigenschaften eines Helmholtzresonators bei seiner Resonanzfrequenz nachbildet. Das System wurde mit einem digitalen Regler realisiert, der über ein Mikrofon als Sensor einen Lautsprecher ansteuert. Die Möglichkeiten zur Schalldruckreduktion, die optimale Anordnung und die effektivste Auslegung des Resonators wurden mit einer modalen Schalldruckberechnung bestimmt und an einem Modellhohlraum überprüft. Schließlich wurde das System für verschiedene Anwendungsfälle in Fahrzeuge integriert, im Fahrbetrieb erprobt und die Wirksamkeit subjektiv und objektiv beurteilt.
1. Berichter: apl. Prof. Dr.-Ing. H. Fastl
2. Berichter: Univ.-Prof. Dr. rer. nat. H. Kinder
Tag der mündlichen Prüfung: 23.09.1997
Gerhard Krump. Beschreibung des akustischen Nachtones mit Hilfe von Mithörschwellenmustern.
Dissertation, Technische Universität München, 1993.
Nach Abschalten von rechnergenerierten Linienspektren mit spektraler Lücke bzw. spektraler Überhöhung ist ein leiser, abklingender Nachton (Zwicker-Ton) wahrnehmbar. Der Einfluß des Phasenspektrums auf die Zeitstruktur dieser Anregungsschalle wird mit Hilfe der Gruppenlaufzeit dargelegt. Die Tonhöhe und die Qualität des akustischen Nachtones wird in Abhängigkeit von Breite, Tiefe und Flankensteigung der spektralen Lücke sowie Bandbreite, Pegel und Zeitstruktur der Anregung untersucht. Anhand dieser Meßergebnisse wird ein Funktionsschema entwickelt, mit dem die Tonhöhe des Nachtones mittels rechnersimulierter Mithörschwellen auf 0,3 Bark genau berechnet werden kann.
1. Berichter: apl. Prof. Dr.-Ing. H. Fastl
2. Berichter: Univ.-Prof. em. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 04.02.1993
Ulrich Widmann. Ein Modell der psychoakustischen Lästigkeit von Schallen und seine Anwendung in der Praxis der Lärmbeurteilung. Dissertation, Technische Universität München, 1992.
Aufbauend auf einer Pilotstudie von Zwicker wird die psychoakustische Lästigkeit von Schallen definiert und deren Abhängigkeit von den Hörempfindungen Lautheit, Schärfe, Schwankungsstärke und Rauhigkeit untersucht. Die Ergebnisse werden in einem Modell zusammengefaßt. Auf der Basis der Spezifischen Lautheit werden Berechnungsmodelle der untersuchten Hörempfindungen entwickelt, die es zusammen mit dem Modell der psychoakustischen Lästigkeit erstmals ermöglichen, die akustische Komponente der Lästigkeit von Lärm meßtechnisch gehörrichtig aus dem Schallsignal abzuleiten. Das Modell hat sich bei der Beurteilung zahlreicher technischer Geräuschquellen gut bewährt.
1. Berichter: apl. Prof. Dr.-Ing. H. Fastl
2. Berichter: Univ.-Prof. Dr.-Ing. H. Marko
Tag der mündlichen Prüfung: 30.07.1992
Gisbert Gralla. Wahrnehmungskriterien bei Mithörschwellenmessungen und deren Simulation in Rechnermodellen.
Dissertation, Technische Universität München, 1991.
Mithörschwellen-Muster repräsentieren ein Maß für das spektrale und zeitliche Auflösungsvermögen des Gehörs. Durch die experimentelle Bestimmung der bei Mithörschwellenmessungen relevanten Wahrnehmungskriterien konnte eine Anzahl von Phänomenen, die bei der Interpretation von Mithörschwellen eine zentrale Rolle spielen, erklärt werden. Auf der Grundlage dieser Untersuchungen wurden anhand der Spezifischen Lautheit Modellvorstellungen zu den Entstehungsmechanismen von Mithörschwellen entwickelt und als Rechnermodelle implementiert.
1. Berichter: apl. Prof. Dr.-Ing. H. Fastl
2. Berichter: Univ.-Prof. em. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 13.08.1991
Prof. Schuller
Raymond Brückner. Application of Deep Learning Methods in Computational Paralinguistics.
Dissertation, Technische Universität München, 2020.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Univ.-Prof. Dr. rer.nat. Jakob Macke
Tag der mündlichen Prüfung: 30.03.2020
Erik Marchi. Automatic Emotion Recognition in the Voice of Children with Autism Spectrum Conditions.
Dissertation, Technische Universität München, 2019.
This thesis advances the state of the art by analysing to what extent acoustic features are relevant when children with autism spectrum conditions (ASC) are expressing emotional states. Experimental results are presented across different languages and populations on databases containing speech of children with ASC and typically developing children. Based on the acoustic analysis and feature relevance, an on-line voice analyser is developed and integrated into the perceptual serious game platform ASC-Inclusion which is an effective educational intervention tool.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Univ.-Prof. Dr. sc. techn. Samarjit Chakraborty
Tag der mündlichen Prüfung: 09.10.2019
Shahin Amiriparian. Deep Representation Learning Techniques for Audio Signal Processing.
Dissertation, Technische Universität München, 2019.
This thesis investigates the potential of deep neural networks for representations learning from audio signals. Novel deep learning models based on convolutional and recurrent neural networks are presented. Furthermore, extensive experiments are conducted to evaluate the practicability of the proposed techniques for a wide range of audio recognition tasks. It is shown that the developed systems are able to learn meaningful and robust representations.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Univ.-Prof. Dr.-Ing. Sami Haddadin
Tag der mündlichen Prüfung: 20.12.2019
Florian Pokorny. Towards an Automatic Earlier Recognition of Autism Spectrum Disorder, Fragile X Syndrome, and Rett Syndrome through Intelligent Pre-linguistic Vocalisation Analysis.
Dissertation, Technische Universität München, 2019.
Autism spectrum disorder, fragile X syndrome, and Rett syndrome are developmental disorders with a late clinical onset and, therefore, a diagnosis typically beyond infancy. In this thesis, the feasibility of an automatic recognition of these disorders based on acoustic characteristics of pre-linguistic vocalisations and machine learning methodology was evaluated. The generated results may pave the way for a reliable earlier recognition of currently 'late diagnosed' developmental disorders facilitating earlier intervention.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Univ.-Prof. Dr.-Ing. Werner Hemmert
Tag der mündlichen Prüfung: 01.07.2019
Simone Hantke. Intelligent Gamified Crowdsourcing for Autio Processing.
Dissertation, Technische Universität München, 2019.
In this thesis, an intelligent gamified crowdsourcing platform is proposed for data collection and annotation, including beyond state-of-the-art machine learning algorithms. Various audio datasets were collected and the platform is evaluated by performing a wide range of classification and speech analysis tasks together with conducting several differing perception studies. The introduced principles lead to faster, more cost-efficient, and more reliable data collection than previously feasible.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Univ.-Prof. Dr.-Ing. Werner Hemmert
Tag der mündlichen Prüfung: 28.05.2019
Kun Qian. Automatic General Audio Signal Classification.
Dissertation, Technische Universität München, 2018.
Automatic General Audio Signal Classification focuses more on machine listening based recognition of daily life audio signals rather than speech or music. This thesis proposes three typical tasks, i.e., snore sound classification, bird sound classification, and acoustic scene classification, which represent the possible applications on healthcare, ecological monitoring, public/home security surveillance, respectively.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Univ.-Prof. Dr.-Ing. Werner Hemmert
Tag der mündlichen Prüfung: 28.11.2018
Jun Deng. Feature Transfer Learning for Speech Emotion Recognition.
Dissertation, Technische Universität München, 2016.
With the availability of speech data obtained from different devices, the distribution mismatch between the training and test data has an adverse impact on speech emotion recognition systems. To address this issue, this thesis proposes a set of novel feature transfer learning methods based on autoencoders. Experimental results demonstrate the advantages of the proposed algorithms over other modern transfer learning methods.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Univ.-Prof. Dr.-Ing. Werner Hemmert
Tag der mündlichen Prüfung: 02.06.2016
Felix Weninger. Intelligent Single-Channel Methods for Multi-Source audio Analysis.
Dissertation, Technische Universität München, 2015.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-2314-9.
This thesis investigates the potential of recent machine learning methods for the challenging task of information extraction from single-channel audio where the source of interest is mixed with multiple interfering sources. World-leading results are demonstrated on challenging speech separation and recognition problems where speech is mixed with non-stationary background noise such as music. Furthermore, state-of-the-art results are presented in selected music information retrieval applications involving polyphonic audio.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Univ.-Prof. Dr. rer. nat. habil. Hans-Joachim Bungartz
3. Berichter: Univ.-Prof. Dr.-Ing. Eckehard Steinbach
Tag der mündlichen Prüfung: 07.05.2015
Zixing Zhang. Semi-Autonomous Data Enrichment and Optimisation for Intelligent Speech Analysis.
Dissertation, Technische Universität München, 2015.
Erschienen im Verlag Dr. Hut, München, ISBN 978-3-8439-2148-0.
To address the challenges surrounding data quantity and quality in Intelligent Speech Analysis, this thesis proposes and analyses semi-autonomous data enrichment and optimisation approaches. Particularly, both labelled and unlabelled data from heterogeneous resources are exploited; Split Vector Quantisation is employed for feature compression; and Long Short-Term Memory recurrent neural networks is evaluated to mitigate reverberation. With these approaches, better performance is delivered.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Prof. Gordon Cheng
Tag der mündlichen Prüfung: 16.04.2015
Florian Eyben. Real-time Speech and Music Classification by Large Audio Feature Space Extraction.
Dissertation, Technische Universität München, 2015.
Erschienen im Springer Verlag, ISBN 978-3-319-27298-6.
Automated classification of speech and music has become an important topic as speech technology enabled devices are entering our daily lives. This thesis advances the state-of-the-art in the area by defining standard acoustic feature sets, implemented in a novel, open-source, real-time speech and music analysis framework. The sets are evaluated extensively on many speech and music classification tasks. The tool and the feature sets are accepted and widely used by the research community in numerous studies so far.
1. Berichter: Univ.-Prof. Dr.-Ing. habil. Björn W. Schuller
2. Berichter: Prof. Dr.-Ing. Werner Hemmert
Tag der mündlichen Prüfung: 20.01.2015
Martin Wöllmer. Context-Sensitive Machine Learning for Intelligent Human Behavior Analysis.
Dissertation, Technische Universität München, 2013.
Intelligent automatic human behavior analysis is an essential precondition for conversational agent systems that aim to enable natural, emotionally sensitive human-computer interaction. This thesis focuses on automatic verbal and non-verbal behavior analysis and introduces novel speech processing and machine learning architectures that are capable of inferring the spoken content as well as the affective state from the speech signal.
1. Berichter: PD Dr.-Ing. Björn Schuller
2. Berichter: Prof. Dr. André, Elisabeth
Tag der mündlichen Prüfung: 06.02.2013
Prof. Ruske
Stefan Schwärzler. Graphische Modelle im natürlichsprachlichen Mensch-Maschine-Dialog.
Dissertation, Technische Universität München, 2010.
In this thesis, procedures of natural spoken human-machine dialog are consistently modeled with graphical models using the example of automatic flight information systems. The recognition of semantic phrases of words from the speech recognizer is realized by a two-stage graphical model, which combines stochastic and rule-based methods. To develop strategies for a natural dialog flow from these word phrases, a discrete hidden Markov model is used. The system can adjust fast to modified situations and remains flexibly deployable due to the evaluation of the dialog strategy in run time. The developed graphical models are analyzed theoretically, training algorithms are derived and experiments for each procedure are carried out. Finally, possibilities for realizations based on software agents and their expandability are pointed out.
1. Berichter: apl. Prof. Dr.-Ing. habil. G. Ruske
2. Berichter: Univ.-Prof. Dr. rer. nat. habil. A. Brüggemann-Klein
Tag der mündlichen Prüfung: 15.01.2010
Tobias Moosmayr. Objektivierung von transienten Störgeräuschen im Fahrzeuginnenraum.
Dissertation, Technische Universität München, 2009.
Erschienen in Fortschritt-Berichte VDI, Reihe 12, Nr. 705, VDI Verlag, Düsseldorf, ISBN 978-3-18-370512-2.
Transiente Störgeräusche im Fahrzeug, die durch das Aneinanderreiben und -schlagen von Interieurmaterialien entstehen, vermitteln dem Kunden den Eindruck minderer Qualität. Die vorliegende Arbeit stellt ein objektives Verfahren vor, das diese Geräusche kundennah bewertet und priorisiert. Bisherige Methoden beschränken sich rein auf die Auswertung des Störgeräuschs im Luftschall. Die Bewertung des vorliegenden Verfahrens basiert auf der gemeinsamen Betrachtung von Luftschallsignalen und verschiedenen Fahrzeuganregungen. Der erste Teil fokussiert sich auf die Anregung, welche entweder bei einer Fahrt über raue Straßen oder am Prüfstand ins Fahrzeug eingeleitet wird. Die Anregungssignale des Prüfstands sind Siniussweeps und Rauschsignale. Ihre Wirkung auf Störgeräusche wird näher beleuchtet. Die Luftschallanalyse des zweiten Teils untersucht bei unterschiedlichen Anregungsstufen das Fahrzeuginnengeräusch und dokumentiert, wann welches Störgeräusch detektiert worden ist. Zudem werden alle gleichklingenden Störgeräusche gruppiert und priorisiert. Die Bewertung und Priorisierung erfolgt aus dem Zusammenspiel von Detektion und Anregungsstufe. Störgeräusche, die bereits bei niedriger Anregung auftreten, sind demnach lästiger als solche, die erst bei starker Straßenanregung hörbar sind.
1. Berichter: apl. Prof. Dr.-Ing. habil. G. Ruske, i.R.
2. Berichter: Univ.-Prof. Dr. rer.nat. H. Bubb, i.R.
Tag der mündlichen Prüfung: 29.6.2009
Ronald Römer. Robuste Spracherkennung auf der Basis recheneffizienter auditiver Modelle.
Dissertation, Technische Universität München, 2009.
This study focuses on the integration of basic properties of the peripheral auditory system and the central auditory system in an unified auditory model with noise suppression (VAMIG) that can be used in real time. The model is able to generate auditory features in several occurrences for automatic speech recognition systems. In order to assess the behaviour of the different VAMIG occurrences the robustness as well as the recognition rates of the corresponding auditory features are investigated and compared to each other using utterances from the Aurora 2 database with different background noises and varying noise intensities.
1. Berichter: apl. Prof. Dr.-Ing. habil. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. habil. R. Hoffmann, Technische Universität Dresden
Tag der mündlichen Prüfung: 10.03.2009
Ulrich Türk. Compensation Techniques for Network Mismatch in Telephone-Based Speaker Verification.
Dissertation, Technische Universität München, 2008.
Typically the performance of speech related recognition tasks degrades when the acoustical characteristics of the speech data in the training phase differ from those of the application phase. In this work an adaptation technique based on the MLLR algorithm is developed for automatic speaker verification systems. It adapts HMM speaker models trained on fixed telephone data for usage with recordings from the GSM network. The adaptation can be performed with a single parameter set affecting the complete speaker model or by several sets which operate on acoustic or phonetic sub-clusters of the model. Different variants of the approach are investigated and evaluated using the German VeriDat speech database. The adaptation deploying speaker-dependent parameter sets leads to a higher performance improvement than the standard Baum-Welch retraining technique.
1. Berichter: apl. Prof. Dr.-Ing. habil. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. G. Färber
Tag der mündlichen Prüfung: 22.02.2008
Tibor Fabian. Confidence Measurement Techniques in Automatic Speech Recognition and Dialog Management.
Dissertation, Technische Universität München, 2008.
Erschienen im: Der Andere Verlag, Tönning, Lübeck und Marburg, ISBN 978-3-89959-755-4. (PDF, 1740 kB)
Reliable confidence measures are essential to the basis of decisionmaking for enriching human-machine speech interaction with necessary intelligence in ergonomic dialog management. In addition to a survey of the state of the art in confidence measurement, this work provides classification of methods derivated from several points of view and describes possible fields of application. The key contribution of the dissertation is the description of utilization techniques that rely on confidence measurement and are intended to enhance the performance of speech recognition systems. A novel confidence-guided approach is presented to control the pruning of the Viterbi search process dynamically by taking variable search quality into consideration to fit time-variant requirements. The thesis explores dialog management strategies and several aspects of improving user acceptance in speech-based applications by the use of confidence measurement.
1. Berichter: apl. Prof. Dr.-Ing., Dr.-Ing. habil. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. habil. R. Hoffmann (Technische Universität Dresden)
Tag der mündlichen Prüfung: 30.05.2008
Sergey Astrov. Optimization of algorithms for large vocabulary isolated word recognition in embedded devices.
Dissertation, Technische Universität München, 2007.
Automatic speech recognition requires high processing power and a high amount of memory. Main algorithms in speech recognition (computation of emission probabilities and Viterbi search) are very memory and computation consuming. Modern workstations, personal computers and servers have sufficient memory and processing power, but embedded devices are limited in these resources. Speech recognition in embedded devices should have an acceptable trade-off in memory, processing power consumption and recognition quality. Several memory saving approaches and fast algorithms were investigated and the following results were achieved: The memory consumption of acoustic models after coding is decreased by 67% (reduction from 104 to 34 KB). The relative increase of word error rate in recognition is less than 10%. The fast computation of emission probabilities requires three times less computations than the baseline algorithm. The emission computation task requires only 8.2 MHz for speech recognition with a 30-word vocabulary, the baseline algorithm requires at least 28.9 MHz on an ARM microcontroller. The new search process on isolated word recognition tasks with a vocabulary of 1500 words requires less than 17 MHz on an ARM processor and 160 KB of memory. The fast computation of emission probabilities and the compact coding of acoustic model parameters is based on a streams approach. A set of 24-dimensional vectors from acoustic models is divided into streams: in case of 3-dimensional (3-D) streams, the first stream contains 1st, 2nd and 3rd components (dimensions) of vectors, the second stream contains 4th, 5th and 6th components of vectors, and so on. All 3-D stream vectors within each stream are coded by means of vector quantization. Only one shared codebook is used for all streams instead of several codebooks for each dimension, this decreases the memory consumption further. Distances between feature vector and vectors from acoustic models must be computed during the recognition. This process is performed every 15 ms and requires high amount of computations. For acoustic models with streams these computations are accelerated. In the first step, all possible distances are computed for all stream vectors from the codebook and stored in memory. This is possible because the codebook has a limited number of vectors. In the second step, the distances between feature vector and vectors from acoustic models are computed as a sum of the partial distances of stream vectors. For 3-D streams the computation costs are reduced by 66%. In order to accelerate the search process, a tree structure is combined with a word stem structure. The new search algorithm takes advantages from both approaches. In a tree structure the words starting with identical phonemes are processed together, the merged word parts with identical phonemes are processed only once during a search iteration, thus, the computation is accelerated. The tree structure requires less memory than the linear structure because the phonemes in similar word parts are stored inmemory only once. From the word stem search the new algorithm takes an advantage of stems (linear sequences of HMM states): the regular linear structures of stems are fast to process, the data for every stem is stored compactly in memory that is why the memory cache is used efficiently. The presented algorithms were tested. With these algorithms the large vocabulary speech recognition becomes possible for embedded devices.
1. Berichter: apl. Prof. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. H. Ney (RWTH Aachen)
Tag der mündlichen Prüfung: 26.02.2007
Robert Lieb. Efficient Integration of Hierarchical Knowledge Sources and the Estimation of Semantic Confidences for Automatic Speech Interpretation.
Dissertation, Technische Universität München, 2006.
This thesis presents a system for the interpretation of natural speech which serves as input module for a spoken dialog system. It carries out the task of extracting application-specific pieces of information from the user utterance in order to pass them to the control module of the dialog system. By following the approach of integrating speech recognition and speech interpretation, the system is able to determine the spoken word sequence together with the hierarchical utterance structure that is necessary for the extraction of information directly from the recorded speech signal. The efficient implementation of the underlying decoder is based on the powerful tool of weighted finite state transducers (WFSTs). This tool allows to compile all involved knowledge sources into an optimized network representation of the search space which is constructed dynamically during the ongoing decoding process. In addition to the best-matching result, the integrated decoder architecture allows to determine grammatical alternatives which are exploited to estimate semantic confidence values for the extracted pieces of information. This new method improves the robustness against interpretation errors without requiring any additional knowledge source.
1. Berichter: apl. Prof. Dr.-Ing. G. Ruske
2. Berichter: Univ-Prof. Dr.-Ing. G. A. Fink (Universität Dortmund)
Tag der mündlichen Prüfung: 3.11.2006
Matthias Thomae. Hierarchical Language Modeling for One-Stage Stochastic Interpretation of Natural Speech.
Dissertation, Technische Universität München, 2006.
The thesis deals with automatic interpretation of naturally spoken utterances for limited-domain applications. Specifically, the problem is examined by means of a dialogue system for an airport information application. In contrast to traditional two-stage systems, speech recognition and semantic processing are tightly coupled. This avoids interpretation errors due to early decisions. The presented one-stage decoding approach utilizes a uniform, stochastic knowledge representation based on weighted transition network hierarchies, which describe phonemes, words, word classes and semantic concepts. A robust semantic model, which is estimated by combination of data-driven and rule-based approaches, is part of this representation. The investigation of this hierarchical language model is the focus of this work. Furthermore, methods for modeling out-of-vocabulary words and for evaluating semantic trees are introduced.
1. Berichter: apl. Prof. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr. phil. nat. H. Seidl, TU München
Tag der mündlichen Prüfung: 27.04.2006
Robert Faltlhauser. Erzeugung robuster akustisch-phonetischer Modelle für die automatische Spracherkennung durch explizite Gruppenbildungen.
Dissertation, Technische Universität München, 2003.
Subject of this work is the adaptation of an automatic speech recognition system towards different speakers as well as speaking rates. Adaptation is done using explicit model grouping, which allows a compromise between specialization on the one hand and robust parameter estimation on the other hand. The focus is set on the grouping of HMM states by means of decision tree based approaches. For model selection in the recognition phase appropriate classification strategies are presented. Moreover, a new Eigenvoice-based training algorithm is presented and discussed.
1. Berichter: apl. Prof. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. habil. R. Hoffmann (Technische Univ., Dresden)
Tag der mündlichen Prüfung: 08.01.2003
Josef G. Bauer. Diskriminative Methoden zur automatischen Spracherkennung für Telefon-Anwendungen.
Dissertation, Technische Universität München, 2001.
The goal of this work is to optimize the recognition accuracy of a system for automatic speech recognition. For this purpose discriminative methods are applied for parameter estimation of Hidden-Markov-Models. The Minimum-Classification-Error training algorithm is extended in order to allow an easy, fast and direkt application in practice. Among others a method for adjusting the step width of a gradient search was developed. A large series of consistent experiments in strong relation to real word applications show the effectiveness of the proposed methods.
1. Berichter: apl. Prof. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. G. Färber
Tag der mündlichen Prüfung: 11.07.2001
Thilo Pfau. Methoden zur Erhöhung der Robustheit automatischer Spracherkennungssysteme gegenüber Variationen der Sprechgeschwindigkeit.
Dissertation, Technische Universität München, 2000.
In dieser Arbeit werden verschiedene Ansätze zur Erhöhung der Robustheit automatischer Spracherkennungssysteme gegenüber Variationen der Sprechgeschwindigkeit untersucht. Die Basis bilden Hidden Markov Modelle (HMMs). Im Rahmen einer Reduktion von Intramodell-Variationen wird eine Sprechgeschwindigkeitsnormierung durch Interpolation, ein Verfahren zur Sprechernormierung und zwei Methoden zur Modellierung von Aussprachevarianten vorgestellt. Für eine Anpassung des Systems an unterschiedliche Sprechgeschwindigkeiten wird das Maximum Aposteriori Training zur Schätzung von HMM-Parametern ausführlich diskutiert und ein neuartiges merkmals- und regelbasiertes Verfahren zur Bestimmung der Sprechgeschwindigkeit präsentiert.
1. Berichter: apl. Prof. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. G. Hauske
Tag der mündlichen Prüfung: 04.10.2000
Jochen Junkawitsch. Detektion von Schlüsselwörtern in fließender Sprache.
Dissertation, Technische Universität München, 2000.
Erschienen im Shaker Verlag Aachen, Reihe "Berichte aus der Informatik", 2000, ISBN 3-8265-7787-6.
Der Gegenstand der vorliegenden Arbeit ist die Entwicklung eines neuartigen Verfahrens für Keyword-Spotting, das auf die speziellen Anforderungen der Schlüsselwortdetektion ausgerichtet ist und auf der direkten Optimierung eines Konfidenzmaßes beruht. Es werden vier verschiedene Möglichkeiten zur Definition von Konfidenzmaßen hergeleitet und zwei alternative Suchalgorithmen entwickelt, die eine Optimierung dieser Konfidenzmaße gewährleisten. Ausführliche Experimente bestätigen die Effektivität des vorgestellten Verfahrens, indem die Figure-Of-Merit von 81.5% auf 87.9% gesteigert wird.
1. Berichter: apl. Prof. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. E. Paulus, TU Braunschweig
3. Berichter: Univ.-Prof. Dr.-Ing. W. Entenmann
Tag der mündlichen Prüfung: 07.07.2000
Franz Wolfertstetter. Verallgemeinerte stochastische Modellierung für die automatische Spracherkennung.
Dissertation, Technische Universität München, 1996.
Erschienen im Shaker Verlag Aachen, Reihe "Informatik", ISBN 3-8265-2312-1.
Die Arbeit behandelt am Beispiel natürlicher Sprache die Probleme und Lösungen bei der stochastischen Modellierung und Klassifikation von Signalen, die stark von Zufallsprozessen bestimmt sind. Der Schwerpunkt liegt in der Nachbildung des Signalverlaufs mit neuartigen stochastischen Markov-Graphen, die als ein sich verzweigendes und wieder rekombinierendes Pfadsystem mit Zuständen variabler Streuung interpretiert werden können. Zum Training der Modellparameter werden das sogenannte "Maximum-Likelihood"- und diskriminative Verfahren gegenübergestellt. Für die Verarbeitung fließender Sprache wird ein System zum Training und zur Erkennung mit beliebig strukturierten stochastischen Modellen entwickelt.
1. Berichter: Priv.-Doz. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. H. Ney (RWTH Aachen)
Tag der mündlichen Prüfung: 20.12.1996
Wolfgang Reichl. Diskriminative Lernverfahren für die automatische Spracherkennung.
Dissertation, Technische Universität München, 1996.
Erschienen im Shaker Verlag Aachen, Reihe "Informatik", ISBN 3-8265-1554-4.
In dieser Arbeit werden verschiedene Ansätze zur Erhöhung der Erkennungsleistung eines automatischen Spracherkennungssystems durch diskriminative Lernverfahren untersucht und experimentell überprüft. Ihre Verwandtschaft mit Algorithmen für das Lernen neuronaler Netze wird aufgezeigt. Die stochastische Modellierung der sprachlichen Einheiten erfolgt durch Hidden-Markov-Modelle oder mit einem hybriden Ansatz aus neuronalen Netzen und Hidden-Markov-Modellen. Die klassische Maximum-Likelihood-Schätzung für die Modellparameter betrachtet die Modelle unabhängig voneinander, während die diskriminativen Lernverfahren die Modelle gezielt auf ihre Unterscheidbarkeit optimieren.
1. Berichter: Priv.-Doz. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. E. Paulus (Technische Universität Braunschweig)
Tag der mündlichen Prüfung: 19.06.1996
Bernd Plannerer. Erkennung fließender Sprache mit integrierten Suchmethoden.
Dissertation, Technische Universität München, 1995.
Die Arbeit beschreibt ein System zur sprecherunabhängigen Erkennung fließend gesprochener Sprache bei großen Wortschätzen. Hierzu wurde ein integriertes Suchverfahren mit einer besonders flexiblen Systemarchitektur entwickelt. Experimentelle Untersuchungen zur Robustheit der verwendeten Hidden-Markov-Modelle sowie des Gesamtsystems weisen die Funktionsfähigkeit nach. Ein Verfahren zur Integration weiterer akustischer Wissensquellen wird vorgestellt.
1. Berichter: Priv.-Doz. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr.-Ing. W. Heß (Universität Bonn)
Tag der mündlichen Prüfung: 15.09.1995
Manfred Beham. Merkmalsextraktion und Regelgewinnung für die automatische Spracherkennung.
Dissertation, Technische Universität München, 1995.
In dieser Arbeit wird ein regelbasiertes Spracherkennungssystem entwickelt, das für die akustisch-phonetische Analyse Methoden zur automatischen Wissensgewinnung einsetzt. Es werden spezielle Merkmale definiert und ein unscharfes Regelwerk ("Fuzzy-Logik") aufgestellt, das stufenweise komplexere Ereignisse modelliert, bis zuletzt alle deutschen Sprachlaute und damit ganze Wörter oder Sätze erkannt werden. Den Schwerpunkt bilden neue Lernverfahren, die die nötigen Regeln zur Verknüpfung der Merkmale automatisch generieren. Die Regeln werten einerseits statische spektrale Merkmale aus, während die zeitliche Modellierung mit einem modifizierten Viterbi-Algorithmus erfolgt, der der stochastischen Modellierung entstammt.
1. Berichter: Priv.-Doz. Dr.-Ing. G. Ruske
2. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
Tag der mündlichen Prüfung: 13.03.1995
Prof. Lang
Björn Schuller. Automatische Emotionserkennung aus sprachlicher und manueller Interaktion.
Dissertation, Technische Universität München, 2006.
Affective Computing establishes the basis of natural future Human-Computer Communication. Within this context this thesis focuses on a variety of innovative approaches towards a robust Automatic Emotion Recognition out of spoken and manual Interaction. On the signal layer evolutionary generation and selection of novel features are introduced. In view of optimal performance extensive test-runs are carried out comparing dynamic modelling and statistical time-series analysis as well as diverse classification and ensemble construction techniques. The interpretation of the spoken content of affective utterances boosts overall robustness and enables emotion recognition out of written text. An excurse in the field of Automatic Speech Recognition and String-Matching covers the problem of text capturing. Finally, a synergistic multimodal fusion of all information is realised. Three scenarios – robust speech processing, music information retrieval and in-car interaction – demonstrate applicability in the field and transfer of acquired methods.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang, i.R.
2. Berichter: Univ.-Prof. Dr.-Ing. J. Hagenauer
Tag der mündlichen Prüfung: 07.06.2006
Frank Althoff. Ein generischer Ansatz zur Integration multimodaler Benutzereingaben.
Dissertation, Technische Universität München, 2004.
Based on the results of an extensive usability study, a generic concept for processing multimodal user input is introduced in this paper. The underlying system architecture operates on an abstract level by decoding arbitrary input in a semantic form. Therefore, the system is independent of both the number and type of input devices and the application domain. An innovative hybrid integration algorithm is discussed that is inspired by the principles of natural evolution. Multiple solution hypotheses compete with each other for an optimal interpretation of the user interaction. The certainty of an integration result is calculated according to a statistically weighted score, which includes the semantic representation of the current user input, the temporal relations of the symbol sequences, the status of the individual system modules, empirical user data and previous integration results. Special genetic operators recombine characteristics of good solutions and create new integration hypotheses in an iterative process. In combination with a rule-based pre-processing for the segmentation of associated input data, the proposed method facilitates a flexible, intuitive and error-robust human machine dialog. Finally, the effectiveness of the developed system is shown by various demonstrators.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang, i.R.
2. Berichter: Univ.-Prof. G. J. Klinker Ph. D.
3. Berichter: Univ.-Prof. Dr.-Ing. E. Steinbach
Tag der mündlichen Prüfung: 06.10.2004
Michael Geiger. Berührungslose Bedienung von Infotainment-Systemen im Fahrzeug.
Dissertation, Technische Universität München, 2003.
The existing paper describes the realization of a complete concept for a non-contact operation of an infotainment system in motor vehicles. Of main interest thereby is the visual interaction by means of dynamic hand and head gesture. By means of the ergonomic utilization of human capacities, the driver shall be provided with an interaction as natural and intuitive as possible. Based on very positive results of profound usability studies a gesture optimized operation environment is developed. This proves to be widely intuitively operable as well as less distracting due to usability tests made during the process of development and finds broad acceptance. Furthermore, a new technology is introduced, which enables a robust automotive recognition of hand and head movements. It is based on feature extraction by means of infrared distance sensor arrays and delivers high recognition rates under real time conditions with an extremely low requirement for computing power.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang, i.R.
2. Berichter: Univ.-Prof. Dr.-Ing. K. Diepold
Tag der mündlichen Prüfung: 27.10.2003
Marc Hofmann. Intentionsbasierte maschinelle Interpretation von Benutzeraktionen.
Dissertation, Technische Universität München, 2003.
The main topic of this work is a method for interpreting user actions, starting from all potential intentions of the user. For the classification of the users goal the intention-based approach doesnt reconstruct the original input, but evaluates the features of an action regarding all potential intention hypotheses by considering context knowledge. This allows a robust classification even under noisy conditions. The assumed context knowledge is encoded in intention models, which statistically describe characteristic syntactic-semantic relations between action features and the intention hypotheses. The intention models are based on Bayesian belief networks and act as classifier of the intention-based approach. Besides developing the theoretical fundament the intention-based approach is applied to a number of classical tasks of the research area of human-machine-interaction. That results in innovative contributions to speech understanding, plan recognition, user modelling and gesture recognition.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang, i. R.
2. Berichter: Univ.-Prof. Dr.-Ing. J. Eberspächer
Tag der mündlichen Prüfung: 16.10.2003
Jörg Hunsinger. Multimodale Erfassung mathematischer Formeln durch einstufig-probabilistische semantische Decodierung.
Dissertation, Technische Universität München, 2003.
The main topic of this thesis is a novel method for the automatic acquisition of mathematical formulas using natural handwriting, speech, and pen gestures. The proposed approach features the integration of all necessary system components in an expectation-driven, single-stage probabilistic decoding procedure which transforms online handwritten and spoken input to a semantic representation of mathematical formulas. An innovation in the field of online formula recognition lies in a statistical assessment of two-dimensional symbol distributions - including also font size variations - within the framework of a context-free grammar. Thus, the structural formula analysis is smoothly embedded into this integral system architecture. As a result, this approach greatly simplifies the problem of character segmentation. Another system feature is the automatic translation of handwritten and typeset formulas into spoken output.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr. rer. nat. J. Schlichter
3. Berichter: Univ.-Prof. Dr.-Ing. E. Steinbach
Tag der mündlichen Prüfung: 10.03.2003
Bernhard Niedermaier. Entwicklung und Bewertung eines Rapid-Prototyping Ansatzes zur multimodalen Mensch-Maschine-Interaktion im Kraftfahrzeug.
Dissertation, Technische Universität München, 2003.
On the basis of a requirements analysis this dissertation contributes to the development of the theoretical foundation of rapid-prototyping tools for multimodal user interfaces in the automotive environment. The basic principles of the dialog-specification are a context-free and therefore generically applicable modeling of the modalities as well as a formal representation of the man-machine dialog. Thereon measures are described, which can be deployed during the specification process and have the capability to ensure a high usability while driving. Furthermore a heuristics for the execution of the dialog-specification is described. Based on the thereby built reference implementation a usability study has been conducted. The results show a high suitability of the proposed concepts and a very well comprehensibility for user-interface developers.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr.-Ing. Dr.-Ing. E.h. G. Schmidt
Tag der mündlichen Prüfung: 24.02.2003
Stephan Demmerer. Simulation von Schallfeldern am Kraftfahrzeug.
Dissertation, Technische Universität München, 2002.
The present work describes the development of an experimental and mathematical method for the simulation of acoustic noisefields. In a first step fundamental notations were presented and verified by an principle experiment. With this, a new method for localization of noisesources was derived. The resolution was compared to theoretical considerations. Based on this fundamentals, a method for the simulation of external noisefields of vehicles was developed. This method allows to determine the noise ranking of the partial noise sources. Furthermore a method for analyzing and calculating the internal noisefields inside the drivercabine was developed.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr. rer. nat. H. Kinder
Tag der mündlichen Prüfung: 24.04.2002
Lars Witta. Entwurf und Realisierung interaktiver modaler Berechnungs- und Optimierverfahren für gekoppelte Struktur-Fluid-Systeme.
Dissertation, Technische Universität München, 2001.
Erschienen im Hieronymus Verlag München, Reihe "Strukturdynamik", ISBN 3-89791-232-5.
Mit Hilfe einer neuartigen Kopplungsbedingung wird die Bewegungsgleichung eines mit schallabsorbierendem Material ausgekleideten Struktur-Hohlraum-Systems aufgestellt und modal gelöst. Das modale Lösungsverfahren wird zum sogenannten "modalen Korrekturverfahren" erweitert, mit dem es gelingt, den Rechenzeitbedarf für die Berechnung von Modellvarianten und die automatische Optimierung solcher Systeme drastisch zu senken. Die durch die modalen Verfahren bedingten Näherungsfehler werden untersucht, und quantitativ erfaßt. Es wird die Realisierung eines interaktiven Programmsystems beschrieben, welches die Vorteile, die sich durch den Einsatz der entwickelten Methoden ergeben, demonstriert.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr. techn. J. Swoboda
Tag der mündlichen Prüfung: 26.07.2001
Dietmar Mass. Schnelle rechnerische Komfortoptimierung von Kraftfahrzeugen mittels modaler Korrektur.
Dissertation, Technische Universität München, 2001.
Ausgehend von einer Energieschreibweise der Bewegungsgleichungen eines gekoppelten Struktur-Hohlraum-Systems wird ein Verfahren entwickelt, das auf der Basis modaler Korrekturen eine Berechnung von Modifikationen in gegenüber konventioneller Finite-Elemente-Rechnung drastisch reduzierter Zeit ermöglicht. Es erlaubt auch das Einbinden experimenteller Methoden, um die Modellierunsgüte des Rechenmodells zu verbessern. In grundlegenden und praxisbezogenen Beispielen wird die Leistungsfähigkeit des Verfahrens demonstriert und seine Anwendungsmöglichkeiten zur Berechnung komfortrelevanter Fahrzeugeigenschaften, wie Schwingungsverhalten und Innenraumakustik, dargestellt.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr.-Ing. K. Antreich
Tag der mündlichen Prüfung: 26.07.2001
Robert Neuss. Usability Engineering als Ansatz zum multimodalen Mensch-Maschine Dialog.
Dissertation, Technische Universität München, 2001.
Multimodal Human Machine Interaction is intended to improve the usage of software by free adoption of communication channels like speech and gesture. This dissertation first examines single modalities to draw up the properties of a multimodal System. Due to the principles of usability engineering a prototype is constructed in the next step with the objective of performing user tests. This system is integrated into a driving simulator to provide the operation of components like car radio, navigation device or cellular phone and is built up in several iterations with continuous tests and improvements. The results of this work are user adequate design and practical experience with the new technologies.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr.-Ing. G. Färber
Tag der mündlichen Prüfung: 13.06.2001
Peter Morguet. Stochastische Modellierung von Bildsequenzen zur Segmentierung und Erkennung dynamischer Gesten.
Dissertation, Technische Universität München, 2000.
In this thesis the development of a computer vision based system for the hand gesture controled man machine dialog is presented. For the temporal segmentation and classification of gestural movements in the continuous video stream two alternative approaches based on the stochastic modeling with the help of partially modified and extended hidden Markov models are introduced. To adapt the spatio-temporal image sequences of the video stream to the serial processing of the hidden Markov models several feature extraction methods are developed and comparatively examined. As an example application the implementation of a three-dimensional scene editor working in real-time is described. Using the concept of indirect manipulation requiring dynamic gestures even complex actions can be controled intuitively.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr.-Ing. J. Hagenauer
Tag der mündlichen Prüfung: 06.12.2000
Angela Engels. Aufmerksamkeitsbasierte Lokalisierung und Bewertung relevanter Information auf Papierdokumenten.
Dissertation, Technische Universität München, 2000.
This work describes a novel, attention-based view of documents in a sender-receiver-model (author-reader-model). According to this attention-based view, the author of a document marks up relevant information on the document using conspicuous layout features. These layout features attract a reader's attention at first glance and enable him to efficiently extract relevant information from the document. This human mechanism is transferred into a new technical method, that localizes relevant information using exclusively the image of a scanned paper document, and that evaluates the relevance of one piece of information as compared to the others on the document. In connection with this transfer, three topics are of major interest: 1. As the reader's attention is drawn towards conspicuous, i.e. visually attractive document parts, a measure for the visual attractiveness of each object on the document's image is calculated. According to the basic idea, this measure of attractiveness is an implicit measure of relevance for the underlying content. 2. The psychological texton theory explains the human visual attention by texture perception, so the technical method determines conspicuous layout features by texture analysis of the document. For use in the technical context, this work describes the texton theory's notion of texture and its implications in a formal mathematical way. 2. When defining the measure of attractiveness, the subjective perception of attractiveness for different layout features is accounted for by using different weights. Initial values of these subjective weights are estimated from a survey amongst test persons. Test persons are also needed for the final test of the method, where the perceived attractiveness of all test documents' parts is compared to the calculated measure of attractiveness. The final test indicates a large correlation between the calculated measure of attractiveness and the human perception of attractiveness. Additionally, a key-sentence extraction algorithm based on the measure of attractiveness produces quite plausible summaries of the analysed document.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr. rer. nat. A. Dengel, DFKI Kaiserslautern
Tag der mündlichen Prüfung: 02.08.2000
Christian Krapichler. Eine neue Mensch-Maschine-Schnittstelle für die Analyse medizinischer 3D-Bilddaten in einer virtuellen Umgebung.
Dissertation, Technische Universität München, 1999.
Erschienen im Herbert Utz Verlag München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-587-0.
Durch die Entwicklung neuer Verfahren der 3D-Visualisierung und der intuitiven räumlichen Interaktion entstand ein VR-System, mit dem alle Arbeitsschritte der digitalen medizinischen Bildanalyse durchgeführt werden können. Die neuen Interaktionsmethoden umfassen die Analyse von Handgestik, Sprachverstehen und den Einsatz von VR-Eingabegeräten ebenso wie innovative virtuelle Werkzeuge. Im Vergleich zur heute üblichen Darbietung unzähliger Schichtaufnahmen erleichtert der Einsatz des entwickelten VR-Systems das Erfassen und analysieren räumlicher Zusammenhänge und die weitere Verarbeitung der tomographischen Bilddaten. Durch die an die menschlichen Sinne und Fähigkeiten angepaßten Darstellungs- und Interaktionsformen ist es dem Mediziner möglich, den gesamten Arbeitsablauf in einer Zeitspanne zu bewältigen, die den Einsatz im klinischen Alltag erlaubt.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Priv.-Doz. Dr. sc. hum., Dr. rer. biol. hum. habil. K.-H. Englmeier (GSF, Neuherberg)
Tag der mündlichen Prüfung: 29.6.1999
Udo Bub. Anwendungsspezifische Online-Anpassung von Hidden-Markov-Modellen in automatischen Spracherkennungssytemen.
Dissertation, Technische Universität München, 1999.
Die Arbeit befaßt sich mit den Problemen, die in der automatischen Spracherkennung entstehen, wenn zwischen dem Trainings- und Testdatensatz eine Fehlanpassung vorliegt. Insbesondere Ungleichheiten bei den akustisch-phonetischen Lautkontexten führen zu einer verschlechterten Erkennung. Diesem Trend wird durch neuartige Lernalgorithmen entgegengewirkt, die während der Anwendungsphase online ablauffähig sind. Bei unüberwachtem Lernen kann bei 6000 Adaptionswörtern die Fehlerrate um 56 % gesenkt werden, bei überwachtem Lernen um 67 %. Dies entspricht der Erkennung eines Modells, das im Falle des Vorliegens geeigneter Sprachdatenbanken hätte trainiert werden können.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Prof. Dr. techn. H. Schwärzel
3. Berichter: Univ.-Prof. Dr.-Ing. E. Paulus (TU Braunschweig)
Joachim Köhler. Erstellung einer statistisch modellierten multilingualen Lautbibliothek.
Dissertation, Technische Universität München, 1999.
Erschienen im Shaker Verlag Aachen, Reihe "Berichte aus der Informatik", ISBN 3-8265-7154-1.
Die vorliegende Arbeit beschreibt die Entwicklung einer multilingualen Lautbibliothek für die statistische Spracherkennung. Dazu werden die akustisch-phonetischen Ähnlichkeiten zwischen verschiedenen Sprachen ausgenutzt. Basierend auf der HMM-Technologie werden Verfahren entwickelt, mit denen die sprachspezifischen Modelle in multilinguale Lautmodelle überführt werden. Dadurch läßt sich eine drastische Einsparung von Modellparametern erreichen, ohne daß ein signifikanter Abfall der Worterkennungsrate auftritt. Im zweiten Teil der Arbeit werden dann Methoden zur Portierung der multilingualen Sprachlaute in neue Sprachen entwickelt und beschrieben.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr.-Ing. W. Hess (Universität Bonn)
Eingereicht am: 22.6.1999
Henning Lenz. Entwicklung nichtlinearer, diskreter Regler zum Abbau von Verkehrsflußinhomogenitäten mithilfe makroskopischer Verkehrsflußmodelle.
Dissertation, Technische Universität München, 1999.
Erschienen im Shaker Verlag Aachen, Reihe "Berichte aus der Steuerungs- und Regelungstechnik", ISBN 3-8265-4997-X.
Ein Schema für die Entwicklung nichtlinearer Regler wurde vorgestellt, mit dem Ziel, Inhomogenitäten im Straßenverkehr abzubauen. Die Anforderungen an einen derartigen Regler wurden modellunabhängig formuliert. Eine Datenanalyse zeigte, daß Geschwindigkeitsbegrenzungen so geschaltet werden können, daß sie diese Anforderungen erfüllen. Für einen effizienten Abbau von Stop-&-Go-Wellen bietet sich eine im Ort vorausschauende Strategie an. Weitere Anwendungen in der Verkehhrstechnik wurden dargestellt.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Hon.-Prof. Dr. rer. nat. habil B. Schürmann (Universität Frankfurt)
Tag der mündlichen Prüfung: 04.02.1999
Christoph Wagner. Verkehrsflußmodelle unter Berücksichtigung eines internen Freiheitsgrades.
Dissertation, Technische Universität München, 1997.
Ausgehend von einer kinetischen Verkehrsgleichung auf einem durch die Wunschgeschwindigkeit der Fahrer erweiterten Ort-Geschwindigkeit-Phasenraum wird durch Momentenbildung ein verbessertes makroskopisches Verkehrsflußmodell abgeleitet. Das Modell zeigt ein realistisches dynamisches Verhalten über den gesamten Dichtebereich und liefert neben der genauen Form und der funktionalen Abhängigkeit von bisher nur heuristisch eingeführten Termen der Modellgleichungen auch die dazugehörigen Transportkoeffizienten. Weiterhin erlaubt der zusätzlich eingeführte Freiheitsgrad und die davon abgeleiteten Größen nun eine direkte Modellierung von Regeleingriffen.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr. rer. nat. B. Schürmann (Universität Frankfurt)
3. Berichter: Priv.-Doz. Dr. rer. nat. H. Hofmann (Physik-Department Garching)
Tag der mündlichen Prüfung: 26.11.1997
Robert Zwickenpflug. Entwurf und Realisierung eines Systems zur Erstellung von verteilten Anwendungen für kontinuierliche Medien.
Dissertation, Technische Universität München, 1997.
Erschienen im Herbert Utz Verlag München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-271-5.
Zur Erstellung von modularen verteilten Anwendungen für kontinuierliche Medien wird ein Client-Server-System vorgestellt. Es erlaubt, Dienste in für den Endbenutzer einfach zu handhabender Art und Weise auf einem Rechnernetz zu verteilen und mehreren Benutzern zugänglich zu machen. Dienste können über definierte Anschlüsse miteinander kommunizieren. Jeder Benutzer kann neue Dienste in das Rechnernetz an einer von ihm frei wählbaren Stelle einbringen und diese untereinander und mit bereits vorhandenen Diensten verbinden. Er kann bei diesen Verbindungen auch Dienste mitverwenden, die von einem anderen Benutzer eingebracht worden sind.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr.-Ing. J. Eberspächer
Tag der mündlichen Prüfung: 17.11.1997
Holger Stahl. Konsistente Integration stochastischer Wissensquellen zur semantischen Decodierung gesprochener Äußerungen.
Dissertation, Technische Universität München, 1997.
Erschienen im Herbert Utz Verlag München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-219-7.
Diese Arbeit beschreibt die Entwicklung eines Systems zum Verstehen natürlicher, fließend gesprochener Sprache. Den Kern des Systems bildet ein semantischer Decoder, der das Sprachsignal einer Äußerung auf den zugehörigen Bedeutungsinhalt abbildet. Dazu wird eine Maximum-a-posteriori-Klassifikation durchgeführt, d.h. auf der Basis stochastischen Wissens wird der wahrscheinlichste Bedeutungsinhalt zum gegebenen Sprachsignal ermittelt. Die Einführung der semantischen Gliederung zur Repräsentation des Bedeutungsinhaltes und die konsistente, nahtlose Verknüpfung der stochastischen Wissensquellen ermöglichten eine äußerst effiziente Implementierung des semantischen Decoders mit hoher Treffsicherheit.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr. techn. J. Swoboda
Tag der mündlichen Prüfung: 31.07.1997
Johannes Müller. Die semantische Gliederung zur Repräsentation des Bedeutungsinhalts innerhalb sprachverstehender Systeme.
Dissertation, Technische Universität München, 1997.
Erschienen im Herbert Utz Verlag, München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-210-3.
Die semantische Gliederung wird als eine neuartige Repräsentation des Bedeutungsinhaltes einer gesprochenen Äußerung aus einer vorgegebenen Domäne innerhalb eines sprachverstehenden Systems vorgestellt. Da sie eine probabilistische Aussage über die ihr zugrundeliegende Wortkette erlaubt, wird die unmittelbare Decodierung einer Sprachsignal-Merkmalsvektorenfolge in eine solche semantische Gliederung durch einen rein stochastischen Algorithmus ermöglicht. Als Beispielapplikation wurde ein "sprachverstehender Grafikeditor" implementiert, mit dem dreidimensionale Objekte auf dem Bildschirm mit natürlichsprachlichen Kommandos erzeugt, verändert oder gelöscht werden können. Durch Übertragung der Algorithmen in einen "sprachverstehenden Serviceroboter" wurde der anschauliche Nachweis der System-Portabilität erbracht. Darüber hinaus ermöglicht die semantische Gliederung als Interlingua-Ebene die automatische Übersetzung von natürlicher, gesprochener oder geschriebener Sprache.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr.-Ing. G. Färber
Tag der mündlichen Prüfung: 27.06.1997
Hans-Jürgen Winkler. Entwurf und Realisierung eines auf statistischen Ansätzen basierenden Systems zur Erkennung handgeschriebener mathematischer Formeln.
Dissertation, Technische Universität München, 1997.
Erschienen im Herbert Utz Verlag, München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-216-2.
In dieser Arbeit wird ein System zur Erkennung handgeschriebener mathematischer Formeln vorgestellt. Die Problemstellung bestehend aus Symbolsegmentierung, -erkennung und struktureller Analyse wird hierbei mittels eines statistischen Ansatzes beschrieben und unter Verwendung von wissensbasierten und stochastischen Verfahren bearbeitet. Im Gegensatz zu den bisher vorgestellten Analysemethoden können somit Entscheidungsalternativen innerhalb der einzelnen Verarbeitungsstufen toleriert und im weiteren Verlauf durch neu erworbenes Wissen automatisch aufgelöst werden. Die erzielten Erkennungsergebnisse demonstrieren die Leistungsfähigkeit des realisierten Systems.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr. rer. nat. B. Radig
Tag der mündlichen Prüfung: 18.06.1997
Anton Obermaier. Modellierung des adaptiven Mensch-Maschine-Dialoges und experimentelle Untersuchungen an einem Prototypen.
Dissertation, Technische Universität München, 1996.
Die vorliegende Arbeit zeigt neue Prinzipien zum maschinell unterstützten Dialog zwischen Mensch und Computer. Als Versuchsumgebung wird dazu ein Intelligentes Tutorielles System (ITS) konzipiert und prototypisch realisiert. Tests mit Versuchspersonen demonstrieren, wie durch dynamische Bewertung mit Hilfe von Lernzielen eine permanente Benutzereinschätzung durchgeführt werden kann. Das Dialogverhalten und das Niveau der Tutorsitzung passen sich automatisch an die individuellen Bedürfnisse des Benutzers an.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr.-Ing. K. Antreich
Tag der mündlichen Prüfung: 21.03.1996
Hermann Klingele. Rekonstruktion des Schallfeldes um ein in Eigenmoden schwingendes Objekt unter Verwendung holographischer Schwingungsmeßtechniken.
Dissertation, Technische Universität München, 1995.
Mittels holographischer Interferometrie werden Schwingungen technischer Objekte berührungslos, flächenhaft und in aller drei Raumrichtungen vermessen. Zusätzlich erfolgt die Erfassung der Oberflächengestalt durch Verfahren der Streifenprojektion. Durch Verknüpfen beider Datensätze wird eine Randelemente-Beschreibung der schwingenden Oberfläche erstellt. Eine neuartige Variante des akustischen Randelementeverfahrens erlaubt die Berechnung des zugehörigen Schalldruckfeldes auch für sehr viel Knotenpunkte des Rechenmodells. Die Leistungsfähigkeit des Verfahrens wird experimentell demonstriert. Abschließend werden Anwendungen vorgestellt.
1. Berichter: Univ.-Prof. Dr. rer. nat. M. Lang
2. Berichter: Univ.-Prof. Dr. rer. nat. H.E. Gaub
Tag der mündlichen Prüfung: 27.02.1995
Prof. Terhardt
Claus von Rücker. Ein Verfahren zur Tonhöhenanalyse unter Berücksichtigung zeitlich-spektraler Kontrasteffekte.
Dissertation, Technische Universität München, 1999. Erschienen im Herbert Utz Verlag München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-696-6.
Die Arbeit beschreibt ein Verfahren zur Tonhöhenanalyse nichtstationärer Schallsignale. Es zeichnet sich durch die Berücksichtigung derjenigen wesentlichen Gehöreigenschaften aus, die in psychoakustischen Experimenten zur Tonhöhenwahrnehmung beobachtet werden können. Neben den elementaren Eigenschaften der Frequenzanalyse des Gehörs gehören dazu insbesondere zeitlich-spektrale Kontrasteffekte, die von bisherigen Verfahren nicht erfaßt werden. Das Verfahren ist in der Lage, sowohl die Tonhöhen, als auch den Zeitverlauf ihrer Prominenz bei zeitvarianten Schallen nachzubilden.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. G. Hauske
Tag der mündlichen Prüfung: 22.12.1999
Miriam Noemí Valenzuela. Untersuchungen und Berechnungsverfahren zur Klangqualität von Klaviertönen.
Dissertation, Technische Universität München, 1998. Erschienen im Herbert Utz Verlag München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-343-6.
In dieser Arbeit wurden Modelle und Verfahren entwickelt, mit denen diejenigen Schallsignalparameter ermittelt werden können, die für den spezifischen Klang eines Klaviertons und dessen Qualität charakteristisch sind. Mit Hörversuchen wurde untersucht, worin die hörbare Unähnlichkeit im Klang verschiedener Klaviertöne besteht. Die erarbeiteten Verfahren für die meßtechnische Erfassung der Unterscheidungskriterien ermöglicht die gezielte Verbesserung sowohl elektronischer als auch akustischer Klaviere. Das entwickelte Modell für die Berechnung der Klangqualität von Klaviertönen könnte als automatische Klangqualitätskontrolle sowohl für Einzeltöne wie auch für Instrumente eingesetzt werden.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Prof. Dr.-Ing. habil. H. Fleischer (Universität der Bundeswehr, Neubiberg)
Tag der mündlichen Prüfung: 20.04.1998
Markus Mummert. Sprachcodierung durch Konturierung eines gehörangepaßten Spektrogramms und ihre Anwendung zur Datenreduktion.
Dissertation, Technische Universität München, 1997. Erschienen im VDI-Verlag Düsseldorf, Fortschritt-Berichte VDI, Reihe 10 "Informatik/Kommunikationstechnik", Nr. 522, ISBN 3-18-352210-1.(PDF, 5015 kB)
Konturen als Träger der relevanten Information entsprechen bei der Hörwahrnehmung unter anderem den hörbaren Teiltönen. Die Arbeit behandelt Audiorepräsentationen mit Konturen, die als 'Gratlinien' eines gehörangepaßten Spektrogramms definiert sind. Ausgehend von einer bekannten Repräsentation werden zusätzliche Gratlinien und eine neue Signalrekonstruktion eingeführt. Eine Klassifizierung der Linien trennt tonale und geräuschhafte Signalanteile. Damit werden Sprachcodierungen mit Datenraten bis hinab zu 4 kbit/s realisiert.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. J. Hagenauer
Tag der mündlichen Prüfung: 12.12.1997
Uwe Baumann. Ein Verfahren zur Erkennung und Trennung multipler akustischer Objekte.
Dissertation, Technische Universität München, 1995. Erschienen im Herbert Utz Verlag München, Reihe "Mensch-Maschine-Kommunikation", ISBN 3-89675-218-9.
Das gesunde Gehör ist in der Lage, aus einer Mixtur von Geräuschen und Stimmen einzelne Schallquellen herauszuhören. Mit der Arbeit wird ein Beitrag zur Lösung des Problems geleistet, jene Fähigkeit nachzubilden. Dazu wurden psychoakustische und gestaltpsychologische Erkenntnisse über das Hören herangezogen. Das Verfahren wurde mit einfachen Musiksignalen erprobt. Es gelang eine weitgehende Zerlegung dieser Signale in die Einzelstimmen.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. G. Hauske
Tag der mündlichen Prüfung: 27.06.1995
Stefan Wartini. Zur Rolle der Spektraltonhöhen und ihrer Akzentuierung bei der Wahrnehmung von Sprache.
Dissertation, Technische Universität München, 1995. Erschienen im VDI-Verlag Düsseldorf, Fortschritt-Berichte VDI, Reihe 10 "Informatik/Kommunikationstechnik", Nr. 398, ISBN 3-18-339810-9.
Durch gezielte Synthese von Sprachsignalen bzw. sprachähnlichen Testschallen aus Teiltönen wurde die Rolle der Spektraltonhöhen untersucht. Insbesondere wurde die Akzentuierung von Teiltönen untersucht, welche diese in Abhängigkeit vom vorhergehenden Sprachsignalverlauf erfahren können. Es wird nachgewiesen, daß die Akzentuierung bei der Wahrnehmung von Sprache mit hoher Wahrscheinlichkeit eine erhebliche Rolle spielt.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. em. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 14.06.1995
Klaus Heldmann. Wahrnehmung, gehörgerechte Analyse und Merkmalsextraktion technischer Schalle.
Dissertation, Technische Universität München, 1994.
Zur Untersuchung der Wahrnehmung technischer Schalle und der verbalen Beschreibung der Hörempfindungen werden zahlreiche psychoakustische Experimente durchgeführt. Die Empfindungsgröße Impulshaftigkeit erweist sich als zweckmäßig zur Beschreibung kurzzeitig auftretender, auch energetisch untergeordneter Schallereignisse. Die gehörgerechte Schallanalyse mit dem Teiltonlinienzeitmuster stellt eine visuelle Entsprechung des auditiv Wahrgenommenen dar. Die Teiltonlinien repräsentieren die vollständige akustische Information beliebiger nicht-synthetischer Schalle. Eine bemerkenswerte Datenreduktion kann erzielt werden. Die Merkmalsextraktion aus dem Teiltonlinienzeitmuster ermöglicht eine erfolgreiche, an der menschlichen Wahrnehmung orientierte Klassifizierung technischer Schalle.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. E. Sackmann
Tag der mündlichen Prüfung: 21.03.1994
Klaus Pfaffelhuber. Das dynamische Verhalten der Geige an der Anstreichstelle und sein Einfluß auf das Klangsignal.
Dissertation, Technische Universität München, 1993.
Das weitgehend lineare Verhalten einer Geige erlaubt es, Eigenschaften, welche für den Klang wesentlich sind, durch die Admittanz der Saiten an der Anstreichstelle zu beschreiben. Durch Partialbruchzerlegung werden die Impuls- bzw. Sprungantworten in Eigenschwingungen zerlegt. Die so mit einer realistischen Stegeingangsadmittanz berechneten Schwingungsantworten enthalten auch sämtliche Eigenschwingungen der angekoppelten Geige. Mit Hilfe eines Algorithmus zur numerischen Simulation des Anstreichvorgangs werden die Abhängigkeiten zwischen dem Verlauf der Saitensprungantwort und dem Verlauf der gestrichenen Schwingung demonstriert.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. F. Schneider
Tag der mündlichen Prüfung: 03.11.1993
Dieter Jurzitza. Technische Grundlagen der Messung otoakustischer Emissionen sowie deren Anwendung auf die Untersuchung der nichtlinearen Verzerrungen des Ohres.
Dissertation, Technische Universität München, 1992.
Zur Messung von otoakustischen Emissionen (OAE) wird eine Meßsonde in den Gehörgang eingeführt, die Schallsender und Schallempfänger enthält. Die akustischen Eigenschaften von Meßsonden werden untersucht und beschrieben. Für ihre Anpassung an das Gehör als Quelle der OAE wurde Modelle entwickelt. Messungen von Verzerrungsproduktemissionen wurden durchgeführt. Die Meßergebnisse werden mit Simulationsdaten, mit Daten von einem analogen elektronischen Innenohrmodell sowie mit davon deutlich abweichenden Ergebnissen psychoakustischer Messungen der auralen Differenztöne verglichen. Die gefundenen Unterschiede werden anhand von Eigenschaften des Gehörs erklärt.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. em. Dr.-Ing. R. Saal
Tag der mündlichen Prüfung: 07.02.1993
Thomas Lechner. Piezoelektrische PVDF-Biegewandler und ihr Einsatz in einer taktilen Hörprothese, bei Schnellemikrofonen und in einem hydromechanischen Cochleamodell.
Dissertation, Technische Universität München, 1991.
Die Arbeit behandelt Aufbau, Eigenschaften und drei Anwendungen von piezoelektrischen Biegewandlern aus PVDF. Reizgeber für eine Hörprothese wurden hinsichtlich Zuverlässigkeit und Energiebedarf verbessert. Für den Einsatz als Schnellemikrofon werden verschiedene Bauformen rechnerisch und experimentell verglichen. An einem hydromechanischen Innenohrmodell wurde mit Hilfe der Wandler eine nicht-lineare Rückkopplung auf der Basilarmembran aufgebaut.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. K. Antreich
Tag der mündlichen Prüfung: 17.12.1991
Martin Schlang. Methoden zur Störschallunterdrückung bei ortsungebundener Spracheingabe in Räumen.
Dissertation, Technische Universität München, 1991.
Der Verzicht auf Nahbesprechungsmikrofone am Telefon, in Videokonferenzen oder bei der automatischen Spracherkennung führt zu einer Überlagerung von Sprache mit Nachhall und Hintergrundgeräuschen. Diese unerwünschten Signalanteile werden durch einkanalige und mehrkanalige Verfahren kompensiert. Das einkanalige basiert auf einer Filterung in spektralen Teilbändern unter Einbeziehung von Wissensquellen über die spektrale Verteilung von menschlicher Sprache, Nachhall und Störgeräuschen. Das mehrkanalige verwendet ein steuerbare Mikrofonarray, dessen Hauptkeule sich automatisch auf den Sprecher fokussiert.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. em. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 23.07.1991
Wolfgang Heinbach. Gehörgerechte Repräsentation von Audiosignalen durch das Teiltonzeitmuster.
Dissertation, Technische Universität München, 1988.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 20.01.1988
Wilhelm Aures. Berechnungsverfahren für den Wohlklang beliebiger Schallsignale, ein Beitrag zur gehörbezogenen Schallanalyse.
Dissertation, Technische Universität München, 1984.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 28.09.1984
Michael Köhlmann. Rhythmische Segmentierung von Schallsignalen und ihre Anwendung auf die Analyse von Sprache und Musik.
Dissertation, Technische Universität München, 1984.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 10.05.1984
Kurt Benedini. Psychoakustische Messung der Klangfarben-Ähnlichkeit harmonischer Klänge und Beschreibung der Zusammenhänge zwischen Amplitudenspektrum und Klangfarbe durch ein Modell.
Dissertation, Technische Universität München, 1978.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 19.12.1978
Hermann Schütte. Bestimmung der subjektiven Ereigniszeitpunkte aufeinanderfolgender Schallimpulse durch psychoakustische Messungen.
Dissertation, Technische Universität München, 1977.
1. Berichter: Univ.-Prof. Dr.-Ing. E. Terhardt
2. Berichter: Univ.-Prof. em. Dr.-Ing. T. Einsele
Tag der mündlichen Prüfung: 21.10.1977