Tobias Watzel

Tobias Watzel, M.Sc.

Technical University of Munich

Chair of Human-Machine Communication (Prof. Hemmert komm.)

Postal address

Arcisstr. 21
80333 München

Phone: +49 (89) 289 - 28538
tobias.watzel@tum.de

Research Areas

• Deep Learning
• Machine Learning
• Speech Recognition
• Acoustic Modeling

Publications

Li, Lujun; Watzel, Tobias; Kuerzinger, Ludwig; Rigoll, Gerhard: Towards Constructing HMM Structure for Speech Recognition With Deep Neural Fenonic Baseform Growing. IEEE Access 9, 2021, 39098--39110 more… Full text ( DOI )
Li, Lujun; Wudamu; Kürzinger, Ludwig; Watzel, Tobias; Rigoll, Gerhard: Lightweight End-to-End Speech Enhancement Generative Adversarial Network Using Sinc Convolutions. Applied Sciences 11 (16), 2021, 7564 more… Full text ( DOI )
Li, Lujun; Lu, Zhenxing; Watzel, Tobias; Kürzinger, Ludwig; Rigoll, Gerhard: Light-Weight Self-Attention Augmented Generative Adversarial Networks for Speech Enhancement. Electronics 10 (13), 2021, 1586 more… Full text ( DOI )
Li, Lujun; Kang, Yikai; Shi, Yuchen; Kürzinger, Ludwig; Watzel, Tobias; Rigoll, Gerhard: Adversarial Joint Training with Self-Attention Mechanism for Robust End-to-End Speech Recognition. arXiv preprint arXiv:2104.01471, 2021 more… Full text ( DOI )
Li, Lujun; Zhou, Xiajun; Song, Zeen; Watzel, Tobias; Kürzinger, Ludwig; Rigoll, Gerhard: Deep neural fenonic baseform growing: A novel approach to construct HMM topologies for speech recognition. 2020 International Conference on High Performance Computing Simulation (HPCS), 2021 more…
Li, Lujun; Kurzinger, Ludwig; Watzel, Tobias; Rigoll, Gerhard: A Global Discriminant Joint Training Framework for Robust Speech Recognition. 2021 IEEE 33rd International Conference on Tools with Artificial Intelligence (ICTAI), IEEE, 2021 more… Full text ( DOI )
Watzel, Tobias; Kürzinger, Ludwig; Li, Lujun; Rigoll, Gerhard: Induced Local Attention for Transformer Models in Speech Recognition. International Conference on Speech and Computer, 2021 more… Full text (mediaTUM)
Watzel, Tobias; Kürzinger, Ludwig; Li, Lujun; Rigoll, Gerhard: Regularized forward-backward decoder for attention models. International Conference on Speech and Computer, 2021 more… Full text (mediaTUM)
Watzel, Tobias; Kürzinger, Ludwig; Li, Lujun; Rigoll, Gerhard: Regularized Forward-Backward Decoder for Attention Models. 2020 more…
Kürzinger, Ludwig; Winkelbauer, Dominik; Li, Lujun; Watzel, Tobias; Rigoll, Gerhard: CTC-Segmentation of Large Corpora for German End-to-End Speech Recognition. Speech and Computer, Springer International Publishing, 2020 more…
Kürzinger, Ludwig; Chavez Rosas, Edgar Ricardo; Li, Lujun; Watzel, Tobias; Rigoll, Gerhard: Audio Adversarial Examples for Robust Hybrid CTC/Attention Speech Recognition. Speech and Computer, Springer International Publishing, 2020 more…
Watzel, Tobias; Kürzinger, Ludwig; Li, Lujun; Rigoll, Gerhard: Synchronized Forward-Backward Transformer for End-to-End Speech Recognition. Speech and Computer, Springer International Publishing, 2020 more…
Kürzinger L., Watzel T., Li L., Baumgartner R., Rigoll G.: Exploring Hybrid CTC/Attention End-to-End Speech Recognition with Gaussian Processes. Proc. 21st International Conference on Speech and Computer SPECOM 2019, Springer, 2019Lecture Notes in Computer Science, pp. 258-269 more… Full text ( DOI )
Watzel T., Li L., Kürzinger L., Rigoll G.: Deep Neural Network Quantizers Outperforming Continuous Speech Recognition Systems. Proc. 21st International Conference on Speech and Computer SPECOM 2019, Springer, 2019Lecture Notes in Computer Science, pp. 530-539 more… Full text ( DOI )
Watzel, T.; Rigoll, G.: Performance Comparison of Deep Neural Network Quantizers to Continuous ASR Systems. Fortschritte der Akustik -- DAGA '19, 2019, pp. 947-949 more… Full text (mediaTUM)

Projects

Project Assistant in the German University Consortium (since 04/2021)
Chinesisch-Deutsches Hochschulkolleg (CDHK), Tongji University, Shanghai
- Active expansion of German-Chinese university cooperations
- Collaboration in federal consortium
- Financial controlling of the project
- Study guidance for Chinese and German students

Teaching

• Praktikum Digitale Sprach- und Bildverarbeitung (WS 2019)
• Praktikum Digitale Sprach- und Bildverarbeitung (SS 2020)
• Praktikum Digitale Sprach- und Bildverarbeitung (WS 2020)
• Praktikum Digitale Sprach- und Bildverarbeitung (SS 2021)
• Praktikum Digitale Sprach- und Bildverarbeitung (WS 2021)
• Praktikum Digitale Sprach- und Bildverarbeitung (SS 2022)

Student projects

Since I recently submitted my dissertation at the TUM, I can’t take any new applications.

Open Topics

You can find all open topics here.

Finished Projects

2022
• Feature Comparison in Unsupervised Speech Recognition (Bachelor's Thesis)
• A Specific Scenario of Named Entity Recognition for Cyber Threat Intelligence (Master's Thesis)

2021
• Modeling Localness for Transformer Models in Speech Recognition (Bachelor's Thesis)
• Regularizing Self-Attention in Synchronized Forward-Backward Transformer (Research Internship)
• Test of Mask-CTC on Transformer and Conformer (Research Internship
• Deep k-means Clustering for Discrete Speech Recognition (Bachelor's Thesis)

2020
• LSTM Neural Network Quantizers (Research Internship)
• Detection of Defects in Sensor Wiring (Research Internship)

2019
• A Comparative Study of Pre-trained Language Models for Contextual Document Representation (Bachelor's Thesis)
• Sensorfusion und Zustandsschätzung auf Grundlage rauschbehafteter Messdaten (Research Internship)
• Wake-Up Word Recognition with DNNs (Research Internship)
• A Comparison of Techniques for Language Model Integration in Encoder-Decoder Speech Recognition (Scientific Seminar)
• Framework Comparison of Tensorflow and Kaldi Using TDNN and LSTM for Hybrid Speech Recognition (Master's Thesis)
• Deep Reinforcement Learning for Decision Making in Autonomous Driving (Master's Thesis)
• Application of Gaussian Mixture VAE in Natural Language Processing (Research Internship)
• A Comparison of Techniques for Language Model Integration in Encoder-Decoder Speech Recognition (Scientific Seminar)

2018
• Entwicklung einer Sprachsteuerung für das Brettspiel “Professor Pünschge” (IDP)
• Application of MFCC Features in Speech Enhancement Generative Adversarial Network (Research Internship)
• Attacks on Neural Networks for Speech Recognition (Scientific Seminar)
• Improving ASR systems with E-Vectors (Scientific Seminar)
• Improved Training of End-to-End Attention Models for Speech Recognition (Scientific Seminar)
• Development of a Perception System for Autonomous Driving (Research Internship)