Michiel Bacchiani

Research Areas

Authored Publications

Google Publications

Other Publications

LibriTTS-R: Restoration of a Large-Scale Multi-Speaker TTS Corpus

Yuma Koizumi

Heiga Zen

Shigeki Karita

Yifan Ding

Kohei Yatabe

Nobuyuki Morioka

Michiel Adriaan Unico Bacchiani

Yu Zhang

Wei Han

Ankur Bapna

Interspeech 2023 (2023)

Miipher: A Robust Speech Restoration Model Integrating Self-Supervised Speech Representation and Linguistic Features

Yuma Koizumi

Heiga Zen

Shigeki Karita

Yifan Ding

Kohei Yatabe

Nobuyuki Morioka

Yu Zhang

Wei Han

Ankur Bapna

Michiel Adriaan Unico Bacchiani

WASPAA 2023 (2023) (to appear)

Knowledge Transfer from Large-Scale Pretrained Language Models to End-to-end Speech Recognizers

Michiel Adriaan Unico Bacchiani

Shigeki Karita

Yotaro Kubo

(2022) (to appear)

WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on Fixed-Point Iteration

Yuma Koizumi

Kohei Yatabe

Heiga Zen (Byungha Chun)

Michiel Adriaan Unico Bacchiani

Proc. IEEE Spoken Language Technology Workshop (SLT) (2022) (to appear)

SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping

Yuma Koizumi

Heiga Zen

Kohei Yatabe

Nanxin Chen

Michiel Adriaan Unico Bacchiani

Proc. Interspeech (2022) (to appear)

SNRi Target Training for Joint Speech Enhancement and Recognition

Yuma Koizumi

Shigeki Karita

Arun Narayanan

Sankaran Panchapagesan

Michiel Adriaan Unico Bacchiani

Proc. Interspeech (2022) (to appear)

A Comparative Study on Neural Architectures and Training Methods for Japanese Speech Recognition

Lion Jones

Michiel Adriaan Unico Bacchiani

Shigeki Karita

Yotaro Kubo

Interspeech 2021 (2021) (to appear)

DF-Conformer: Integrated architecture of Conv-TasNet and Conformer using linear complexity self-attention for speech enhancement

Yuma Koizumi

Shigeki Karita

Scott Wisdom

Hakan Erdogan

John Hershey

Lion Jones

Michiel Adriaan Unico Bacchiani

Proc. IEEE Workshop Appl. Signal Process. Audio Acoust. (WASPAA) (2021)

JOINT PHONEME-GRAPHEME MODEL FOR END-TO-END SPEECH RECOGNITION

Yotaro Kubo

Michiel Bacchiani

Proc. ICASSP 2020 (to appear)

Spectral distortion model for training phase-sensitive deep-neural networks for far-field speech recognition

Chanwoo Kim

Tara Sainath

Arun Narayanan

Ananya Misra

Rajeev Nongpiur

Michiel Bacchiani

ICASSP 2018 (2018)

State-of-the-art Speech Recognition With Sequence-to-Sequence Models

Chung-Cheng Chiu

Tara Sainath

Yonghui Wu

Rohit Prabhavalkar

Patrick Nguyen

Zhifeng Chen

Anjuli Kannan

Ron J. Weiss

Kanishka Rao

Katya Gonina

Navdeep Jaitly

Bo Li

Jan Chorowski

Michiel Bacchiani

ICASSP (2018) (to appear)

Sound source separation using phase difference and reliable mask selection

Chanwoo Kim

Anjali Menon

Michiel Bacchiani

Richard M. Stern

ICASSP (2018) (to appear)

TOWARD DOMAIN-INVARIANT SPEECH RECOGNITION VIA LARGE SCALE TRAINING

Ananya Misra

Anshuman Tripathi

Arun Narayanan

Golan Pundak

Khe Chai Sim

Michiel Adriaan Unico Bacchiani

Mohamed (Mo) Elfeky

Parisa Haghani

Trevor Deatrick Strohman

SLT, IEEE (2018)

From audio to semantics: Approaches to end-to-end spoken language understanding

Parisa Haghani

Arun Narayanan

Michiel Adriaan Unico Bacchiani

Galen Chuang

Neeraj Gaur

Pedro Jose Moreno Mengibar

Delia Qu

Rohit Prabhavalkar

Austin Waters

Spoken Language Technology Workshop (SLT), 2018 IEEE

Domain Adaptation Using Factorized Hidden Layer for Robust Automatic Speech Recognition

Ananya Misra

Anshuman Tripathi

Arun Narayanan

Bo Li

Golan Pundak

Khe Chai Sim

Michiel Adriaan Unico Bacchiani

Parisa Haghani

Tara N Sainath

Interspeech (2018), pp. 892-896

Sampled Connectionist Temporal Classification

Ehsan Variani

Erik McDermott

Kamel Lahouel

Michiel Bacchiani

Tom Bagby

ICASSP 2018 (2018)

Raw Multichannel Processing Using Deep Neural Networks

Tara N. Sainath

Ron J. Weiss

Kevin W. Wilson

Arun Narayanan

Michiel Bacchiani

Bo Li

Ehsan Variani

Izhak Shafran

Andrew Senior

Kean Chin

Ananya Misra

Chanwoo Kim

New Era for Robust Speech Recognition: Exploiting Deep Learning, Springer (2017)

Efficient Implementation of the Room Simulator for Training Deep Neural Network Acoustic Models

Chanwoo Kim

Ehsan Variani

Arun Narayanan

Michiel Bacchiani

arxiv (2017)

Acoustic Modeling for Google Home

Bo Li

Tara Sainath

Arun Narayanan

Joe Caroselli

Michiel Bacchiani

Ananya Misra

Izhak Shafran

Hasim Sak

Golan Pundak

Kean Chin

Khe Chai Sim

Ron J. Weiss

Kevin Wilson

Ehsan Variani

Chanwoo Kim

Olivier Siohan

Mitchel Weintraub

Erik McDermott

Rick Rose

Matt Shannon

INTERSPEECH 2017 (2017)

Multichannel Signal Processing with Deep Neural Networks for Automatic Speech Recognition

Tara Sainath

Ron J. Weiss

Kevin Wilson

Bo Li

Arun Narayanan

Ehsan Variani

Michiel Bacchiani

Izhak Shafran

Andrew Senior

Kean Chin

Ananya Misra

Chanwoo Kim

IEEE /ACM Transactions on Audio, Speech, and Language Processing, vol. 25 (2017), pp. 965 - 979

Generation of large-scale simulated utterances in virtual rooms to train deep-neural networks for far-field speech recognition in Google Home

Chanwoo Kim

Ananya Misra

Kean Chin

Thad Hughes

Arun Narayanan

Tara Sainath

Michiel Bacchiani

interspeech 2017 (2017), pp. 379-383

End-to-End Training of Acoustic Models for Large Vocabulary Continuous Speech Recognition with TensorFlow

Ehsan Variani

Tom Bagby

Erik McDermott

Michiel Bacchiani

Interspeech 2017 (2017)

Factored Spatial and Spectral Multichannel Raw Waveform CLDNNs

Tara N. Sainath

Ron J. Weiss

Kevin W. Wilson

Arun Narayanan

Michiel Bacchiani

International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE (2016)

Preview

Complex Linear Projection (CLP): A Discriminative Approach to Joint Feature Extraction and Acoustic Modeling

Ehsan Variani

Tara N. Sainath

Izhak Shafran

Michiel Bacchiani

Interspeech 2016 (2016)

Reducing the Computational Complexity of Multimicrophone Acoustic Models with Integrated Feature Extraction

Tara N. Sainath

Arun Narayanan

Ron J. Weiss

Ehsan Variani

Kevin W. Wilson

Michiel Bacchiani

Izhak Shafran

Proc. Interspeech, ISCA (2016)

Preview

Neural Network Adaptive Beamforming for Robust Multichannel Speech Recognition

Bo Li

Tara N. Sainath

Ron J. Weiss

Kevin W. Wilson

Michiel Bacchiani

Proc. Interspeech, ISCA (2016)

Large Vocabulary Automatic Speech Recognition for Children

Hank Liao

Golan Pundak

Olivier Siohan

Melissa Carroll

Noah Coccaro

Qi-Ming Jiang

Tara N. Sainath

Andrew Senior

Françoise Beaufays

Michiel Bacchiani

Interspeech (2015)

Speaker Location and Microphone Spacing Invariant Acoustic Modeling from Raw Multichannel Waveforms

Tara N. Sainath

Ron J. Weiss

Kevin Wilson

Arun Narayanan

Michiel Bacchiani

Andrew Senior

ASRU (2015)

Preview

Robust speech recognition using temporal masking and thresholding algorithm

Chanwoo Kim

Kean Chin

Michiel Bacchiani

R. M. Stern

INTERSPEECH-2014, pp. 2734-2738

Context Dependent State Tying for Speech Recognition using Deep Neural Network Acoustic Models

M. Bacchiani

D. Rybach

Proceedings of the International Conference on Acoustics,Speech and Signal Processing (2014)

Preview

GMM-Free DNN Training

A. Senior

G. Heigold

M. Bacchiani

H. Liao

Proceedings of the International Conference on Acoustics,Speech and Signal Processing (2014)

Preview

Asynchronous Stochastic Optimization for Sequence Training of Deep Neural Networks: Towards Big Data

Erik McDermott

Georg Heigold

Pedro Moreno

Andrew Senior

Michiel Bacchiani

Interspeeech, ISCA (2014)

Preview

Asynchronous Stochastic Optimization for Sequence Training of Deep Neural Networks

Georg Heigold

Erik McDermott

Vincent Vanhoucke

Andrew Senior

Michiel Bacchiani

Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), IEEE, Firenze, Italy (2014)

Asynchronous, Online, GMM-free Training of a Context Dependent Acoustic Model for Speech Recognition

M. Bacchiani

A. Senior

G. Heigold

Proceedings of the European Conference on Speech Communication and Technology (2014) (to appear)

Preview

RAPID ADAPTATION FOR MOBILE SPEECH APPLICATIONS

M. Bacchiani

Proceedings of the International Conference on Acoustics,Speech and Signal Processing (2013)

Preview

iVector-based Acoustic Data Selection

Olivier Siohan

Michiel Bacchiani

Proceedings of Interspeech (2013)

Preview

TechWare: Mobile Media Search Resources [Best of the Web]

Z. Liu

M. Bacchiani

IEEE Signal Processing Magazine, vol. 28 (2011), pp. 142-145

Preview

Discriminative Features for Language Identification

C. Alberti

M. Bacchiani

INTERSPEECH (2011)

Preview

Decision Tree State Clustering with Word and Syllable Features

Hank Liao

Chris Alberti

Michiel Bacchiani

Olivier Siohan

Interspeech, ISCA (2010), 2958 – 2961

Challenges in Automatic Speech Recognition

Ciprian Chelba

Johan Schalkwyk

Michiel Bacchiani

Interspeech 2010

Restoring Punctuation and Capitalization in Transcribed Speech

Agustín Gravano

Martin Jansche

Michiel Bacchiani

IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) (2009), pp. 4741-4744

An Audio Indexing System for Election Video Material

Christopher Alberti

Michiel Bacchiani

Ari Bezman

Ciprian Chelba

Anastassia Drofa

Hank Liao

Pedro Moreno

Ted Power

Arnaud Sahuguet

Maria Shugrina

Olivier Siohan

Proceedings of ICASSP (2009), pp. 4873-4876

Confidence Scores for Acoustic Model Adaptation

C. Gollan

M. Bacchiani

Proceedings of the International Conference on Acoustics,Speech and Signal Processing (2008)

Preview

Deploying GOOG-411: Early Lessons in Data, Measurement, and Testing

Michiel Bacchiani

Francoise Beaufays

Johan Schalkwyk

Mike Schuster

Brian Strope

Proc. ICASSP (2008)

Preview

MAP adaptation of stochastic grammars

M. Bacchiani

M. Riley

B. Roark

R. Sproat

Computer Speech and Language, vol. 20 (2006), pp. 41-68

Fast vocabulary-independent audio search using path-based graph indexing

Olivier Siohan

Michiel Bacchiani

INTERSPEECH (2005), pp. 53-56

Meta-data Conditional Language Modeling

M. Bacchiani

B. Roark

Proceedings of the International Conference on Acoustics,Speech and Signal Processing (2004)

Improved name recognition with meta-data dependent name networks

S. Maskey

M. Bacchiani

B. Roark

R. Sproat

Proceedings of the International Conference on Acoustics,Speech and Signal Processing (2004)

Language model adaptation with MAP estimation and the perceptron algorithm

M. Bacchiani

B. Roark

M. Saraclar

Proceedings of the HLT-NAACL (2004)

Supervised and unsupervised PCFG adaptation to novel domains

Brian Roark

Michiel Bacchiani

HLT-NAACL (2003)

Unsupervised Language Model Adaptation

M. Bacchiani

B. Roark

Proceedings of the International Conference on Acoustics,Speech and Signal Processing (2003)

Combining Maximum Likelihood and Maximum A Posteriori Estimation for Detailed Acoustic Modeling of Context Dependency

M. Bacchiani

Proceedings of the International conference on Spoken Language Processing (2002), pp. 2593-2596

SCANMail: a voicemail interface that makes speech browsable, readable and searchable

Steve Whittaker

Julia Hirschberg

Brian Amento

Litza A. Stark

Michiel Bacchiani

Philip L. Isenhour

Larry Stead

Gary Zamchick

Aaron Rosenberg

CHI (2002), pp. 275-282

Caller Identification for the SCANMail Voicemail Browser

A. Rosenberg

J. Hirschberg

M. Bacchiani

S. Parthasarathy

P. Isenhour

L. Stead

Proceedings of the European Conference on Speech Communication and Technology (2001)

Audio Browsing and Search in the Voicemail Domain

Julia Hirschberg

Michiel Bacchiani

Philip L. Isenhour

NLPRS (2001), pp. 3-8

SCANMail: Browsing and Searching Speech Data by Content

J. Hirschberg

M. Bacchiani

D. Hindle

P. Isenhour

A. Rosenberg

L. Stark

L. Stead

S. Whittaker

G. Zamchick

Proceedings of the European Conference on Speech Communication and Technology (2001)

SCANMail: Audio Navigation in the Voicemail Domain

M. Bacchiani

J. Hirschberg

A. Rosenberg

S. Whittaker

D. Hindle

P. Isenhour

M. Jones

L. Stark

G. Zamchick

Proceedings of the workshop on Human Language Technology (2001)

Using Maximum Likelihood Linear Regression for Segment Clustering and Speaker Identification

M. Bacchiani

Proceedings of the International conference on Spoken Language Processing (2000), pp. 536-539

Joint Lexicon, Acoustic Unit Inventory and Model Design

M. Bacchiani

M. Ostendorf

Speech Communication, vol. 29 (1999), pp. 99-114

AT&T at TREC-8

Amit Singhal

Steven P. Abney

Michiel Bacchiani

Michael Collins

Donald Hindle

Fernando C. N. Pereira

TREC (1999)

Using Automatically-Derived Acoustic Sub-word Units in Large Vocabulary Speech Recognition

M. Bacchiani

M. Ostendorf

Proceedings of the International conference on Spoken Language Processing (1998)

Joint Acoustic Unit Design and Lexicon Generation

M. Bacchiani

M. Ostendorf

roceedings ESCA Workshop on Modeling Pronunciation Variation for Automatic Speech Recognition (1998), pp. 7-12

Design of a Speech Recognition System based on Non-Uniform Segmental Units

M. Bacchiani

M. Ostendorf

Y. Sagisaka

K.K. Paliwal

Proceedings of the International Conference on Acoustics, Speech and Signal Processing, IEEE (1996), pp. 443-446

Modeling Systematic Variations in Pronunciation via a Language-Dependent Hidden Speaking Mode

M. Ostendorf

B. Byrne

M. Bacchiani

M. Finke

A. Gunawardana

K. Ross

S. Roweis

E. Shriberg

D. Talkin

A. Waibel

B. Wheatley

T. Zeppenfeld

Proceedings of the International conference on Spoken Language Processing (1996)

Unsupervised Learning of Non-Uniform Segmental Units for Acoustic Modeling in Speech Recognition

M. Bacchiani

M. Ostendorf

Y. Sagisaka

K.K. Paliwal

Proceedings of the IEEE workshop on Automatic Speech Recognition, IEEE (1995), pp. 141-142

Simultaneous Design of Feature Extractor and Pattern Classifier using the Minimum Classification Error Training Algorithm

K.K. Paliwal

M. Bacchiani

Y. Sagisaka

Proceedings of the IEEE workshop on Neural Networks for Signal Processing, IEEE (1995), pp. 67-76

Minimum Classification Error Training for Feature Extraction and Pattern Classification in Speech Recognition

K.K. Paliwal

M. Bacchiani

Y. Sagisaka

Eurospeech '95 (1995), pp. 541-544

Optimization of time-frequency masking filters using the minimum error classification criterion

Michiel Bacchiani

Kiyoaki Aikawa

Proceedings of the International Conference on Acoustics, Speech and Signal Processing, IEEE (1994), pp. 485-488

Search on Google Scholar

Defining the technology of today and tomorrow.

Philosophy

People

Teams

AI/ML Foundations  & Capabilities

Algorithms & Optimization

Computing Paradigms

Responsible Human-Centric Technology

Science & Societal Impact

Projects

Publications

Resources

Shaping the future, together.

Student programs

Faculty programs

Conferences & events

Michiel Bacchiani

Research Areas

Join us

Defining the technology of today and tomorrow.

Philosophy

People

Teams

AI/ML Foundations & Capabilities

Algorithms & Optimization

Computing Paradigms

Responsible Human-Centric Technology

Science & Societal Impact

Projects

Publications

Resources

Shaping the future, together.

Student programs

Faculty programs

Conferences & events

Michiel Bacchiani

Research Areas

Filter by:

Year

Team

Research Area

Join us

AI/ML Foundations  & Capabilities