Yuma Koizumi

Yuma Koizumi is a research scientist at Google Research. He received his B.S. and M.S degrees in 2012 and 2014 from Hosei University, Tokyo, respectively, and his Ph.D. degree in 2017 from the University of Electro-Communications, Tokyo. He was with the NTT Media Intelligence Laboratories at Nippon Telegraph and Telephone (NTT), Tokyo between 2014 and 2020. His current research interests are speech enhancement, environmental sound analysis, and automatic speech recognition.

Research Areas

Authored Publications

Description and Discussion on DCASE 2023 Challenge Task 2: First-shot Unsupervised Anomalous Sound Detection for Machine Condition Monitoring

Kota Dohi

Keisuke Imoto

Noboru Harada

Daisuke Niizumi

Yuma Koizumi

Tomoya Nishida

Harsh Purohit

Ryo Tanabe

Takashi Endo

Yohei Kawaguchi

DCASE 2023 (2023) (to appear)

Miipher: A Robust Speech Restoration Model Integrating Self-Supervised Speech Representation and Linguistic Features

Yuma Koizumi

Heiga Zen

Shigeki Karita

Yifan Ding

Kohei Yatabe

Nobuyuki Morioka

Yu Zhang

Wei Han

Ankur Bapna

Michiel Adriaan Unico Bacchiani

WASPAA 2023 (2023) (to appear)

LibriTTS-R: Restoration of a Large-Scale Multi-Speaker TTS Corpus

Yuma Koizumi

Heiga Zen

Shigeki Karita

Yifan Ding

Kohei Yatabe

Nobuyuki Morioka

Michiel Adriaan Unico Bacchiani

Yu Zhang

Wei Han

Ankur Bapna

Interspeech 2023 (2023)

Description and Discussion on DCASE 2022 Challenge Task 2: Unsupervised Anomalous Sound Detection for Machine Condition Monitoring Applying Domain Generalization Techniques

Kota Dohi

Keisuke Imoto

Noboru Harada

Daisuke Niizumi

Yuma Koizumi

Tomoya Nishida

Harsh Purohit

Takashi Endo

Masaaki Yamamoto

Yohei Kawaguchi

DCASE 2022 Workshop (2022)

SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping

Yuma Koizumi

Heiga Zen

Kohei Yatabe

Nanxin Chen

Michiel Adriaan Unico Bacchiani

Proc. Interspeech (2022) (to appear)

SNRi Target Training for Joint Speech Enhancement and Recognition

Yuma Koizumi

Shigeki Karita

Arun Narayanan

Sankaran Panchapagesan

Michiel Adriaan Unico Bacchiani

Proc. Interspeech (2022) (to appear)

WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on Fixed-Point Iteration

Yuma Koizumi

Kohei Yatabe

Heiga Zen (Byungha Chun)

Michiel Adriaan Unico Bacchiani

Proc. IEEE Spoken Language Technology Workshop (SLT) (2022) (to appear)

Description and Discussion on DCASE 2021 Challenge Task 2: Unsupervised Anomalous Sound Detection for Machine Condition Monitoring under Domain Shifted Conditions

Yohei Kawaguchi

Keisuke Imoto

Yuma Koizumi

Noboru Harada

Daisuke Niizumi

Kota Dohi

Ryo Tanabe

Harsh Purohit

Takashi Endo

Proceedings of Workshop on Detection and Classification of Acoustic Scenes and Events (DCASE) (2021) (to appear)

DF-Conformer: Integrated architecture of Conv-TasNet and Conformer using linear complexity self-attention for speech enhancement

Yuma Koizumi

Shigeki Karita

Scott Wisdom

Hakan Erdogan

John Hershey

Lion Jones

Michiel Adriaan Unico Bacchiani

Proc. IEEE Workshop Appl. Signal Process. Audio Acoust. (WASPAA) (2021)

Search on Google Scholar

Defining the technology of today and tomorrow.

Philosophy

People

Research areas

Foundational ML & Algorithms

Computing Systems & Quantum AI

Science, AI & Society

Projects

Publications

Resources

Shaping the future, together.

Student programs

Faculty programs

Conferences & events

Yuma Koizumi

Research Areas

Join us

Defining the technology of today and tomorrow.

Philosophy

People

Research areas

Foundational ML & Algorithms

Computing Systems & Quantum AI

Science, AI & Society

Projects

Publications

Resources

Shaping the future, together.

Student programs

Faculty programs

Conferences & events

Yuma Koizumi

Research Areas

Filter by:

Publications

Years

Research Areas

Teams

Join us