Irfan Essa

Photorealistic Video Generation with Diffusion Models

Agrim Gupta

Lijun Yu

Kihyuk Sohn

Xiuye Gu

Meera Hahn

Fei-Fei Li

Irfan Essa

Lu Jiang

José Lezama

ECCV(2024)

VideoPoet: A Large Language Model for Zero-Shot Video Generation

Dan Kondratyuk

Lijun Yu

Xiuye Gu

José Lezama

Jonathan Huang

Grant Schindler

Rachel Hornung

Vighnesh Birodkar

Jimmy Yan

Ming-Chang Chiu

Krishna Somandepalli

Hassan Akbari

Yair Alon

Yong Cheng

Josh Dillon

Agrim Gupta

Meera Hahn

Anja Hauth

David Hendon

Alonso Martinez

David Minnen

Mikhail Sirotenko

Kihyuk Sohn

Xuan Yang

Hartwig Adam

Ming-Hsuan Yang

Irfan Essa

Huisheng Wang

David Ross

Bryan Seybold

Lu Jiang

ICML(2024)

Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation

Lijun Yu

José Lezama

Nitesh Bharadwaj Gundavarapu

Luca Versari

Kihyuk Sohn

David Minnen

Yong Cheng

Agrim Gupta

Xiuye Gu

Alex Hauptmann

Boqing Gong

Ming-Hsuan Yang

Irfan Essa

David Ross

Lu Jiang

ICLR(2024)

Slide Gestalt: Automatic Structure Extraction in Slide Decks for Non-Visual Access

Yi-Hao Peng

Peggy Chi

Anjuli Kannan

Meredith Morris

Irfan Essa

CHI 2023: ACM Conference on Human Factors in Computing Systems(2023) (to appear)

Predictor-Corrector Sampling for Discrete Diffusion Models

José Lezama

Tim Salimans

Lu Jiang

Huiwen Chang

Jonathan Ho

Irfan Essa

ICLR(2023)

MaskSketch: Unpaired Structure-guided Masked Image Generation

Dina Bashkirova

Irfan Essa

José Lezama

Kate Saenko

Kihyuk Sohn

CVPR 2023(2023)

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs

Lijun Yu

Yong Cheng

Zhiruo Wang

Vivek Kumar

Wolfgang Macherey

Yanping Huang

David Ross

Irfan Essa

Yonatan Bisk

Ming-Hsuan Yang

Kevin Murphy

Alex Hauptmann

Lu Jiang

NeurIPS(2023)

MAGVIT: Masked Generative Video Transformer

Lijun Yu

Yong Cheng

Kihyuk Sohn

José Lezama

Han Zhang

Huiwen Chang

Alex Hauptmann

Ming-Hsuan Yang

Yuan Hao

Irfan Essa

Lu Jiang

CVPR(2023)

Visual Prompt Tuning for Generative Transfer Learning

Kihyuk Sohn

Huiwen Chang

José Lezama

Luisa Polania

Han Zhang

Yuan Hao

Irfan Essa

Lu Jiang

CVPR 2023(2023)

Sharing Decoders: Network Fission for Multi-task Pixel Prediction

Steven Hickson

Karthik Raveendran

Irfan Essa

Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, IEEE/CVF(2022), pp. 3771-3780

Defining the technology of today and tomorrow.

Philosophy

People

Teams

AI/ML Foundations  & Capabilities

Algorithms & Optimization

Computing Paradigms

Responsible Human-Centric Technology

Science & Societal Impact

Projects

Publications

Resources

Shaping the future, together.

Student programs

Faculty programs

Conferences & events

Irfan Essa

Research Areas

Join us

Defining the technology of today and tomorrow.

Philosophy

People

Teams

AI/ML Foundations & Capabilities

Algorithms & Optimization

Computing Paradigms

Responsible Human-Centric Technology

Science & Societal Impact

Projects

Publications

Resources

Shaping the future, together.

Student programs

Faculty programs

Conferences & events

Irfan Essa

Research Areas

Filter by:

Publications

Years

Research Areas

Teams

Join us

AI/ML Foundations  & Capabilities