Arsha Nagrani

Neptune: The Long Orbit to Benchmarking Long Video Understanding

Arsha Nagrani

Mingda Zhang

Ramin Mehran

Rachel Hornung

Nitesh Bharadwaj Gundavarapu

Nilpa Jha

Austin Myers

Xingyi Zhou

Boqing Gong

Cordelia Schmid

Mikhail Sirotenko

Yukun Zhu

Tobias Weyand

ArXiv (2024)

PaLI-X: On Scaling up a Multilingual Vision and Language Model

Xi Chen

Josip Djolonga

Piotr Padlewski

Basil Mustafa

Beer Changpinyo

Jialin Wu

Carlos Riquelme

Sebastian Goodman

Xiao Wang

Yi Tay

Siamak Shakeri

Mostafa Dehghani

Daniel Salz

Mario Lučić

Michael Tschannen

Arsha Nagrani

Hexiang (Frank) Hu

Mandar Joshi

Bo Pang

Ceslee Montgomery

Paulina Pietrzyk

Marvin Ritter

AJ Piergiovanni

Matthias Minderer

Filip Pavetić

Austin Waters

Gang Li

Ibrahim Alabdulmohsin

Lucas Beyer

Julien Amelot

Kenton Lee

Andreas Steiner

Yang Li

Daniel Keysers

Anurag Arnab

Yuanzhong Xu

Keran Rong

Alexander Kolesnikov

Mojtaba Seyedhosseini

Anelia Angelova

Xiaohua Zhai

Neil Houlsby

Radu Soricut

Computer Vision and Pattern Recognition Conference (CVPR) (2024)

UnLoc: a unified framework for video localization tasks

Shen Yan

Xuehan Xiong

Arsha Nagrani

Anurag Arnab

Zhonghao Wang

Weina Ge

David Ross

Cordelia Schmid

International Conference on Computer Vision (2023)

LanSER: Language-Model Supported Speech Emotion Recognition

Taesik Gong

Josh Belanich

Krishna Somandepalli

Arsha Nagrani

Brian Eoff

Brendan Jou

INTERSPEECH (2023)

End-to-end Generative Pretraining for Multimodal Video Captioning

Paul Hongsuck Seo

Arsha Nagrani

Anurag Arnab

Cordelia Schmid

CVPR 2022

TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency

Anna Rohrbach

Arsha Nagrani

Chen Sun

Cordelia Schmid

Medhini Narasimhan

Miki Rubinstein

Trevor Darrell

European Conference on Computer Vision (2022)

Masking Modalities for Cross-modal Video Retrieval

Valentin Gabeur

Arsha Nagrani

Chen Sun

Karteek Alahari

Cordelia Schmid

Winter Conference on Applications of Computer Vision (WACV) (2022) (to appear)

Learning Audio-Video Modalities from Image Captions

Arsha Nagrani

Paul Hongsuck Seo

Bryan Andrew Seybold

Anja Hauth

Santiago Manen

Chen Sun

Cordelia Schmid

European Conference on Computer Vision (2022)

AVATAR: Unconstrained Audiovisual Speech Recognition

Valentin Gabeur

Paul Hongsuck Seo

Arsha Nagrani

Chen Sun

Karteek Alahari

Cordelia Schmid

Interspeech (2022)

M&M Mix: A Multimodal Multiview Transformer Ensemble

Xuehan Xiong

Anurag Arnab

Arsha Nagrani

Cordelia Schmid

University of Bristol

Defining the technology of today and tomorrow.

Philosophy

People

Research areas

Foundational ML & Algorithms

Computing Systems & Quantum AI

Science, AI & Society

Projects

Publications

Resources

Shaping the future, together.

Student programs

Faculty programs

Conferences & events

Arsha Nagrani

Research Areas

Join us

Defining the technology of today and tomorrow.

Philosophy

People

Research areas

Foundational ML & Algorithms

Computing Systems & Quantum AI

Science, AI & Society

Projects

Publications

Resources

Shaping the future, together.

Student programs

Faculty programs

Conferences & events

Arsha Nagrani

Research Areas

Filter by:

Publications

Years

Research Areas

Teams

Join us