Arsha Nagrani

Neptune: The Long Orbit to Benchmarking Long Video Understanding

Arsha Nagrani

Mingda Zhang

Ramin Mehran

Rachel Hornung

Nitesh Bharadwaj Gundavarapu

Nilpa Jha

Austin Myers

Xingyi Zhou

Boqing Gong

Cordelia Schmid

Mikhail Sirotenko

Yukun Zhu

Tobias Weyand

ArXiv (2024)

PaLI-X: On Scaling up a Multilingual Vision and Language Model

Xi Chen

Josip Djolonga

Piotr Padlewski

Basil Mustafa

Beer Changpinyo

Jialin Wu

Carlos Riquelme

Sebastian Goodman

Xiao Wang

Yi Tay

Siamak Shakeri

Mostafa Dehghani

Daniel Salz

Mario Lučić

Michael Tschannen

Arsha Nagrani

Hexiang (Frank) Hu

Mandar Joshi

Bo Pang

Ceslee Montgomery

Paulina Pietrzyk

Marvin Ritter

AJ Piergiovanni

Matthias Minderer

Filip Pavetić

Austin Waters

Gang Li

Ibrahim Alabdulmohsin

Lucas Beyer

Julien Amelot

Kenton Lee

Andreas Steiner

Yang Li

Daniel Keysers

Anurag Arnab

Yuanzhong Xu

Keran Rong

Alexander Kolesnikov

Mojtaba Seyedhosseini

Anelia Angelova

Xiaohua Zhai

Neil Houlsby

Radu Soricut

Computer Vision and Pattern Recognition Conference (CVPR) (2024)

UnLoc: a unified framework for video localization tasks

Shen Yan

Xuehan Xiong

Arsha Nagrani

Anurag Arnab

Zhonghao Wang

Weina Ge

David Ross

Cordelia Schmid

International Conference on Computer Vision (2023)

LanSER: Language-Model Supported Speech Emotion Recognition

Taesik Gong

Josh Belanich

Krishna Somandepalli

Arsha Nagrani

Brian Eoff

Brendan Jou

INTERSPEECH (2023)

Masking Modalities for Cross-modal Video Retrieval

Valentin Gabeur

Arsha Nagrani

Chen Sun

Karteek Alahari

Cordelia Schmid

Winter Conference on Applications of Computer Vision (WACV) (2022) (to appear)

End-to-end Generative Pretraining for Multimodal Video Captioning

Paul Hongsuck Seo

Arsha Nagrani

Anurag Arnab

Cordelia Schmid

CVPR 2022

AVATAR: Unconstrained Audiovisual Speech Recognition

Valentin Gabeur

Paul Hongsuck Seo

Arsha Nagrani

Chen Sun

Karteek Alahari

Cordelia Schmid

Interspeech (2022)

Learning Audio-Video Modalities from Image Captions

Arsha Nagrani

Paul Hongsuck Seo

Bryan Andrew Seybold

Anja Hauth

Santiago Manen

Chen Sun

Cordelia Schmid

European Conference on Computer Vision (2022)

TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency

Anna Rohrbach

Arsha Nagrani

Chen Sun

Cordelia Schmid

Medhini Narasimhan

Miki Rubinstein

Trevor Darrell

European Conference on Computer Vision (2022)

M&M Mix: A Multimodal Multiview Transformer Ensemble

Xuehan Xiong

Anurag Arnab

Arsha Nagrani

Cordelia Schmid

University of Bristol

Explore our many areas of focus

Building a collaborative ecosystem

Shaping the future together

Translating discovery into real-world impact

Arsha Nagrani

Research Areas

Join us

Google AI

Google Cloud

Google DeepMind

Google Labs

Arsha Nagrani

Research Areas

Filter by:

Publications

Years

Research Areas

Teams

Join us