Anelia Angelova

PaLI-X: On Scaling up a Multilingual Vision and Language Model

Xi Chen

Josip Djolonga

Piotr Padlewski

Basil Mustafa

Beer Changpinyo

Jialin Wu

Carlos Riquelme

Sebastian Goodman

Xiao Wang

Yi Tay

Siamak Shakeri

Mostafa Dehghani

Daniel Salz

Mario Lučić

Michael Tschannen

Arsha Nagrani

Hexiang (Frank) Hu

Mandar Joshi

Bo Pang

Ceslee Montgomery

Paulina Pietrzyk

Marvin Ritter

AJ Piergiovanni

Matthias Minderer

Filip Pavetić

Austin Waters

Gang Li

Ibrahim Alabdulmohsin

Lucas Beyer

Julien Amelot

Kenton Lee

Andreas Steiner

Yang Li

Daniel Keysers

Anurag Arnab

Yuanzhong Xu

Keran Rong

Alexander Kolesnikov

Mojtaba Seyedhosseini

Anelia Angelova

Xiaohua Zhai

Neil Houlsby

Radu Soricut

Computer Vision and Pattern Recognition Conference (CVPR) (2024)

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning

AJ Piergiovanni

Weicheng Kuo

Anelia Angelova

CVPR (2023)

Dynamic Pre-training of Vision-Language Models

AJ Piergiovanni

Weicheng Kuo

Wei Li

Anelia Angelova

ICLR 2023 Workshop on Multimodal Representation Learning (2023)

Mechanical Search on Shelves with Efficient Stacking and Destacking of Objects

Huang Huang

Letian Fu

Michael Danielczuk

Chung Min Kim

Zachary Tam

Jeff Ichnowski

Anelia Angelova

Brian Ichter

Ken Goldberg

The International Symposium of Robotics Research (ISRR) (2023)

Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers

Dahun Kim

Anelia Angelova

Weicheng Kuo

Conference on Computer Vision and Pattern Recognition (CVPR) (2023)

PaLI: A Jointly-Scaled Multilingual Language-Image Model

Xi Chen

Xiao Wang

Soravit Changpinyo

AJ Piergiovanni

Piotr Padlewski

Daniel Salz

Sebastian Alexander Goodman

Adam Grycner

Basil Mustafa

Lucas Beyer

Alexander Kolesnikov

Joan Puigcerver

Nan Ding

Keran Rong

Hassan Akbari

Gaurav Mishra

Linting Xue

Ashish Thapliyal

James Bradbury

Weicheng Kuo

Mojtaba Seyedhosseini

Chao Jia

Burcu Karagol Ayan

Carlos Riquelme

Andreas Steiner

Anelia Angelova

Xiaohua Zhai

Neil Houlsby

Radu Soricut

International Conference on Learning Representations (ICLR) (2023)

Joint Adaptive Representations for Image-Language Learning

AJ Piergiovanni

Anelia Angelova

Transformers for Vision (T4V) Workshop at the Conference on Computer Vision and Pattern Recognition (CVPR) (2023)

MaMMUT: A Simple Vision-Encoder Text-Decoder Architecture for MultiModal Tasks

Weicheng Kuo

AJ Piergiovanni

Dahun Kim

Xiyang Luo

Ben Caine

Wei Li

Abhijit Ogale

Luowei Zhou

Andrew Dai

Zhifeng Chen

Claire Cui

Anelia Angelova

Transactions on Machine Learning Research (2023)

F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models

Weicheng Kuo

Yin Cui

Xiuye Gu

AJ Piergiovanni

Anelia Angelova

ICLR (2023)

Diversifying Joint Vision-Language Tokenization Learning

Vardaan Pahuja

AJ Piergiovanni

Anelia Angelova

Transformers for Vision (T4V) Workshop at the Conference on Computer Vision and Pattern Recognition (CVPR) (2023)

Defining the technology of today and tomorrow.

Philosophy

People

Research areas

Foundational ML & Algorithms

Computing Systems & Quantum AI

Science, AI & Society

Projects

Publications

Resources

Shaping the future, together.

Student programs

Faculty programs

Conferences & events

Anelia Angelova

Research Areas

Join us

Defining the technology of today and tomorrow.

Philosophy

People

Research areas

Foundational ML & Algorithms

Computing Systems & Quantum AI

Science, AI & Society

Projects

Publications

Resources

Shaping the future, together.

Student programs

Faculty programs

Conferences & events

Anelia Angelova

Research Areas

Filter by:

Publications

Years

Research Areas

Teams

Join us