Weicheng Kuo

Dynamic Pre-training of Vision-Language Models

AJ Piergiovanni

Weicheng Kuo

Wei Li

Anelia Angelova

ICLR 2023 Workshop on Multimodal Representation Learning (2023)

MaMMUT: A Simple Vision-Encoder Text-Decoder Architecture for MultiModal Tasks

Weicheng Kuo

AJ Piergiovanni

Dahun Kim

Xiyang Luo

Ben Caine

Wei Li

Abhijit Ogale

Luowei Zhou

Andrew Dai

Zhifeng Chen

Claire Cui

Anelia Angelova

Transactions on Machine Learning Research (2023)

PaLI: A Jointly-Scaled Multilingual Language-Image Model

Xi Chen

Xiao Wang

Soravit Changpinyo

AJ Piergiovanni

Piotr Padlewski

Daniel Salz

Sebastian Alexander Goodman

Adam Grycner

Basil Mustafa

Lucas Beyer

Alexander Kolesnikov

Joan Puigcerver

Nan Ding

Keran Rong

Hassan Akbari

Gaurav Mishra

Linting Xue

Ashish Thapliyal

James Bradbury

Weicheng Kuo

Mojtaba Seyedhosseini

Chao Jia

Burcu Karagol Ayan

Carlos Riquelme

Andreas Steiner

Anelia Angelova

Xiaohua Zhai

Neil Houlsby

Radu Soricut

International Conference on Learning Representations (ICLR) (2023)

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning

AJ Piergiovanni

Weicheng Kuo

Anelia Angelova

CVPR (2023)

Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers

Dahun Kim

Anelia Angelova

Weicheng Kuo

Conference on Computer Vision and Pattern Recognition (CVPR) (2023)

F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models

Weicheng Kuo

Yin Cui

Xiuye Gu

AJ Piergiovanni

Anelia Angelova

ICLR (2023)

Learning Open-World Object Proposals without Learning to Classify

Dahun Kim

Tsung-Yi Lin

Anelia Angelova

In So Kweon

Weicheng Kuo

Robotics and Automation Letters (RA-L) Journal and International Conference on Robotics and Automation (ICRA) (2022)

FindIt: Generalized Localization with Natural Language Queries

Weicheng Kuo

Fred Bertsch

Wei Li

AJ Piergiovanni

Mohammad Taghi Saffar

Anelia Angelova

European Conference on Computer Vision (ECCV) (2022)

Pre-training image-language transformers for open-vocabulary tasks

AJ Piergiovanni

Weicheng Kuo

Anelia Angelova

Transformers for Vision Workshop, CVPR (2022)

Answer-Me: Multi-Task Open-Vocabulary Learning for Visual Question-Answering

AJ Piergiovanni

Wei Li

Weicheng Kuo

Mohammad Taghi Saffar

Fred Bertsch

Anelia Angelova

CVPR Workshop (2022)

Explore our many areas of focus

Building a collaborative ecosystem

Shaping the future together

Translating discovery into real-world impact

Weicheng Kuo

Research Areas

Join us

Google AI

Google Cloud

Google DeepMind

Google Labs

Weicheng Kuo

Research Areas

Filter by:

Publications

Years

Research Areas

Teams

Join us