Soravit (Beer) Changpinyo

PaLI-X: On Scaling up a Multilingual Vision and Language Model

Xi Chen

Josip Djolonga

Piotr Padlewski

Basil Mustafa

Beer Changpinyo

Jialin Wu

Carlos Riquelme

Sebastian Goodman

Xiao Wang

Yi Tay

Siamak Shakeri

Mostafa Dehghani

Daniel Salz

Mario Lučić

Michael Tschannen

Arsha Nagrani

Hexiang (Frank) Hu

Mandar Joshi

Bo Pang

Ceslee Montgomery

Paulina Pietrzyk

Marvin Ritter

AJ Piergiovanni

Matthias Minderer

Filip Pavetić

Austin Waters

Gang Li

Ibrahim Alabdulmohsin

Lucas Beyer

Julien Amelot

Kenton Lee

Andreas Steiner

Yang Li

Daniel Keysers

Anurag Arnab

Yuanzhong Xu

Keran Rong

Alexander Kolesnikov

Mojtaba Seyedhosseini

Anelia Angelova

Xiaohua Zhai

Neil Houlsby

Radu Soricut

Computer Vision and Pattern Recognition Conference (CVPR) (2024)

PreSTU: Pre-Training for Scene-Text Understanding

Jihyung Kil

Beer Changpinyo

Xi Chen

Hexiang (Frank) Hu

Sebastian Goodman

Wei-Lun Chao

Radu Soricut

ICCV (2023)

Connecting Vision and Language with Video Localized Narratives

Paul Voigtlaender

Beer Changpinyo

Jordi Pont-Tuset

Radu Soricut

Vittorio Ferrari

IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR) 2023 (to appear)

MaXM: Towards Multilingual Visual Question Answering

Beer Changpinyo

Linting Xue

Michal Yarom

Ashish Thapliyal

Idan Szpektor

Julien Amelot

Xi Chen

Radu Soricut

Findings of ACL: EMNLP (2023)

PaLI: A Jointly-Scaled Multilingual Language-Image Model

Xi Chen

Xiao Wang

Soravit Changpinyo

AJ Piergiovanni

Piotr Padlewski

Daniel Salz

Sebastian Alexander Goodman

Adam Grycner

Basil Mustafa

Lucas Beyer

Alexander Kolesnikov

Joan Puigcerver

Nan Ding

Keran Rong

Hassan Akbari

Gaurav Mishra

Linting Xue

Ashish Thapliyal

James Bradbury

Weicheng Kuo

Mojtaba Seyedhosseini

Chao Jia

Burcu Karagol Ayan

Carlos Riquelme

Andreas Steiner

Anelia Angelova

Xiaohua Zhai

Neil Houlsby

Radu Soricut

International Conference on Learning Representations (ICLR) (2023)

MetaCLUE: Towards Comprehensive Visual Metaphors Research

Arjun R. Akula

Brendan Driscoll

Pradyumna Narayana

Soravit Changpinyo

Zhiwei Jia

Suyash Damle

Garima Pruthi

Sugato Basu

Leonidas Guibas

William T. Freeman

Yuanzhen Li

Varun Jampani

CVPR (2023)

What You See is What You Read? Improving Text-Image Alignment Evaluation

Michal Yarom

Yonatan Bitton

Beer Changpinyo

Roee Aharoni

Jonathan Herzig

Oran Lang

Eran Ofek

Idan Szpektor

arXiv (2023)

All You May Need for VQA are Image Captions

Beer Changpinyo

Doron Kukliansky

Idan Szpektor

Xi Chen

Nan Ding

Radu Soricut

NAACL (2022)

MosaicOS: A Simple and Effective Use of Object-Centric Images for Long-Tailed Object Detection

Cheng Zhang

Tai-Yu Pan

Yandong Li

Hexiang (Frank) Hu

Dong Xuan

Beer Changpinyo

Boqing Gong

Wei-Lun Chao

ICCV (2021)

CrossVQA: Scalably Generating Benchmarks for Systematically Testing VQA Generalization

Arjun R. Akula

Beer Changpinyo

Boqing Gong

Piyush Sharma

Song-Chun Zhu

Radu Soricut

EMNLP (2021)

Defining the technology of today and tomorrow.

Philosophy

People

Research areas

Foundational ML & Algorithms

Computing Systems & Quantum AI

Science, AI & Society

Projects

Publications

Resources

Shaping the future, together.

Student programs

Faculty programs

Conferences & events

Soravit (Beer) Changpinyo

Research Areas

Join us

Defining the technology of today and tomorrow.

Philosophy

People

Research areas

Foundational ML & Algorithms

Computing Systems & Quantum AI

Science, AI & Society

Projects

Publications

Resources

Shaping the future, together.

Student programs

Faculty programs

Conferences & events

Soravit (Beer) Changpinyo

Research Areas

Filter by:

Publications

Years

Research Areas

Teams

Join us