CoMet: Context and Multiplicity Decomposition for Multimodal Uncertainty Estimation

[paper] [website] [bibtex]

vision and language

multimodal learning

uncertainty

Video Models Reason Early: Exploiting Plan Commitment for Maze Solving

Kaleb Newman, Tyler Zhu and Olga Russakovsky

arxiv preprint arXiv:2603.30043, 2026.

video

video generation

reasoning

test-time inference

ReFINE: Reinforced Fast Weights with Next Sequence Prediction

Hee Seung Hwang*, Xindi Wu*, Sanghyuk Chun and Olga Russakovsky

(* = equal contribution)

arxiv preprint arXiv:2602.16704, 2026.

test time training

reinforcement learning

LLMs

Bias at the End of the Score

Salma Abdel Magid, Grace Guo, Esin Tureci, Amaya Dharmasiri, Vikram V. Ramaswamy, Hanspeter Pfister and Olga Russakovsky

Computer Vision and Pattern Recognition (CVPR), 2026.

reward models

human preference

text-to-image models

model bias

AI fairness

transparency and explainability

Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification

William Yang, Xindi Wu, Zhiwei Deng, Esin Tureci and Olga Russakovsky

Computer Vision and Pattern Recognition (CVPR), 2026.

synthetic data generation

classification

Image Enhancement: A Necessity for Effective Underwater Object Detection?

Lujun Zhai, Ye Zhu, Olga Russakovsky and Suxia Cui

Engineering Applications of Artificial Intelligence (EAAI), 2026.

[bibtex]

image enhancement

computer vision

EgoPolice: A Benchmark for Egocentric Video Understanding in High-Stakes Police Body-Worn Camera Footage

Max Gonzalez Saez-Diez*, Jihoon Chung*, Adam D. Wolsky, Gregory Lanzalotto, Dean Knox, Jonathan Mummolo, Brandon M. Stewart and Olga Russakovsky

(* = equal contribution)

European Conference on Computer Vision (ECCV), 2026.

egocentric dataset

video understanding

police body-worn camera analysis

Visual Compositional Tuning

Xindi Wu*, Hee Seung Hwang*, Polina Kirichenko, Esin Tureci and Olga Russakovsky

(* = equal contribution)

International Conference on Learning Representations (ICLR), 2026.

compositionality

vision and language

data for efficient learning

Position: Multiplicity is an Inevitable and Inherent Challenge in Multimodal Learning

Sanghyuk Chun and Olga Russakovsky

International Conference on Machine Learning (ICML), 2026.

multimodal learning

multiplicity

Prioritize the Process, Not Just the Outcome: Rewarding Latent Thought Trajectories Improves Reasoning in Looped Language Models

Jonathan Williams, Esin Tureci and Olga Russakovsky

International Conference on Machine Learning (ICML), 2026.

LLMs

GASS: Geometry-Aware Spherical Sampling for Disentangled Diversity Enhancement in Text-to-Image Generation

Ye Zhu, Kaleb S. Newman, Johannes F. Lutzeyer, Adriana Romero-Soriano, Michal Drozdzal and Olga Russakovsky

International Conference on Machine Learning (ICML), 2026.

[paper] [website] [bibtex]

text-to-image models

image generation

Motion Attribution for Video Generation

Xindi Wu, Despoina Paschalidou, Jun Gao, Antonio Torralba, Laura Leal-Taixé, Olga Russakovsky, Sanja Fidler and Jonathan Lorraine

International Conference on Machine Learning (ICML), 2026.

diffusion models

video generation

data attribution

Machine Understanding

Huili Chen, Stephen R. Grimm, Olga Russakovsky and Tania Lombrozo

Trends in Cognitive Sciences, 2026.

cognitive science

A Sampling-Based Domain Generalization Study with Diffusion Generative Models

Ye Zhu, Yu Wu, Duo Xu, Zhiwei Deng, Yan Yan and Olga Russakovsky

arxiv preprint arXiv:2310.09213, 2025.

diffusion models

synthetic image generation

OOD image generation

D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation

Nobline Yoo, Olga Russakovsky and Ye Zhu

arxiv preprint arXiv:2510.19278, 2025.

[paper] [Code for study 1] [Code for study 2] [Earlier version from CHI '25 Extended Abstracts] [Earlier version from CogSci '25] [bibtex]

image generation

diffusion

alignment

numeracy

Presenting Large Language Models as Companions Affects What Mental Capacities People Attribute to Them

Allison Chen, Sunnie S. Y. Kim, Angel Franyutti, Amaya Dharmasiri, Kushin Mukherjee, Olga Russakovsky and Judith E. Fan

ACM Conference on Human Factors in Computing Systems (CHI), 2025.

human-AI interaction

psychology

mental capacity attributions

reliance

Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies

Sunnie S. Y. Kim, Jennifer Wortman Vaughan, Q. Vera Liao, Tania Lombrozo and Olga Russakovsky

ACM Conference on Human Factors in Computing Systems (CHI), 2025.

human-AI interaction

trust and reliance

Interactivity x Explainability: Toward Understanding How Interactivity Can Improve Computer Vision Explanations

Indu Panigrahi, Sunnie S. Y. Kim*, Amna Liaqat*, Rohan Jinturkar, Olga Russakovsky, Ruth Fong and Parastoo Abtahi

(* = equal contribution)

ACM Conference on Human Factors in Computing Systems (CHI), Extended Abstract Track, 2025.

[bibtex]

human-AI interaction

transparency and explainability

Dynamic Diffusion Schrodinger Bridge in Astrophysical Observational Inversions

Ye Zhu, Duo Xu, Zhiwei Deng, Jonathan Tan and Olga Russakovsky

Advances in Neural Information Processing Systems (NeurIPS), 2025.

[bibtex]

diffusion models

The Impact of Coreset Selection on Spurious Correlations and Group Robustness

Amaya Dharmasiri, William Yang, Polina Kirichenko, Lydia Liu and Olga Russakovsky

Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track, 2025.

coreset selection

data selection

spurious correlations

bias

group robustness

Attention IoU: Examining Biases in CelebA using Attention Maps

Aaron Serianni, Tyler Zhu, Olga Russakovsky and Vikram V. Ramaswamy

Computer Vision and Pattern Recognition (CVPR), 2025.

interpretability

model bias

AI fairness

transparency and explainability

D^3: Scaling Up Deepfake Detection by Learning from Discrepancy

Yongqi Yang, Zhihao Qian, Ye Zhu, Olga Russakovsky and Yu Wu

Computer Vision and Pattern Recognition (CVPR), 2025.

deepfake detection

scaling

The Silent Assistant: NoiseQuery as Implicit Guidance for Goal-Driven Image Generation

Ruoyu Wang, Huayang Huang, Ye Zhu, Olga Russakovsky and Yu Wu

International Conference on Computer Vision (ICCV), 2025.

[paper] [website] [bibtex]

diffusion models

synthetic image generation

tuning-free control

Action as Language: Fine-Tuning VLMs into VLAs Without Catastrophic Forgetting

Asher J. Hancock, Xindi Wu, Lihan Zha, Olga Russakovsky and Anirudha Majumdar

International Conference on Learning Representations (ICLR), 2025.

robotics

VLA

VLM

Unifying Specialized Visual Encoders for Video Language Models

Jihoon Chung*, Tyler Zhu*, Max Gonzalez Saez-Diez, Juan Carlos Niebles, Honglu Zhou and Olga Russakovsky

International Conference on Machine Learning (ICML), 2025.

video

video understanding

multimodal LLMs

ICONS: Influence Consensus for Vision-Language Data Selection

Xindi Wu, Mengzhou Xia, Rulin Shao, Zhiwei Deng, Pang Wei Koh and Olga Russakovsky

arXiv preprint arXiv:2501.00654, 2024.

vision and language

data selection

data for efficient learning

ImageNet-OOD: Deciphering Modern Out-of-Distribution Detection Algorithms

William Yang, Byron Zhang and Olga Russakovsky

International Conference on Learning Representations (ICLR), 2024.

OOD

analysis

dataset

What is Dataset Distillation Learning?

William Yang, Ye Zhu, Zhiwei Deng and Olga Russakovsky

International Conference on Machine Learning (ICML), 2024.

dataset distillation

ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty

Xindi Wu*, Dingli Yu*, Yangsibo Huang*, Olga Russakovsky and Sanjeev Arora

Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track, 2024.

compositionality

image generation

evaluation

Benchmark Suites Instead of Leaderboards for Evaluating AI Fairness

Angelina Wang, Aaron Hertzmann and Olga Russakovsky

Patterns, 2024.

evaluation

AI fairness

Analyzing the Roles of Language and Vision in Learning from Limited Data

Allison Chen, Ilia Sucholutsky, Olga Russakovsky and Tom Griffiths

Proceedings of the Annual Meeting of the Cognitive Science Society (CogSci), 2024.

vision and language

cognitive science

cognitive architecture

Vision-Language Dataset Distillation

Xindi Wu, Byron Zhang, Zhiwei Deng and Olga Russakovsky

Transactions on Machine Learning Research (TMLR), 2024.

vision and language

dataset distillation

data for efficient learning

DETER: Detecting Edited Regions for Deterring Generative Manipulations

Sai Wang, Ye Zhu, Ruoyu Wang, Amaya Dharmasiri, Olga Russakovsky and Yu Wu

arxiv preprint arXiv:2312.10539, 2023.

deepfake detection

diffusion models

ICON^2: Reliably Benchmarking Predictive Inequity in Object Detection

Sruthi Sudhakar, Viraj Prabhu, Olga Russakovsky and Judy Hoffman

arXiv preprint arXiv:2306.04482, 2023.

object detection

evaluation

fairness benchmarking

Humans, AI, and Context: Understanding End-Users' Trust in a Real-World Computer Vision Application

Sunnie S. Y. Kim, Elizabeth Anne Watkins, Olga Russakovsky, Ruth Fong and Andres Monroy-Hernandez

ACM Conference on Fairness, Accountability, and Transparency (FAccT), 2023.

[paper] [supplement] [30-sec video] [10-min video] [bibtex]

human-AI interaction

trust and reliance

"Help Me Help the AI": Understanding How Explainability Can Support Human-AI Interaction

Sunnie S. Y. Kim, Elizabeth Anne Watkins, Olga Russakovsky, Ruth Fong and Andres Monroy-Hernandez

ACM Conference on Human Factors in Computing Systems (CHI), 2023.

human-AI interaction

transparency and explainability

Overlooked Factors in Concept-based Explanations: Dataset Choice, Concept Learnability, and Human Capability

Vikram V. Ramaswamy, Sunnie S. Y. Kim, Ruth Fong and Olga Russakovsky

Computer Vision and Pattern Recognition (CVPR), 2023.

faithfulness

explainability

Overwriting Pretrained Bias with Finetuning Data

Angelina Wang and Olga Russakovsky

International Conference on Computer Vision (ICCV), 2023.

algorithmic intervention

AI fairness

Gender Artifacts in Visual Datasets

Nicole Meister*, Dora Zhao*, Angelina Wang, Vikram V. Ramaswamy, Ruth Fong and Olga Russakovsky

(* = equal contribution)

International Conference on Computer Vision (ICCV), 2023.

data analysis

AI fairness

Efficient, Self-Supervised Human Pose Estimation with Inductive Prior Tuning

Nobline Yoo and Olga Russakovsky

International Conference on Computer Vision (ICCVW) ROAD++ Workshop, 2023.

human pose estimation

self-supervised

Discrete Diffusion Reward Guidance Methods for Offline Reinforcement Learning

Matthew Coleman, Olga Russakovsky, Christine Allen-Blanchette and Ye Zhu

International Conference on Machine Learning (ICMLW) Sampling and Optimization in Discrete Space Workshop, 2023.

offline RL

diffusion policy

Boundary Guided Learning-Free Semantic Control with Diffusion Models

Ye Zhu, Yu Wu, Zhiwei Deng, Olga Russakovsky and Yan Yan

Neural Information Processing Systems (NeurIPS), 2023.

diffusion models

image generation

controllable generation

GeoDE: a Geographically Diverse Evaluation Dataset for Object Recognition

Vikram V. Ramaswamy, Sing Yu Lin, Dora Zhao, Aaron B. Adcock, Laurens van der Maaten, Deepti Ghadiyaram and Olga Russakovsky

Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track, 2023.

new benchmark

object recognition

geodiversity

Predicting Word Learning in Children from the Performance of Computer Vision Systems

Sunayana Rane, Mira L. Nencheva, Zeyu Wang, Casey Lew-Williams, Olga Russakovsky and Thomas L. Griffiths

Proceedings of the Annual Meeting of the Cognitive Science Society (CogSci), 2023.

[paper] [extended white paper] [bibtex]

language acquisition

computer vision

classification

Art and the Science of Generative AI

Ziv Epstein, Aaron Hertzmann, the Investigators of Human Creativity (Memo Akten, Hany Farid, Jessica Fjeld, Morgan R. Frank, Matthew Groh, Laura Herman, Neil Leach, Robert Mahari, Alex Pentland, Olga Russakovsky, Hope Schroeder and Amy Smith)

Science Perspectives, 2023.

AI and society

ELUDE: Generating Interpretable Explanations via a Decomposition into Labelled and Unlabelled Features

Vikram V. Ramaswamy, Sunnie S. Y. Kim, Nicole Meister, Ruth Fong and Olga Russakovsky

arXiv preprint arXiv:2206.07690, 2022.

interpretability

explainable AI

global explanations

Towards Intersectionality in Machine Learning: Including More Identities, Handling Underrepresentation, and Performing Evaluation

Angelina Wang, Vikram V. Ramaswamy and Olga Russakovsky

ACM Conference on Fairness, Accountability, and Transparency (FAccT), 2022.

intersectionality

machine learning fairness

CARETS: A Consistency And Robustness Evaluative Test Suite for VQA

Carlos E. Jimenez, Olga Russakovsky and Karthik Narasimhan

Association for Computational Linguistics (ACL), 2022.

multimodal model robustness

VQA

Siri: A simple selective retraining mechanism for transformer-based visual grounding

Mengxue Qu, Yu Wu, Wu Liu, Qiqi Gong, Xiaodan Liang, Olga Russakovsky, Yao Zhao and Yunchao Wei

European Conference on Computer Vision (ECCV), 2022.

[paper] [code] [website] [extended abstract] [2-min video] [8-min video] [bibtex]

Visual grounding

Transformer

Generalization

HIVE: Evaluating the Human Interpretability of Visual Explanations

Sunnie S. Y. Kim, Nicole Meister, Vikram V. Ramaswamy, Ruth Fong and Olga Russakovsky

European Conference on Computer Vision (ECCV), 2022.

human-AI interaction

transparency and explainability

Multi-Query Video Retrieval

Zeyu Wang, Yu Wu, Karthik Narasimhan and Olga Russakovsky

European Conference on Computer Vision (ECCV), 2022.

[paper] [code] [project] [bibtex]

Video retrieval

Multi-query

Evaluation

A Study of Face Obfuscation in ImageNet

Kaiyu Yang, Jacqueline Yau, Li Fei-Fei, Jia Deng and Olga Russakovsky

International Conference on Machine Learning (ICML), 2022.

privacy-aware visual recognition

face attribute classification

detection

privacy protection

REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets

Angelina Wang, Alexander Liu, Ryan Zhang, Anat Kleiman, Leslie Kim, Dora Zhao, Iroha Shirai, Arvind Narayanan and Olga Russakovsky

International Journal of Computer Vision (IJCV), 2022.

computer vision datasets

bias mitigation

Remember the Past: Distilling Datasets into Addressable Memories for Neural Networks

Zhiwei Deng and Olga Russakovsky

Neural Information Processing Systems (NeurIPS), 2022.

dataset distillation

memory addressing

continual learning

Enabling Detailed Action Recognition Evaluation Through Video Dataset Augmentation

Jihoon Chung, Yu Wu and Olga Russakovsky

Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track, 2022.

human action recognition

background bias

segmentation

Learning Actionness from Action/Background Discrimination

Ozge Yalcinkaya Simsek, Olga Russakovsky and Pinar Duygulu

Signal, Image and Video Processing (SIViP), 2022.

Actionness

Action localization

Action segmentation

Video representation

Fair Attribute Classification through Latent Space De-biasing

Vikram V. Ramaswamy, Sunnie S. Y. Kim and Olga Russakovsky

Computer Vision and Pattern Recognition (CVPR), 2021.

data augmentation

GANs

attribute bias

Point and Ask: Incorporating Pointing into Visual Question Answering

Arjun Mani, Nobline Yoo, Will Hinthorn and Olga Russakovsky

Computer Vision and Pattern Recognition (CVPRW) Visual Question Answering Workshop, 2021.

VQA

data

pointing

human supervision

Understanding and Evaluating Racial Biases in Image Captioning

Dora Zhao, Angelina Wang and Olga Russakovsky

International Conference on Computer Vision (ICCV), 2021.

biases in image captioning

evaluating bias

Directional Bias Amplification

Angelina Wang and Olga Russakovsky

International Conference on Machine Learning (ICML), 2021.

directional bias amplification

causality

[Re] Don't Judge an Object by Its Context: Learning to Overcome Contextual Bias

Sunnie S. Y. Kim, Sharon Zhang, Nicole Meister and Olga Russakovsky

ML Reproducibility Challenge, 2020.

ReScience C, 2021.

data

CornerNet-Lite: Efficient Keypoint Based Object Detection

Hei Law, Yun Teng, Olga Russakovsky and Jia Deng

British Machine Vision Conference (BMVC), 2020.

[paper] [code] [1-min video] [bibtex]

key-point based detection

efficient object detection

Towards Fairness In Visual Recognition: Effective Strategies For Bias Mitigation

Zeyu Wang, Klint Qinami, Ioannis C. Karakozis, Kyle Genova, Prem Nair, Kenji Hata and Olga Russakovsky

Computer Vision and Pattern Recognition (CVPR), 2020.

visual recognition benchmark

bias mitigation

Take The Scenic Route: Improving Generalization In Vision-and-language Navigation

Felix Yu, Zhiwei Deng, Karthik Narasimhan and Olga Russakovsky

Computer Vision and Pattern Recognition (CVPRW) Visual Learning with Limited Labels Workshop, 2020.

[paper] [code] [video] [bibtex]

action priors

Vision-and-Language Navigation

generalization

Towards Fairer Datasets: Filtering And Balancing The Distribution Of The People Subtree In The Imagenet Hierarchy

Kaiyu Yang, Klint Qinami, Li Fei-Fei, Jia Deng and Olga Russakovsky

Conference on Fairness, Accountability and Transparency (FAT*), 2020.

[paper] [project] [Wired article] [bibtex]

dataset balancing

visual recognition

dataset bias

algorithmic fairness

REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets

Angelina Wang, Arvind Narayanan and Olga Russakovsky

European Conference on Computer Vision (ECCV), 2020.

[paper] [code] [video] [90-sec video] [10-min video] [bibtex]

computer vision datasets

bias mitigation

Towards Unique and Informative Captioning of Images

Zeyu Wang, Berthy Feng, Karthik Narasimhan and Olga Russakovsky

European Conference on Computer Vision (ECCV), 2020.

[paper] [code] [1-min video] [10-min video] [bibtex]

informative image captioning

Evolving Graphical Planner: Contextual Global Planning for Vision-and-Language Navigation

Zhiwei Deng, Karthik Narasimhan and Olga Russakovsky

Neural Information Processing Systems (NeurIPS), 2020.

vision and language navigation

long-range planning

graphical planning

Compositional Temporal Visual Grounding of Natural Language Event Descriptions

Jonathan Stroud, Ryan McCaffrey, Rada Mihalcea, Jia Deng and Olga Russakovsky

arxiv preprint arXiv:1912.02256, 2019.

video understanding

temporal grounding

Human Uncertainty Makes Classification More Robust

Joshua C. Peterson*, Ruairidh M. Battleday*, Thomas L. Griffiths and Olga Russakovsky

(* = equal contribution)

International Conference on Computer Vision (ICCV), 2019.

uncertainty

cognition

An Adversarially Crowdsourced Benchmark For Spatial Relation Recognition

Kaiyu Yang, Olga Russakovsky and Jia Deng

International Conference on Computer Vision (ICCV), 2019.

data

crowdsourced benchmark

Spatialsense: An adversarially crowdsourced benchmark for spatial relation recognition

Kaiyu Yang, Olga Russakovsky and Jia Deng

Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019.

[paper] [code] [supplement] [bibtex]

spatial relationship recognition

benchmarking

adversarial crowdsourcing

The more you look, the more you see: towards general object understanding through recursive refinement

Jingyan Wang, Olga Russakovsky and Deva Ramanan

Winter Conference on Applications of Computer Vision (WACV), 2018.

object understanding

What's in a Question: Using Visual Questions as a Form of Supervision

Siddha Ganju, Olga Russakovsky and Abhinav Gupta

Computer Vision and Pattern Recognition (CVPR), 2017.

VQA

Predictive-Corrective Networks for Action Detection

Achal Dave, Olga Russakovsky and Deva Ramanan

Computer Vision and Pattern Recognition (CVPR), 2017.

[paper] [poster] [bibtex]

action detection

Learning to Learn from Noisy Web Videos

Serena Yeung, Vignesh Ramanathan, Olga Russakovsky, Liyue Shen, Greg Mori and Li Fei-Fei

Computer Vision and Pattern Recognition (CVPR), 2017.

video

human action recognition

What Actions Are Needed For Understanding Human Actions In Videos?

Gunnar Sigurdsson, Olga Russakovsky and Abhinav Gupta

International Conference on Computer Vision (ICCV), 2017.

human action recognition

Every Moment Counts: Dense Detailed Labeling of Actions in Complex Videos

Serena Yeung, Olga Russakovsky, Ning Jin, Mykhaylo Andriluka, Greg Mori and Li Fei-Fei

International Journal of Computer Vision (IJCV), 2017.

data annotation

End-to-end Learning of Action Detection from Frame Glimpses in Videos

Serena Yeung, Olga Russakovsky, Greg Mori and Li Fei-Fei

Computer Vision and Pattern Recognition (CVPR), 2016.

[paper] [project] [poster] [slides key] [slides pdf] [bibtex]

video

human action recognition

Much Ado About Time: Exhaustive Annotation of Temporal Data

Gunnar A. Sigurdsson, Olga Russakovsky, Ali Farhadi, Ivan Laptev and Abhinav Gupta

Conference on Human Computation and Crowdsourcing (HCOMP), 2016.

data annotation

What's the Point: Semantic Segmentation with Point Supervision

Amy Bearman, Olga Russakovsky, Vittorio Ferrari and Li Fei-Fei

European Conference on Computer Vision (ECCV), 2016.

semantic segmentation

Crowdsourcing in Computer Vision

Adriana Kovashka, Olga Russakovsky, Li Fei-Fei and Kristen Grauman

Foundation and Trends in Computer Vision and Graphics, 2016.

[paper] [SAILORS camp homepage] [Wired article] [bibtex]

data annotation

Towards More Gender Diversity in CS through an Artificial Intelligence Summer Program for High School Girls

Marie E. Vachovsky, Grace Wu, Sorathan Chaturapruek, Olga Russakovsky, Rick Sommer and Li Fei-Fei

Special Interest Group on Computer Science Education (SIGCSE), 2016.

outreach

Best of both worlds: human-machine collaboration for object annotation

Olga Russakovsky, Li-Jia Li and Li Fei-Fei

Computer Vision and Pattern Recognition (CVPR), 2015.

human-in-the-loop

data annotation

Joint calibration of Ensemble of Exemplar SVMs

Davide Modolo, Alexander Vezhnevets, Olga Russakovsky and Vittorio Ferrari

Computer Vision and Pattern Recognition (CVPR), 2015.