Papers

Papers.

My recent research has been focused on developing robust safety systems for large-language models (LLMs) in order to prevent catastrophic misuse of AI.

In the past, I've investigated the mechanisms that LLMs use to perform in-context learning, how to improve their capabilities, and in what ways we can better align them with our values. I've also worked on improving medical-image classification algorithms by incorporating popular computer-vision methods into the medical-image setting.

^Blog-post only.

View on Google Scholar

2026

Jailbroken Frontier Models Retain Their Capabilities.

Daniel Zhu, Zihan Wang, Jenny Bao, Jerry Wei.

Poisoning Fine-tuning Datasets of Constitutional Classifiers.^

Chase Bowers, Faizan Ali, John Hughes, Jerry Wei, Fabien Roger.

[Anthropic blog]

Segment-Level Coherence for Robust Harmful Intent Probing in LLMs.

Xuanli He, Bilgehan Sel, Faizan Ali, Jenny Bao, Hoagy Cunningham, Jerry Wei.

Trojan-Speak: Bypassing Constitutional Classifiers with No Jailbreak Tax via Adversarial Finetuning.

Bilgehan Sel, Xuanli He, Alwin Peng, Ming Jin, Jerry Wei.

ICML 2026.

Constitutional Classifiers++: Efficient Production-Grade Defenses against Universal Jailbreaks.

Hoagy Cunningham*, Jerry Wei*, Zihan Wang, Andrew Persic, Alwin Peng, Jordan Abderrachid, Raj Agarwal, Bobby Chen, Austin Cohen, Andy Dau, Alek Dimitriev, Rob Gilson, Logan Howard, Yijin Hua, Jared Kaplan, Jan Leike, Mu Lin, Christopher Liu, Vladimir Mikulik, Rohit Mittapalli, Clare O'Hara, Jin Pan, Nikhil Saxena, Alex Silverstein, Yue Song, Xunjie Yu, Giulio Zhou, Ethan Perez, Mrinank Sharma.

ICLR 2026. [Anthropic blog] [tweet]

* Equal contribution.

2025

Cost-Effective Constitutional Classifiers via Representation Re-use.^

Hoagy Cunningham, Alwin Peng, Jerry Wei, Euan Ong, Fabien Roger, Linda Petrini, Misha Wagner, Vladimir Mikulik, Mrinank Sharma.

[Anthropic blog]

Constitutional classifiers: defending against universal jailbreaks across thousands of hours of red teaming.

Mrinank Sharma*, Meg Tong*, Jesse Mu*, Jerry Wei*, Jorrit Kruthoff*, Scott Goodfriend*, Euan Ong*, Alwin Peng, Raj Agarwal, Cem Anil, Amanda Askell, Nathan Bailey, Joe Benton, Emma Bluemke, Samuel R. Bowman, Eric Christiansen, Hoagy Cunningham, Andy Dau, Anjali Gopal, Rob Gilson, Logan Graham, Logan Howard, Nimit Kalra, Taesung Lee, Kevin Lin, Peter Lofgren, Francesco Mosconi, Clare O'Hara, Catherine Olsson, Linda Petrini, Samir Rajani, Nikhil Saxena, Alex Silverstein, Tanya Singh, Theodore Sumers, Leonard Tang, Kevin K. Troy, Constantin Weisser, Ruiqi Zhong, Giulio Zhou, Jan Leike, Jared Kaplan, Ethan Perez.

[Anthropic blog] [tweet] [video]

* Equal contribution.

2024

Evaluating feature steering: A case study in mitigating social biases.^

Esin Durmus, Alex Tamkin, Jack Clark, Jerry Wei, Jonathan Marcus, Joshua Batson, Kunal Handa, Liane Lovitt, Meg Tong, Miles McCain, Oliver Rausch, Saffron Huang, Sam Bowman, Stuart Ritchie, Tom Henighan, Deep Ganguli.

[Anthropic blog] [tweet]

Best Practices and Lessons Learned on Synthetic Data for Language Models.

Ruibo Liu, Jerry Wei, Fangyu Liu, Chenglei Si, Yanzhe Zhang, Jinmeng Rao, Steven Zheng, Daiyi Peng, Diyi Yang, Denny Zhou, Andrew M. Dai.

COLM 2024. [tweet]

Long-form factuality in large language models.

Jerry Wei*, Chengrun Yang*, Xinying Song*, Yifeng Lu*, Nathan Hu, Jie Huang, Dustin Tran, Daiyi Peng, Ruibo Liu, Da Huang, Cosmo Du, Quoc V. Le.

NeurIPS 2024. [code] [slides] [tweet]

* Lead contributor.

2023

FreshLLMs: Refreshing large language models with search engine augmentation.

Tu Vu, Mohit Iyyer, Xuezhi Wang, Noah Constant, Jerry Wei, Jason Wei, Chris Tar, Yun-Hsuan Sung, Denny Zhou, Quoc V. Le, Thang Luong.

Findings of ACL 2024. [code] [tweet]

Simple synthetic data reduces sycophancy in large language models.

Jerry Wei, Da Huang, Yifeng Lu, Denny Zhou, Quoc V. Le.

[code] [tweet]

Symbol tuning improves in-context learning in language models.

Jerry Wei, Le Hou, Andrew Lampinen, Xiangning Chen, Da Huang, Yi Tay, Xinyun Chen, Yifeng Lu, Denny Zhou, Tengyu Ma, Quoc V. Le.

EMNLP 2023. [code] [Google AI blog] [slides] [talk] [tweet]

Larger language models do in-context learning differently.

Jerry Wei, Jason Wei, Yi Tay, Dustin Tran, Albert Webson, Yifeng Lu, Xinyun Chen, Hanxiao Liu, Da Huang, Denny Zhou, Tengyu Ma.

[Google AI blog] [slides] [tweet]

2022

Calibrating histopathology image classifiers using label smoothing.

Jerry Wei, Lorenzo Torresani, Jason Wei, Saeed Hassanpour.

AIME 2022.

2021

A petri dish for histopathology image analysis.

Jerry Wei, Arief Suriawinata, Bing Ren, Xiaoying Liu, Mikhail Lisovsky, Louis Vaickus, Charles Brown, Michael Baker, Naofumi Tomita, Lorenzo Torresani, Jason Wei, Saeed Hassanpour.

AIME 2021. [code]

2020

Learn like a pathologist: curriculum learning by annotator agreement for histopathology image classification.

Jerry Wei, Arief Suriawinata, Bing Ren, Xiaoying Liu, Mikhail Lisovsky, Louis Vaickus, Charles Brown, Michael Baker, Mustafa Nasir-Moin, Naofumi Tomita, Lorenzo Torresani, Jason Wei, Saeed Hassanpour.

WACV 2021. [talk] [blog]

Difficulty translation in histopathology images.

Jerry Wei, Arief Suriawinata, Xiaoying Liu, Bing Ren, Mustafa Nasir-Moin, Naofumi Tomita, Jason Wei, Saeed Hassanpour.

AIME 2020. [code] [blog]

What are people asking about Covid-19? A question classification dataset.

Jerry Wei, Chengyu Huang, Soroush Vosoughi, Jason Wei.

NLP for COVID Workshop at ACL 2020. [code] [talk]

NewB: 200,000+ sentences for political bias detection.

Jerry Wei.

Intel ISEF 2019. [code]

2019

Generative image translation for data augmentation in colorectal histopathology images.

Jerry Wei, Arief Suriawinata, Louis Vaickus, Bing Ren, Xiaoying Liu, Jason Wei, Saeed Hassanpour.

ML4H Workshop at NeurIPS 2019. [code] [talk]

Automated detection of celiac disease on duodenal biopsy slides: A deep learning approach.

Jason Wei, Jerry Wei, Christopher Jackson, Bing Ren, Arief Suriawinata, Saeed Hassanpour.

Journal of Pathology Informatics.

Google Sites

Report abuse