Best AI papers explained

Un pódcast de Enoch H. Kang

550 Episodo

Instacart's Economics Team: A Hybrid Role in Tech
Publicado: 31/3/2025
Data Mixture Optimization: A Multi-fidelity Multi-scale Bayesian Framework
Publicado: 31/3/2025
Why MCP won
Publicado: 31/3/2025
SWEET-RL: Training LLM Agents for Collaborative Reasoning
Publicado: 31/3/2025
TheoryCoder: Bilevel Planning with Synthesized World Models
Publicado: 30/3/2025
Driving Forces in AI: Scaling to 2025 and Beyond (Jason Wei, OpenAI)
Publicado: 29/3/2025
Expert Demonstrations for Sequential Decision Making under Heterogeneity
Publicado: 28/3/2025
TextGrad: Backpropagating Language Model Feedback for Generative AI Optimization
Publicado: 27/3/2025
MemReasoner: Generalizing Language Models on Reasoning-in-a-Haystack Tasks
Publicado: 27/3/2025
RAFT: In-Domain Retrieval-Augmented Fine-Tuning for Language Models
Publicado: 27/3/2025
Inductive Biases for Exchangeable Sequence Modeling
Publicado: 26/3/2025
InverseRLignment: LLM Alignment via Inverse Reinforcement Learning
Publicado: 26/3/2025
Prompt-OIRL: Offline Inverse RL for Query-Dependent Prompting
Publicado: 26/3/2025
Alignment from Demonstrations for Large Language Models
Publicado: 25/3/2025
Q♯: Distributional RL for Optimal LLM Post-Training
Publicado: 18/3/2025
Scaling Test-Time Compute Without Verification or RL is Suboptimal
Publicado: 14/3/2025
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning
Publicado: 14/3/2025
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning
Publicado: 14/3/2025
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback
Publicado: 14/3/2025
Revisiting Superficial Alignment Hypothesis
Publicado: 14/3/2025

27 / 28

Cut through the noise. We curate and break down the most important AI papers so you don’t have to.

Visit the podcast's native language site

550 Episodo

Instacart's Economics Team: A Hybrid Role in Tech

Data Mixture Optimization: A Multi-fidelity Multi-scale Bayesian Framework

Why MCP won

SWEET-RL: Training LLM Agents for Collaborative Reasoning

TheoryCoder: Bilevel Planning with Synthesized World Models

Driving Forces in AI: Scaling to 2025 and Beyond (Jason Wei, OpenAI)

Expert Demonstrations for Sequential Decision Making under Heterogeneity

TextGrad: Backpropagating Language Model Feedback for Generative AI Optimization

MemReasoner: Generalizing Language Models on Reasoning-in-a-Haystack Tasks

RAFT: In-Domain Retrieval-Augmented Fine-Tuning for Language Models

Inductive Biases for Exchangeable Sequence Modeling

InverseRLignment: LLM Alignment via Inverse Reinforcement Learning

Prompt-OIRL: Offline Inverse RL for Query-Dependent Prompting

Alignment from Demonstrations for Large Language Models

Q♯: Distributional RL for Optimal LLM Post-Training

Scaling Test-Time Compute Without Verification or RL is Suboptimal

Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Revisiting Superficial Alignment Hypothesis