LLM Council: la idea de Karpathy para no fiarte de un solo modelo

Andrej Karpathy (cofundador de OpenAI, ex-Tesla, autor de Zero to Hero) publicó un finde un repo llamado llm-council. Lo describe literal como “vibe code”. El patrón que enseña vale más que la app en sí.

Qué hace el repo

Le mandas una pregunta. La responden GPT-5.1, Gemini 3, Claude y Grok en paralelo, sin verse entre ellos. Después cada modelo revisa anónimamente lo que han dicho los otros tres y los puntúa. Por último, un quinto modelo (el “chairman”) lee todo y escribe la respuesta final.

No es magia. Es coreografía: respuesta → revisión cruzada → síntesis.

Clonar y arrancar en local

git clone https://github.com/karpathy/llm-council
cd llm-council

# Backend (Python, gestionado con uv)
uv sync

# Frontend (TypeScript + Vite)
cd frontend && npm install && cd ..

Configura la API key

Karpathy tira de OpenRouter para no tener que meter 4 keys distintas. Una sola key te da acceso a los 4 modelos.

# .env en la raíz del proyecto
OPENROUTER_API_KEY=sk-or-v1-...

Sacas la key en openrouter.ai y le metes saldo (o activas auto top-up).

(Opcional) Cambia los modelos

Edita backend/config.py para tunear el council:

COUNCIL_MODELS = [
    "openai/gpt-5.1",
    "google/gemini-3-pro-preview",
    "anthropic/claude-sonnet-4.5",
    "x-ai/grok-4",
]

CHAIRMAN_MODEL = "google/gemini-3-pro-preview"

Arrancar

Lo más rápido:

./start.sh

O a mano, en dos terminales:

# Terminal 1 — backend
uv run python -m backend.main

# Terminal 2 — frontend
cd frontend && npm run dev

Abre http://localhost:5173 y tienes la webapp. Cada pregunta te cuesta 4 llamadas en paralelo + 4 revisiones + 1 síntesis = 9 llamadas. No lo dejes corriendo en bucle.

El patrón mental (esto es lo importante)

Lo replicable no es la app — es el patrón. Aplicable en tu propio workflow con Claude Code:

Para decisiones técnicas con consecuencias (elegir librería, arquitectura, refactor grande): no preguntes a UN modelo. Lanza la misma pregunta a Claude Code, ChatGPT y Gemini en paralelo.
Pídeles que se revisen entre ellos. Coge la respuesta de Claude, pégasela a ChatGPT, dile “encuentra los 3 fallos más graves de esta respuesta”. Mismo con Gemini.
Tú haces de chairman. Lees las 3 respuestas + las 3 críticas. Decides.

Coste: 5 minutos extra. Beneficio: cazar fallos que un modelo solo no se ve a sí mismo.

Cuándo NO aplicar el patrón

Tareas mecánicas (renombrar, formatear, refactor obvio) — sobra ruido.
Código de producción urgente — el chairman eres tú y tienes que ir rápido.
Preguntas con respuesta única verificable (un comando, una línea de docs) — un modelo basta.

La regla de oro

Si vas a ejecutar lo que diga un modelo sin pensar, mejor que lo digan tres y se peleen primero.

Repo de Karpathy → github.com/karpathy/llm-council

Sígueme para más trucos con Claude Code e IA → @pabloinpublic

Únete a la comunidad → pabloinpublic.com