LLM Council: la idea de Karpathy para no fiarte de un solo modelo
Karpathy publicó un repo donde 4 LLMs responden, se critican entre ellos y un chairman escribe la final. El snippet para clonarlo y cuándo te conviene.
- #claude-code
- #ia
- #karpathy
- #workflow
Andrej Karpathy (cofundador de OpenAI, ex-Tesla, autor de Zero to Hero) publicó un finde un repo llamado llm-council. Lo describe literal como “vibe code”. El patrón que enseña vale más que la app en sí.
Qué hace el repo
Le mandas una pregunta. La responden GPT-5.1, Gemini 3, Claude y Grok en paralelo, sin verse entre ellos. Después cada modelo revisa anónimamente lo que han dicho los otros tres y los puntúa. Por último, un quinto modelo (el “chairman”) lee todo y escribe la respuesta final.
No es magia. Es coreografía: respuesta → revisión cruzada → síntesis.
Clonar y arrancar en local
git clone https://github.com/karpathy/llm-council
cd llm-council
# Backend (Python, gestionado con uv)
uv sync
# Frontend (TypeScript + Vite)
cd frontend && npm install && cd ..
Configura la API key
Karpathy tira de OpenRouter para no tener que meter 4 keys distintas. Una sola key te da acceso a los 4 modelos.
# .env en la raíz del proyecto
OPENROUTER_API_KEY=sk-or-v1-...
Sacas la key en openrouter.ai y le metes saldo (o activas auto top-up).
(Opcional) Cambia los modelos
Edita backend/config.py para tunear el council:
COUNCIL_MODELS = [
"openai/gpt-5.1",
"google/gemini-3-pro-preview",
"anthropic/claude-sonnet-4.5",
"x-ai/grok-4",
]
CHAIRMAN_MODEL = "google/gemini-3-pro-preview"
Arrancar
Lo más rápido:
./start.sh
O a mano, en dos terminales:
# Terminal 1 — backend
uv run python -m backend.main
# Terminal 2 — frontend
cd frontend && npm run dev
Abre http://localhost:5173 y tienes la webapp. Cada pregunta te cuesta 4 llamadas en paralelo + 4 revisiones + 1 síntesis = 9 llamadas. No lo dejes corriendo en bucle.
El patrón mental (esto es lo importante)
Lo replicable no es la app — es el patrón. Aplicable en tu propio workflow con Claude Code:
- Para decisiones técnicas con consecuencias (elegir librería, arquitectura, refactor grande): no preguntes a UN modelo. Lanza la misma pregunta a Claude Code, ChatGPT y Gemini en paralelo.
- Pídeles que se revisen entre ellos. Coge la respuesta de Claude, pégasela a ChatGPT, dile “encuentra los 3 fallos más graves de esta respuesta”. Mismo con Gemini.
- Tú haces de chairman. Lees las 3 respuestas + las 3 críticas. Decides.
Coste: 5 minutos extra. Beneficio: cazar fallos que un modelo solo no se ve a sí mismo.
Cuándo NO aplicar el patrón
- Tareas mecánicas (renombrar, formatear, refactor obvio) — sobra ruido.
- Código de producción urgente — el chairman eres tú y tienes que ir rápido.
- Preguntas con respuesta única verificable (un comando, una línea de docs) — un modelo basta.
La regla de oro
Si vas a ejecutar lo que diga un modelo sin pensar, mejor que lo digan tres y se peleen primero.
Repo de Karpathy → github.com/karpathy/llm-council
Sígueme para más trucos con Claude Code e IA → @pabloinpublic
Waitlist de la comunidad → pabloinpublic.com
Comunidad PabloInPublic
Todo lo que necesitas para lanzar tu proyecto en público con IA, conocer gente que está en la misma, y no rendirte por el camino.
Waitlist abierta
- Acceso completo a mis directos y tutoriales
- Plantillas de CLAUDE.md y prompts que uso a diario
- Revisiones semanales de tu código y tu contenido
- Canal privado para dudas y feedback
- Todos los recursos que voy publicando, en un solo sitio
o sígueme en Instagram → @pabloinpublic