Claude Code · Video Vision
Hasta ayer Claude veía vídeos pero estaba sordo como una piedra.
Y ayer pasó esto: un plugin le dio oídos. Frames con ffmpeg, transcripción con Whisper en local, gratis y offline. Aquí te cuento exactamente cómo se instala - paso a paso, en español, en 8 minutos.
Tu botín
Esto es lo que te llega al email - al instante.
📦
El repo de GitHub
Link directo al plugin oficial verificado, con OIDC Trusted Publishing en npm.
Ir al repo →✍️
Guía completa en español
Paso a paso desde cero, sin saltos. Probada por mí en mi Mac, también para Linux y Windows con WSL2.
Ver la guía →✨
3 prompts listos para copiar
Para tutoriales de YouTube, podcasts y análisis de tus propios reels como un coach experto.
Saltar a los prompts →
Honestidad ante todo
Esto es para ti si…
Sí, esto es para ti
- Usas Claude Code o quieres empezar.
- Tienes Mac, Linux o Windows (con WSL2 si vas por Windows).
- Aunque nunca hayas tocado una terminal - Claude Code lo hace tan fácil que vas a alucinar. Te llevo de la mano paso a paso.
- Te interesa la IA aplicada y la productividad real.
- Prefieres entender qué haces en lugar de copiar comandos a ciegas.
No, mejor pasa
- Buscas magia para Claude.ai web - este plugin no funciona ahí.
- Quieres un servicio gestionado, no instalar nada en tu máquina.
Opcional · Newsletter Soñar IA
Forma parte del equipo
Suscríbete y te aviso cuando suba una nueva skill, instalador o trick. Sin spam, te das de baja cuando quieras.
🔒
Sin spam. Cancelas cuando quieras.
Preguntas
Las dudas que ya he visto venir.
¿Esto funciona en la app de Claude (web/móvil)?
No. Este plugin es exclusivamente para Claude Code (la versión de terminal). Para uso desde la web hay otras vías que cubro en mi newsletter.
¿Necesito pagar algo?
El plugin es gratis. Whisper en local es gratis. Solo necesitas Claude Code, que viene incluido en tu suscripción de Claude Pro o Max ($20/mes).
¿Funciona en Windows o Linux?
Sí, los tres sistemas están soportados. En Linux funciona directo (compilas
whisper.cpp con make). En Windows lo más limpio es usar WSL2 (Windows Subsystem for Linux) - ahí lo tratas como Linux y todo va igual. También funciona en Windows nativo con los binarios precompilados de whisper.cpp, pero el setup tiene más fricciones de PATH. Mi recomendación si estás en Windows: WSL2.
¿Mis vídeos se suben a algún servidor?
Si usas Whisper local, no. Todo se procesa en tu máquina, ningún audio o frame sale de ella. Si eliges Gemini API u OpenAI API como backend de audio, ahí sí sale a sus servidores.
¿Qué máquina necesito?
Esto solo aplica si eliges Whisper local para la transcripción de voz - corre 100% en tu máquina, gratis y offline (sin gastar ni un duro, sin API keys, sin enviar nada a la nube). Y no tiene por qué ser un Mac: Linux y Windows funcionan igual de bien.
Idealmente 8 GB de RAM mínimo, 16 GB para ir sobrado. En Mac, Apple Silicon (M1/M2/M3/M4) va perfecto. En Linux, cualquier máquina razonable de los últimos 5 años. En Windows, lo mismo si usas WSL2.
Si tu máquina es más justa, tira del backend de Gemini API (gratis hasta 1.500 reqs/día) - el procesamiento corre en la nube de Google y no te exige RAM local.
Idealmente 8 GB de RAM mínimo, 16 GB para ir sobrado. En Mac, Apple Silicon (M1/M2/M3/M4) va perfecto. En Linux, cualquier máquina razonable de los últimos 5 años. En Windows, lo mismo si usas WSL2.
Si tu máquina es más justa, tira del backend de Gemini API (gratis hasta 1.500 reqs/día) - el procesamiento corre en la nube de Google y no te exige RAM local.