Una skill de Claude Code para transcripción de audio Link to heading
Aviso: sí, este post fue creado con ayuda de la IA — ¿por qué no?
Encontrar un buen servicio de voz a texto que funcione bien en catalán es genuinamente difícil. La mayoría de las soluciones comerciales lo tratan como algo secundario, y los resultados lo demuestran. Después de demasiadas transcripciones destrozadas, decidí resolverlo yo mismo escribiendo una skill de Claude Code que usa el modelo Whisper de OpenAI de forma local.
La skill Link to heading
La skill se integra en el sistema de skills de Claude Code. Cuando se activa, ejecuta un pequeño fragmento de Python dentro de un entorno virtual preconfigurado:
source .venv/bin/activate && \
python3 << 'EOF'
import whisper
model = whisper.load_model("base")
result = model.transcribe("<path-to-file>")
print(result["text"])
EOF
La skill se activa automáticamente cuando menciono un fichero de audio o lo arrastro al chat. Claude Code identifica la ruta del fichero, ejecuta el script y devuelve la transcripción completa.
Integración con Telegram Link to heading
El flujo que hace esto realmente útil en el día a día es un bot de Telegram. Envío mensajes de voz directamente a un canal de chat privado, el bot los recoge, pasa el fichero de audio a Claude Code con esta skill cargada y devuelve la transcripción. Sin aplicaciones que abrir, sin ficheros que mover — simplemente hablo y recibo el texto.
Conclusión Link to heading
Una skill de un solo fichero y un modelo Whisper local convirtieron una carencia frustrante — ningún servicio decente de voz a texto en catalán — en un flujo de trabajo fluido, privado y sin coste. Si trabajas en una lengua minoritaria y te has topado con el mismo problema, esta configuración merece una tarde de tu tiempo.