11. What Is Whisper AI
¿Qué es Whisper AI y Cómo Funciona?
📚 Tema del Tutorial:
"Whisper AI: La Revolución del Reconocimiento de Voz de OpenAI - Guía Completa para Principiantes"
🎯 Objetivo de Aprendizaje
Al final de este tutorial entenderás:
Qué es Whisper AI y quién lo creó
Cómo funciona el reconocimiento automático de voz (ASR)
Qué puedes hacer con Whisper AI en la práctica
Cómo se conecta la API de Whisper con tu aplicación
Casos reales de uso en diferentes industrias
📂 Parte 1: ¿Qué es Whisper AI? - El "Super Oído" Artificial
La Analogía del Traductor Universal:
Imagina que Whisper AI es como un traductor universal súper poderoso que puede:
text
👂 SUPER OÍDO ARTIFICIAL (Whisper AI)
├── 🎯 Escucha: Audio en 100+ idiomas
├── 📝 Escribe: Convierte voz a texto automáticamente
├── 🌍 Traduce: De cualquier idioma a cualquier idioma
├── 🎓 Aprendió: Con 680,000 horas de audio (77 años seguidos)
└️️ 🏢 Creado por: OpenAI (los mismos de ChatGPT)
Datos Clave en Números:
text
📊 WHISPER AI EN NÚMEROS
├── ⏰ Horas de entrenamiento: 680,000
├── 🌐 Idiomas soportados: 100+
├── 🎯 Precisión: Casi humana en inglés
├── 💰 Costo inicial: $0.006 por minuto
├── 🏢 Creador: OpenAI
└️️ 🚀 Lanzamiento: Septiembre 2022
Comparación con el Oído Humano:
🏗️ Parte 2: Cómo Funciona Whisper AI - El "Cerebro" Detrás del Oído
El Proceso en 3 Pasos Sencillos:
text
[1️⃣ GRABACIÓN DE AUDIO]
👤 Hablas → 🎤 Micrófono capta → 📁 Archivo .mp3/.wav
[2️⃣ PROCESAMIENTO WHISPER]
📁 Archivo audio → 🧠 Whisper AI analiza → 🔍 Detecta palabras
[3️⃣ RESULTADO]
📝 Texto transcrito (mismo idioma)
o
🌍 Texto traducido (a otro idioma)
Lo que Realmente Pasa Dentro:
text
🔬 PROCESO TÉCNICO SIMPLIFICADO:
1. 🔊 Análisis de ondas sonoras
2. 🎵 Separación de voces de ruido
3. 🔤 Reconocimiento de fonemas (sonidos)
4. 📝 Formación de palabras
5. 📚 Contexto gramatical
6. ✅ Texto final corregido
Los Dos "Modos" de Whisper:
text
🎤 MODO 1: TRANSCRIPCIÓN
Audio en español → Texto en español
Audio en francés → Texto en francés
Audio en japonés → Texto en japonés
🌍 MODO 2: TRADUCCIÓN
Audio en español → Texto en inglés
Audio en francés → Texto en inglés
Audio en japonés → Texto en inglés
Nota importante: Por ahora, la traducción solo es a inglés, pero puedes luego traducir ese inglés a otros idiomas.
🛠️ Parte 3: Formatos de Audio que Entiende Whisper
Formatos Soportados - Los "Idiomas" del Audio:
text
🎵 FORMATOS DE AUDIO COMPATIBLES:
├── 🔊 MP3 (el más común)
├── 🎥 MP4 (videos con audio)
├── 🎧 WAV (alta calidad)
├── 🌐 WEBM (web moderno)
├── 🎚️ M4A (Apple)
├── 🔊 FLAC (sin pérdida)
└️️ 🎚️ OGG (abierto)
Límites y Recomendaciones:
text
📏 LIMITACIONES PRÁCTICAS:
├── ⏱️ Máximo: 25MB por archivo
├── 🎯 Ideal: Audio claro, sin mucho ruido
├── 🚫 Evitar: Música de fondo fuerte
├── ✅ Recomendado: Voces claras
└️️ 🌟 Extra: Funciona bien con acentos
Ejemplo de Calidad de Audio:
text
✅ BUEN AUDIO PARA WHISPER:
- Entrevista en estudio
- Podcast profesional
- Clase grabada con buen micrófono
- Reunión con micrófono central
⚠️ AUDIO DIFÍCIL PARA WHISPER:
- Fiesta con música fuerte
- Grabación en la calle con tráfico
- Varias personas hablando a la vez
- Micrófono muy lejos del hablante
🌍 Parte 4: Casos de Uso Real - ¿Para Qué Sirve en la Vida Real?
1. 🎓 Para Estudiantes y Educadores:
text
📚 ESTUDIANTE UNIVERSITARIO:
Problema: "Pierdo atención tomando apuntes"
Solución Whisper: Graba la clase → Transcripción automática
Resultado: ✅ Escuchas atento, ✅ Apuntes perfectos, ✅ Repaso fácil
👨🏫 PROFESOR:
Problema: "Mis alumnos internacionales no entienden bien"
Solución Whisper: Clase en español → Transcripción → Traducción a inglés
Resultado: ✅ Material bilingüe, ✅ Accesibilidad, ✅ Alcance global
2. 💼 Para Profesionales y Empresas:
text
👔 PERIODISTA:
"Tengo una entrevista en sueco y no sé sueco"
→ Whisper transcribe sueco a texto sueco
→ Google Translate traduce a español
→ ✅ Entrevista lista en horas, no días
📞 ATENCIÓN AL CLIENTE:
"Los clientes llaman y necesitamos analizar sus quejas"
→ Whisper transcribe todas las llamadas
→ Análisis de sentimiento automático
→ ✅ Mejora de servicio basada en datos reales
3. 🎬 Para Creadores de Contenido:
text
🎥 YOUTUBER:
"Mis videos en español no llegan a público internacional"
→ Whisper genera subtítulos automáticos en español
→ Traducción a inglés/francés/alemán
→ ✅ Audiencia 10x más grande
🎙️ PODCASTER:
"Mis oyentes sordos no pueden disfrutar mi podcast"
→ Whisper crea transcripción completa
→ Publicas transcripción en tu web
→ ✅ Contenido accesible para todos
4. 🏥 Para Salud y Accesibilidad:
text
👵 ADULTOS MAYORES:
"Mi abuelo no oye bien las noticias"
→ Whisper transcribe noticiero en TV
→ Muestra texto en pantalla
→ ✅ Comprensión completa
🗣️ PERSONAS CON DISCAPACIDAD:
"Quiero usar mi voz para controlar mi computadora"
→ Whisper + programación = Control por voz
→ ✅ Independencia tecnológica
🔌 Parte 5: La API de Whisper - Cómo "Hablar" con Whisper desde tu Código
¿Qué es una API? - La "Interfaz de Comunicación":
text
📞 API = LÍNEA TELEFÓNICA PARA PROGRAMAS
Tu aplicación: "Hola Whisper, transcribe este audio"
↓ (llamada API)
Whisper AI: "Aquí tienes el texto transcrito"
↓ (respuesta API)
Tu aplicación: Muestra el texto al usuario
Las Dos Líneas Telefónicas (Endpoints) Disponibles:
text
1️⃣ LÍNEA VERDE - /v1/audio/transcriptions
"Transcribe este audio en su idioma original"
Español → Texto español
Francés → Texto francés
Japonés → Texto japonés
2️⃣ LÍNEA AZUL - /v1/audio/translations
"Transcribe y traduce este audio a inglés"
Español → Texto inglés
Francés → Texto inglés
Japonés → Texto inglés
Cómo Llamar por Teléfono (Ejemplo de Código):
php
// Preparando la "llamada telefónica" a Whisper
$ch = curl_init('https://api.openai.com/v1/audio/transcriptions');
// Configurando la llamada
curl_setopt($ch, CURLOPT_POST, true); // Decimos que es una llamada POST
curl_setopt($ch, CURLOPT_POSTFIELDS, [ // Enviamos estos datos:
'file' => new CURLFile('audio.mp3'), // 📁 El archivo de audio
'model' => 'whisper-1' // 🎯 El modelo a usar (siempre 'whisper-1')
]);
// Poniendo las "credenciales" (tu tarjeta de identificación)
curl_setopt($ch, CURLOPT_HTTPHEADER, [
'Authorization: Bearer TU_API_KEY', // 🔑 Tu llave secreta
'Content-Type: multipart/form-data' // 📦 Formato del envío
]);
// Haciendo la llamada y esperando respuesta
$response = curl_exec($ch);
curl_close($ch);
// Whisper responde con JSON
$resultado = json_decode($response, true);
echo $resultado['text']; // 🎉 ¡El texto transcrito!
🔑 Parte 6: La API Key - Tu "Llave Secreta" para Acceder
¿Qué es una API Key?
Tu API Key es como una llave de hotel o credencial de acceso:
text
🏨 HOTEL WHISPER (Servidores de OpenAI)
├── 🚪 Puerta principal: api.openai.com
├── 🔑 Tu llave: sk-abc123def456ghi789 (API Key)
├── 📋 Registro: Tu nombre y qué usas
├── 💰 Facturación: Te cobran por uso
└️️ 🚫 Sin llave: No puedes entrar
Cómo Conseguir tu API Key:
text
1️⃣ Ve a: https://platform.openai.com
2️⃣ Regístrate o inicia sesión
3️⃣ Haz clic en tu perfil → "View API keys"
4️⃣ Crea nueva llave: "Create new secret key"
5️⃣ 🔑 Copia la llave: sk-... (solo se muestra una vez)
6️⃣ 💾 Guarda en lugar seguro: Como variable de entorno
Precios y Costos (Ejemplo Real):
text
💰 PRECIO POR USO:
$0.006 por minuto de audio procesado
🧮 EJEMPLO DE COSTO:
10 minutos de audio × $0.006 = $0.06
1 hora de audio × $0.006 × 60 = $0.36
10 horas de audio × $0.006 × 600 = $3.60
Consejo: OpenAI te da $5-18 gratis para empezar a probar.
📱 Parte 7: Ejemplos de Código - Cómo Usar Whisper API en la Práctica
Ejemplo 1: Transcripción Simple en PHP
php
<?php
function transcribirAudio($rutaAudio, $apiKey) {
// 1. Preparar el archivo
$audioFile = new CURLFile($rutaAudio);
// 2. Configurar la petición
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'https://api.openai.com/v1/audio/transcriptions');
curl_setopt($ch, CURLOPT_POST, true);
curl_setopt($ch, CURLOPT_POSTFIELDS, [
'file' => $audioFile,
'model' => 'whisper-1'
]);
// 3. Añadir autenticación
curl_setopt($ch, CURLOPT_HTTPHEADER, [
'Authorization: Bearer ' . $apiKey,
'Content-Type: multipart/form-data'
]);
// 4. Esperar respuesta
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$response = curl_exec($ch);
curl_close($ch);
// 5. Procesar respuesta
$data = json_decode($response, true);
return $data['text'] ?? 'Error en transcripción';
}
// Uso:
$texto = transcribirAudio('entrevista.mp3', 'sk-tu-api-key-aqui');
echo "📝 Transcripción: " . $texto;
?>
Ejemplo 2: Transcripción con Traducción a Inglés
php
function transcribirYTraducir($rutaAudio, $apiKey) {
// Solo cambia el endpoint URL
curl_setopt($ch, CURLOPT_URL, 'https://api.openai.com/v1/audio/translations');
// Todo lo demás igual...
}
Ejemplo 3: Para Nuestro Proyecto MyWhisper
php
// En nuestra clase Whisper.php
public function transcribir($archivoAudio) {
$this->dataType = 'ASR'; // Automatic Speech Recognition
$this->file = $archivoAudio;
// Llama a la API de OpenAI
$resultado = $this->covert();
// Devuelve solo el texto
return $resultado['text'] ?? false;
}
🏢 Parte 8: Whisper en Nuestro Proyecto MyWhisper
Cómo Encaja Whisper en Nuestra Aplicación:
text
📱 MYWHISPER - FLUJO COMPLETO:
[1️⃣ Usuario sube audio/video]
↓
[2️⃣ Nuestra aplicación guarda archivo]
↓
[3️⃣ Envía archivo a API Whisper]
↓
[4️⃣ Whisper devuelve texto]
↓
[5️⃣ Guardamos texto en base de datos]
↓
[6️⃣ Mostramos texto al usuario]
↓
[7️⃣ Opcional: Traducir a otro idioma]
Los Dos Modos de Nuestra Clase:
php
class Whisper {
// Modo 1: Transcripción (ASR)
public $dataType = 'ASR'; // Audio → Texto mismo idioma
// URL: https://api.openai.com/v1/audio/transcriptions
// Modo 2: Traducción
public $dataType = 'Translate'; // Audio → Texto inglés
// URL: https://api.openai.com/v1/chat/completions
// (Usa GPT para traducir texto ya transcrito)
}
El Secreto de Nuestra Implementación:
No usamos el endpoint de traducción de audio de Whisper directamente. En su lugar:
Primero transcribimos (audio → texto original)
Luego traducimos (texto original → inglés) usando GPT-3.5
Esto nos da más control y es más barato
🚀 Parte 9: Proyectos que Puedes Crear con Whisper API
Ideas para Empezar:
text
🎓 PROYECTO 1: Transcripción de Clases
- Estudiantes suben grabaciones
- Reciben transcripción en minutos
- Pueden buscar en el texto
🎙️ PROYECTO 2: Editor de Podcasts
- Subes tu podcast
- Whisper genera transcripción
- Editas directamente en el texto
- Exportas subtítulos automáticos
📞 PROYECTO 3: Analizador de Llamadas
- Empresas suben grabaciones
- Whisper transcribe todo
- Análisis de palabras clave
- Reportes automáticos
🌍 PROYECTO 4: Traductor en Tiempo Real
- Hablas en español
- Whisper transcribe
- GPT traduce a inglés
- Sintetizador de voz responde
Ejemplo de Proyecto Simple - Transcripción Web:
html
<!DOCTYPE html>
<html>
<body>
<h2>🎤 Transcripción Instantánea</h2>
<input type="file" id="audioFile" accept=".mp3,.wav,.mp4">
<button onclick="transcribir()">Transcribir</button>
<div id="resultado"></div>
<script>
async function transcribir() {
const archivo = document.getElementById('audioFile').files[0];
// Enviar a nuestro backend PHP
const formData = new FormData();
formData.append('audio', archivo);
const respuesta = await fetch('/transcribir.php', {
method: 'POST',
body: formData
});
const texto = await respuesta.text();
document.getElementById('resultado').innerHTML = texto;
}
</script>
</body>
</html>
📊 Parte 10: Comparativa - Whisper vs Otras Soluciones
Tabla Comparativa:
¿Por qué Elegir Whisper para Nuestro Proyecto?
💰 Precio competitivo - De los más baratos del mercado
🎯 Alta precisión - Entrenado con datos masivos
🌍 Multilingüe - Perfecto para proyectos globales
🔓 Semi-abierto - Puedes descargar y modificar versiones locales
🏢 Backing de OpenAI - Empresa líder en IA
❓ Parte 11: Cuestionario de Evaluación
Pregunta 1:
¿Cuántas horas de audio usó OpenAI para entrenar Whisper?
a) 1,000 horas
b) 10,000 horas
c) 100,000 horas
d) 680,000 horas ✅
Explicación: 680,000 horas equivalen a aproximadamente 77 años de audio continuo.
Pregunta 2:
¿Cuál es la principal diferencia entre los endpoints de transcripción y traducción?
a) La traducción cuesta más
b) La traducción solo produce texto en inglés ✅
c) La transcripción no funciona con MP3
d) La traducción es más rápida
Pregunta 3:
¿Qué formato de audio NO es compatible con Whisper?
a) MP3
b) WAV
c) MP4
d) PDF ✅ (PDF es documento, no audio)
Pregunta 4:
¿Qué necesitas para usar la API de Whisper?
a) Una cuenta de Google
b) Una API Key de OpenAI ✅
c) Un servidor propio
d) Conocimiento de Python
Pregunta 5:
En nuestro proyecto MyWhisper, ¿cómo manejamos la traducción?
a) Usamos el endpoint de traducción de audio de Whisper
b) Primero transcribimos, luego usamos GPT para traducir el texto ✅
c) No permitimos traducciones
d) Usamos Google Translate aparte
Pregunta 6:
¿Cuál sería el costo aproximado de transcribir 30 minutos de audio?
a) $0.006
b) $0.018 ✅
c) $0.18
d) $1.80
Cálculo: 30 min × $0.006/min = $0.018
Pregunta 7:
¿Qué empresa desarrolló Whisper AI?
a) Google
b) Microsoft
c) Amazon
d) OpenAI ✅
🏆 Resumen Final - Lo Esencial de Whisper AI
Lo Más Importante que Debes Recordar:
🎤 Whisper es ASR - Convierte voz a texto automáticamente
🌍 100+ idiomas - Funciona con casi cualquier idioma
🔌 Dos endpoints - Transcripción y traducción (a inglés)
🔑 Necesitas API Key - De platform.openai.com
💰 $0.006/minuto - Muy accesible para proyectos
📁 Multi-formatos - MP3, WAV, MP4, WEBM, etc.
🏢 De OpenAI - Los mismos de ChatGPT, confiable
Aplicaciones Prácticas Inmediatas:
text
🎓 PARA TI COMO ESTUDIANTE:
1. Graba tus clases
2. Transcribe con Whisper
3. Ten apuntes perfectos
4. Busca temas específicos
💼 PARA TU CARRERA:
1. Aprende a usar APIs de IA
2. Crea proyectos con Whisper
3. Añade a tu portafolio
4. Destaca en el mercado laboral
Proyecto Final Sugerido:
Crea un "TranscriberBot" que:
Reciba audios por Telegram/WhatsApp
Los transcriba usando Whisper API
Devuelva el texto al usuario
Guarde un historial en base de datos
¡Ya tienes todo el conocimiento para empezar!
🚀 Próximos Pasos - Lo que Viene en Nuestro Proyecto
En la Próxima Lección Implementaremos:
🔧 Clase completa de Whisper con todos los métodos
📤 Envío real a la API de OpenAI
💾 Guardado en base de datos de las transcripciones
🎨 Mostrado en interfaz para el usuario
🌍 Sistema de traducción usando GPT
Código que Escribiremos Pronto:
php
// Whisper.php completo
public function covert() {
if($this->dataType === "ASR") {
// Transcripción de audio
return $this->transcribirAudio();
} else {
// Traducción de texto
return $this->traducirTexto();
}
}
💡 Recuerda: Whisper AI es una herramienta poderosa que está democratizando el acceso a transcripción de voz. Con $1 puedes transcribir aproximadamente 2.7 horas de audio. ¡El futuro ya está aquí!
🌟 Reflexión Final:
Hace 10 años, la transcripción automática era lenta, cara y poco precisa. Hoy, con Whisper AI, cualquiera con conocimientos básicos de programación puede crear aplicaciones que antes requerían equipos enteros de ingenieros. ¡Tú estás en el momento perfecto para aprovechar esta tecnología!
🎤 ¡Ahora entiendes el poder que tiene Whisper AI!
Comentarios
Publicar un comentario