11. What Is Whisper AI

 

¿Qué es Whisper AI y Cómo Funciona?

📚 Tema del Tutorial:

"Whisper AI: La Revolución del Reconocimiento de Voz de OpenAI - Guía Completa para Principiantes"


🎯 Objetivo de Aprendizaje

Al final de este tutorial entenderás:

  • Qué es Whisper AI y quién lo creó

  • Cómo funciona el reconocimiento automático de voz (ASR)

  • Qué puedes hacer con Whisper AI en la práctica

  • Cómo se conecta la API de Whisper con tu aplicación

  • Casos reales de uso en diferentes industrias


📂 Parte 1: ¿Qué es Whisper AI? - El "Super Oído" Artificial

La Analogía del Traductor Universal:

Imagina que Whisper AI es como un traductor universal súper poderoso que puede:

text

👂 SUPER OÍDO ARTIFICIAL (Whisper AI)

├── 🎯 Escucha: Audio en 100+ idiomas

├── 📝 Escribe: Convierte voz a texto automáticamente

├── 🌍 Traduce: De cualquier idioma a cualquier idioma

├── 🎓 Aprendió: Con 680,000 horas de audio (77 años seguidos)

└️️ 🏢 Creado por: OpenAI (los mismos de ChatGPT)

Datos Clave en Números:

text

📊 WHISPER AI EN NÚMEROS

├── ⏰ Horas de entrenamiento: 680,000

├── 🌐 Idiomas soportados: 100+

├── 🎯 Precisión: Casi humana en inglés

├── 💰 Costo inicial: $0.006 por minuto

├── 🏢 Creador: OpenAI

└️️ 🚀 Lanzamiento: Septiembre 2022

Comparación con el Oído Humano:

Característica

Oído Humano

Whisper AI

Idiomas

1-5 idiomas

100+ idiomas

Tiempo trabajando

8 horas/día

24/7 sin cansarse

Velocidad

150 palabras/min

Instantáneo

Memoria

Olvida detalles

Recuerda todo perfectamente

Costo

Salario mensual

$0.006/minuto


🏗️ Parte 2: Cómo Funciona Whisper AI - El "Cerebro" Detrás del Oído

El Proceso en 3 Pasos Sencillos:

text

[1️⃣ GRABACIÓN DE AUDIO]

👤 Hablas → 🎤 Micrófono capta → 📁 Archivo .mp3/.wav


[2️⃣ PROCESAMIENTO WHISPER]

📁 Archivo audio → 🧠 Whisper AI analiza → 🔍 Detecta palabras


[3️⃣ RESULTADO]

📝 Texto transcrito (mismo idioma) 

   o

🌍 Texto traducido (a otro idioma)

Lo que Realmente Pasa Dentro:

text

🔬 PROCESO TÉCNICO SIMPLIFICADO:

1. 🔊 Análisis de ondas sonoras

2. 🎵 Separación de voces de ruido

3. 🔤 Reconocimiento de fonemas (sonidos)

4. 📝 Formación de palabras

5. 📚 Contexto gramatical

6. ✅ Texto final corregido

Los Dos "Modos" de Whisper:

text

🎤 MODO 1: TRANSCRIPCIÓN

Audio en español → Texto en español

Audio en francés → Texto en francés

Audio en japonés → Texto en japonés


🌍 MODO 2: TRADUCCIÓN  

Audio en español → Texto en inglés

Audio en francés → Texto en inglés

Audio en japonés → Texto en inglés

Nota importante: Por ahora, la traducción solo es a inglés, pero puedes luego traducir ese inglés a otros idiomas.


🛠️ Parte 3: Formatos de Audio que Entiende Whisper

Formatos Soportados - Los "Idiomas" del Audio:

text

🎵 FORMATOS DE AUDIO COMPATIBLES:

├── 🔊 MP3 (el más común)

├── 🎥 MP4 (videos con audio)

├── 🎧 WAV (alta calidad)

├── 🌐 WEBM (web moderno)

├── 🎚️ M4A (Apple)

├── 🔊 FLAC (sin pérdida)

└️️ 🎚️ OGG (abierto)

Límites y Recomendaciones:

text

📏 LIMITACIONES PRÁCTICAS:

├── ⏱️ Máximo: 25MB por archivo

├── 🎯 Ideal: Audio claro, sin mucho ruido

├── 🚫 Evitar: Música de fondo fuerte

├── ✅ Recomendado: Voces claras

└️️ 🌟 Extra: Funciona bien con acentos

Ejemplo de Calidad de Audio:

text

✅ BUEN AUDIO PARA WHISPER:

- Entrevista en estudio

- Podcast profesional

- Clase grabada con buen micrófono

- Reunión con micrófono central


⚠️ AUDIO DIFÍCIL PARA WHISPER:

- Fiesta con música fuerte

- Grabación en la calle con tráfico

- Varias personas hablando a la vez

- Micrófono muy lejos del hablante


🌍 Parte 4: Casos de Uso Real - ¿Para Qué Sirve en la Vida Real?

1. 🎓 Para Estudiantes y Educadores:

text

📚 ESTUDIANTE UNIVERSITARIO:

Problema: "Pierdo atención tomando apuntes"

Solución Whisper: Graba la clase → Transcripción automática

Resultado: ✅ Escuchas atento, ✅ Apuntes perfectos, ✅ Repaso fácil


👨‍🏫 PROFESOR:

Problema: "Mis alumnos internacionales no entienden bien"

Solución Whisper: Clase en español → Transcripción → Traducción a inglés

Resultado: ✅ Material bilingüe, ✅ Accesibilidad, ✅ Alcance global

2. 💼 Para Profesionales y Empresas:

text

👔 PERIODISTA:

"Tengo una entrevista en sueco y no sé sueco"

→ Whisper transcribe sueco a texto sueco

→ Google Translate traduce a español

→ ✅ Entrevista lista en horas, no días


📞 ATENCIÓN AL CLIENTE:

"Los clientes llaman y necesitamos analizar sus quejas"

→ Whisper transcribe todas las llamadas

→ Análisis de sentimiento automático

→ ✅ Mejora de servicio basada en datos reales

3. 🎬 Para Creadores de Contenido:

text

🎥 YOUTUBER:

"Mis videos en español no llegan a público internacional"

→ Whisper genera subtítulos automáticos en español

→ Traducción a inglés/francés/alemán

→ ✅ Audiencia 10x más grande


🎙️ PODCASTER:

"Mis oyentes sordos no pueden disfrutar mi podcast"

→ Whisper crea transcripción completa

→ Publicas transcripción en tu web

→ ✅ Contenido accesible para todos

4. 🏥 Para Salud y Accesibilidad:

text

👵 ADULTOS MAYORES:

"Mi abuelo no oye bien las noticias"

→ Whisper transcribe noticiero en TV

→ Muestra texto en pantalla

→ ✅ Comprensión completa


🗣️ PERSONAS CON DISCAPACIDAD:

"Quiero usar mi voz para controlar mi computadora"

→ Whisper + programación = Control por voz

→ ✅ Independencia tecnológica


🔌 Parte 5: La API de Whisper - Cómo "Hablar" con Whisper desde tu Código

¿Qué es una API? - La "Interfaz de Comunicación":

text

📞 API = LÍNEA TELEFÓNICA PARA PROGRAMAS

Tu aplicación: "Hola Whisper, transcribe este audio"

           ↓ (llamada API)

Whisper AI: "Aquí tienes el texto transcrito"

           ↓ (respuesta API)

Tu aplicación: Muestra el texto al usuario

Las Dos Líneas Telefónicas (Endpoints) Disponibles:

text

1️⃣ LÍNEA VERDE - /v1/audio/transcriptions

   "Transcribe este audio en su idioma original"

   Español → Texto español

   Francés → Texto francés

   Japonés → Texto japonés


2️⃣ LÍNEA AZUL - /v1/audio/translations  

   "Transcribe y traduce este audio a inglés"

   Español → Texto inglés

   Francés → Texto inglés

   Japonés → Texto inglés

Cómo Llamar por Teléfono (Ejemplo de Código):

php

// Preparando la "llamada telefónica" a Whisper

$ch = curl_init('https://api.openai.com/v1/audio/transcriptions');


// Configurando la llamada

curl_setopt($ch, CURLOPT_POST, true);  // Decimos que es una llamada POST

curl_setopt($ch, CURLOPT_POSTFIELDS, [  // Enviamos estos datos:

    'file' => new CURLFile('audio.mp3'),  // 📁 El archivo de audio

    'model' => 'whisper-1'  // 🎯 El modelo a usar (siempre 'whisper-1')

]);


// Poniendo las "credenciales" (tu tarjeta de identificación)

curl_setopt($ch, CURLOPT_HTTPHEADER, [

    'Authorization: Bearer TU_API_KEY',  // 🔑 Tu llave secreta

    'Content-Type: multipart/form-data'  // 📦 Formato del envío

]);


// Haciendo la llamada y esperando respuesta

$response = curl_exec($ch);

curl_close($ch);


// Whisper responde con JSON

$resultado = json_decode($response, true);

echo $resultado['text'];  // 🎉 ¡El texto transcrito!


🔑 Parte 6: La API Key - Tu "Llave Secreta" para Acceder

¿Qué es una API Key?

Tu API Key es como una llave de hotel o credencial de acceso:

text

🏨 HOTEL WHISPER (Servidores de OpenAI)

├── 🚪 Puerta principal: api.openai.com

├── 🔑 Tu llave: sk-abc123def456ghi789 (API Key)

├── 📋 Registro: Tu nombre y qué usas

├── 💰 Facturación: Te cobran por uso

└️️ 🚫 Sin llave: No puedes entrar

Cómo Conseguir tu API Key:

text

1️⃣ Ve a: https://platform.openai.com

2️⃣ Regístrate o inicia sesión

3️⃣ Haz clic en tu perfil → "View API keys"

4️⃣ Crea nueva llave: "Create new secret key"

5️⃣ 🔑 Copia la llave: sk-... (solo se muestra una vez)

6️⃣ 💾 Guarda en lugar seguro: Como variable de entorno

Precios y Costos (Ejemplo Real):

text

💰 PRECIO POR USO:

$0.006 por minuto de audio procesado


🧮 EJEMPLO DE COSTO:

10 minutos de audio × $0.006 = $0.06

1 hora de audio × $0.006 × 60 = $0.36

10 horas de audio × $0.006 × 600 = $3.60

Consejo: OpenAI te da $5-18 gratis para empezar a probar.


📱 Parte 7: Ejemplos de Código - Cómo Usar Whisper API en la Práctica

Ejemplo 1: Transcripción Simple en PHP

php

<?php

function transcribirAudio($rutaAudio, $apiKey) {

    // 1. Preparar el archivo

    $audioFile = new CURLFile($rutaAudio);

    

    // 2. Configurar la petición

    $ch = curl_init();

    curl_setopt($ch, CURLOPT_URL, 'https://api.openai.com/v1/audio/transcriptions');

    curl_setopt($ch, CURLOPT_POST, true);

    curl_setopt($ch, CURLOPT_POSTFIELDS, [

        'file' => $audioFile,

        'model' => 'whisper-1'

    ]);

    

    // 3. Añadir autenticación

    curl_setopt($ch, CURLOPT_HTTPHEADER, [

        'Authorization: Bearer ' . $apiKey,

        'Content-Type: multipart/form-data'

    ]);

    

    // 4. Esperar respuesta

    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);

    $response = curl_exec($ch);

    curl_close($ch);

    

    // 5. Procesar respuesta

    $data = json_decode($response, true);

    return $data['text'] ?? 'Error en transcripción';

}


// Uso:

$texto = transcribirAudio('entrevista.mp3', 'sk-tu-api-key-aqui');

echo "📝 Transcripción: " . $texto;

?>

Ejemplo 2: Transcripción con Traducción a Inglés

php

function transcribirYTraducir($rutaAudio, $apiKey) {

    // Solo cambia el endpoint URL

    curl_setopt($ch, CURLOPT_URL, 'https://api.openai.com/v1/audio/translations');

    // Todo lo demás igual...

}

Ejemplo 3: Para Nuestro Proyecto MyWhisper

php

// En nuestra clase Whisper.php

public function transcribir($archivoAudio) {

    $this->dataType = 'ASR';  // Automatic Speech Recognition

    $this->file = $archivoAudio;

    

    // Llama a la API de OpenAI

    $resultado = $this->covert();

    

    // Devuelve solo el texto

    return $resultado['text'] ?? false;

}


🏢 Parte 8: Whisper en Nuestro Proyecto MyWhisper

Cómo Encaja Whisper en Nuestra Aplicación:

text

📱 MYWHISPER - FLUJO COMPLETO:

[1️⃣ Usuario sube audio/video]

        ↓

[2️⃣ Nuestra aplicación guarda archivo]

        ↓  

[3️⃣ Envía archivo a API Whisper]

        ↓

[4️⃣ Whisper devuelve texto]

        ↓

[5️⃣ Guardamos texto en base de datos]

        ↓

[6️⃣ Mostramos texto al usuario]

        ↓

[7️⃣ Opcional: Traducir a otro idioma]

Los Dos Modos de Nuestra Clase:

php

class Whisper {

    // Modo 1: Transcripción (ASR)

    public $dataType = 'ASR';  // Audio → Texto mismo idioma

    // URL: https://api.openai.com/v1/audio/transcriptions

    

    // Modo 2: Traducción

    public $dataType = 'Translate';  // Audio → Texto inglés

    // URL: https://api.openai.com/v1/chat/completions

    // (Usa GPT para traducir texto ya transcrito)

}

El Secreto de Nuestra Implementación:

No usamos el endpoint de traducción de audio de Whisper directamente. En su lugar:

  1. Primero transcribimos (audio → texto original)

  2. Luego traducimos (texto original → inglés) usando GPT-3.5

  3. Esto nos da más control y es más barato


🚀 Parte 9: Proyectos que Puedes Crear con Whisper API

Ideas para Empezar:

text

🎓 PROYECTO 1: Transcripción de Clases

- Estudiantes suben grabaciones

- Reciben transcripción en minutos

- Pueden buscar en el texto


🎙️ PROYECTO 2: Editor de Podcasts

- Subes tu podcast

- Whisper genera transcripción

- Editas directamente en el texto

- Exportas subtítulos automáticos


📞 PROYECTO 3: Analizador de Llamadas

- Empresas suben grabaciones

- Whisper transcribe todo

- Análisis de palabras clave

- Reportes automáticos


🌍 PROYECTO 4: Traductor en Tiempo Real

- Hablas en español

- Whisper transcribe

- GPT traduce a inglés

- Sintetizador de voz responde

Ejemplo de Proyecto Simple - Transcripción Web:

html

<!DOCTYPE html>

<html>

<body>

    <h2>🎤 Transcripción Instantánea</h2>

    

    <input type="file" id="audioFile" accept=".mp3,.wav,.mp4">

    <button onclick="transcribir()">Transcribir</button>

    

    <div id="resultado"></div>

    

    <script>

    async function transcribir() {

        const archivo = document.getElementById('audioFile').files[0];

        

        // Enviar a nuestro backend PHP

        const formData = new FormData();

        formData.append('audio', archivo);

        

        const respuesta = await fetch('/transcribir.php', {

            method: 'POST',

            body: formData

        });

        

        const texto = await respuesta.text();

        document.getElementById('resultado').innerHTML = texto;

    }

    </script>

</body>

</html>


📊 Parte 10: Comparativa - Whisper vs Otras Soluciones

Tabla Comparativa:

Característica

Whisper AI

Google Speech

Amazon Transcribe

Dragon Naturally

Precio

$0.006/min

$0.006-$0.024/min

$0.016/min

$200+ licencia

Idiomas

100+

120+

31

7

Precisión

Excelente

Excelente

Muy buena

Excelente

API

✅ Sí

✅ Sí

✅ Sí

❌ No

Open Source

✅ Parcialmente

❌ No

❌ No

❌ No

Traducción

✅ Limitada

✅ Sí

❌ No

❌ No

¿Por qué Elegir Whisper para Nuestro Proyecto?

  1. 💰 Precio competitivo - De los más baratos del mercado

  2. 🎯 Alta precisión - Entrenado con datos masivos

  3. 🌍 Multilingüe - Perfecto para proyectos globales

  4. 🔓 Semi-abierto - Puedes descargar y modificar versiones locales

  5. 🏢 Backing de OpenAI - Empresa líder en IA


❓ Parte 11: Cuestionario de Evaluación

Pregunta 1:

¿Cuántas horas de audio usó OpenAI para entrenar Whisper?
a) 1,000 horas
b) 10,000 horas
c) 100,000 horas
d) 680,000 horas ✅

Explicación: 680,000 horas equivalen a aproximadamente 77 años de audio continuo.

Pregunta 2:

¿Cuál es la principal diferencia entre los endpoints de transcripción y traducción?
a) La traducción cuesta más
b) La traducción solo produce texto en inglés ✅
c) La transcripción no funciona con MP3
d) La traducción es más rápida

Pregunta 3:

¿Qué formato de audio NO es compatible con Whisper?
a) MP3
b) WAV
c) MP4
d) PDF ✅ (PDF es documento, no audio)

Pregunta 4:

¿Qué necesitas para usar la API de Whisper?
a) Una cuenta de Google
b) Una API Key de OpenAI ✅
c) Un servidor propio
d) Conocimiento de Python

Pregunta 5:

En nuestro proyecto MyWhisper, ¿cómo manejamos la traducción?
a) Usamos el endpoint de traducción de audio de Whisper
b) Primero transcribimos, luego usamos GPT para traducir el texto ✅
c) No permitimos traducciones
d) Usamos Google Translate aparte


Pregunta 6:

¿Cuál sería el costo aproximado de transcribir 30 minutos de audio?
a) $0.006
b) $0.018 ✅
c) $0.18
d) $1.80

Cálculo: 30 min × $0.006/min = $0.018

Pregunta 7:

¿Qué empresa desarrolló Whisper AI?
a) Google
b) Microsoft
c) Amazon
d) OpenAI ✅


🏆 Resumen Final - Lo Esencial de Whisper AI

Lo Más Importante que Debes Recordar:

  1. 🎤 Whisper es ASR - Convierte voz a texto automáticamente

  2. 🌍 100+ idiomas - Funciona con casi cualquier idioma

  3. 🔌 Dos endpoints - Transcripción y traducción (a inglés)

  4. 🔑 Necesitas API Key - De platform.openai.com

  5. 💰 $0.006/minuto - Muy accesible para proyectos

  6. 📁 Multi-formatos - MP3, WAV, MP4, WEBM, etc.

  7. 🏢 De OpenAI - Los mismos de ChatGPT, confiable

Aplicaciones Prácticas Inmediatas:

text

🎓 PARA TI COMO ESTUDIANTE:

1. Graba tus clases

2. Transcribe con Whisper

3. Ten apuntes perfectos

4. Busca temas específicos


💼 PARA TU CARRERA:

1. Aprende a usar APIs de IA

2. Crea proyectos con Whisper

3. Añade a tu portafolio

4. Destaca en el mercado laboral

Proyecto Final Sugerido:

Crea un "TranscriberBot" que:

  1. Reciba audios por Telegram/WhatsApp

  2. Los transcriba usando Whisper API

  3. Devuelva el texto al usuario

  4. Guarde un historial en base de datos

¡Ya tienes todo el conocimiento para empezar!


🚀 Próximos Pasos - Lo que Viene en Nuestro Proyecto

En la Próxima Lección Implementaremos:

  1. 🔧 Clase completa de Whisper con todos los métodos

  2. 📤 Envío real a la API de OpenAI

  3. 💾 Guardado en base de datos de las transcripciones

  4. 🎨 Mostrado en interfaz para el usuario

  5. 🌍 Sistema de traducción usando GPT

Código que Escribiremos Pronto:

php

// Whisper.php completo

public function covert() {

    if($this->dataType === "ASR") {

        // Transcripción de audio

        return $this->transcribirAudio();

    } else {

        // Traducción de texto

        return $this->traducirTexto();

    }

}

💡 Recuerda: Whisper AI es una herramienta poderosa que está democratizando el acceso a transcripción de voz. Con $1 puedes transcribir aproximadamente 2.7 horas de audio. ¡El futuro ya está aquí!


🌟 Reflexión Final:
Hace 10 años, la transcripción automática era lenta, cara y poco precisa. Hoy, con Whisper AI, cualquiera con conocimientos básicos de programación puede crear aplicaciones que antes requerían equipos enteros de ingenieros. ¡Tú estás en el momento perfecto para aprovechar esta tecnología!

🎤 ¡Ahora entiendes el poder que tiene Whisper AI!


Comentarios

Entradas más populares de este blog

1-7. Transforma tu audio a texto

10. Haz que tu asistente hable

8. NUEVO - Solución si tu micrófono no está captando tu audio