Hablale a todo.
Tipear era una etapa.
voice hace que el chat de IA, WhatsApp, tus dashboards y los kioskos del local entiendan lo que decís y respondan en consecuencia. Una sola integración. Todas las apps.
Pensado para equipos que ya viven en el ecosistema Puntoindigo y quieren dejar de tipear lo que pueden simplemente decir.
Menos clicks. Menos pestañas. Más decir y listo.
Más rápido que tipear
Hablás a velocidad natural y el sistema lo escribe, lo entiende y lo ejecuta. Latencia objetivo bajo el segundo y medio.
Manos libres en serio
Manejás el dashboard en una reunión sin tocar el mouse. Mandás un audio a WhatsApp manejando. El kiosco entiende al cliente sin pantalla táctil.
Funciona donde ya trabajás
No es una app nueva más. Se enciende dentro de las herramientas que el equipo ya usa todos los días.
Privado por diseño
Los audios no se guardan por defecto. Misma autenticación, mismas reglas y mismas métricas que el resto del ecosistema.
Una voz, cinco superficies.
Chat de IA
Botón de mic al lado del input. Apretás, hablás, revisás, mandás.
WhatsApp (vorum-wa)
Mandás un audio al bot y se ejecuta como si lo hubieras tipeado.
Dashboards
"Mostrame ventas de marzo." "Filtrá por sucursal Centro." "Siguiente slide."
Kioskos y dispositivos
Tablets de mostrador y pantallas de sala con wake-word, siempre escuchando.
Respuestas habladas
El bot, el dashboard y el kiosco te contestan en voz alta. Una sola voz para todo.
Lo que venga
Cualquier app del ecosistema enchufa voice en minutos.
Así se siente cuando ya está andando.
El dashboard que se maneja como un piloto de F1
La gerenta entra a la sala, conecta el monitor y arranca la presentación sin tocar el mouse.
"voice, traeme el comparativo trimestral por sucursal… ahora filtrá solo Centro y Norte… mostrá la proyección a junio."WhatsApp como interfaz principal
Vendedor manda un audio de 8 segundos al bot. La tarea queda creada, el cliente ya recibió la confirmación.
"Pasale al equipo que el pedido de López sale el jueves, y agendame visita el viernes a las once."El kiosco que escucha y responde
Cliente se acerca a la pantalla. No toca nada. Habla. El kiosco consulta stock y dispara la operación.
"¿Tienen el modelo 32 en azul?" — "Sí, queda uno. ¿Te lo reservo a tu nombre?"Tres flyers, tres ideas.
Capturá el que más te guste y subilo. Cada uno cuenta el producto desde un ángulo distinto: el cambio de hábito, la integración total, y un momento real de uso.
Todo el ecosistema.
Detalles técnicos
Todo lo que sigue es opcional. Si no te interesa el cómo, saltealo — voice funciona igual.
Stack y arquitectura
voice es una capa fina sobre proveedores existentes. Speech-to-text con
Gemini Flash en modo audio nativo (sin ffmpeg, sin
conversión: audio/webm y audio/mp4 directos).
Síntesis con ElevenLabs o Google TTS,
elegible por organización.
El frontend usa un hook useVoiceInput() sobre la API nativa
MediaRecorder. Sin dependencias externas en el cliente.
El backend expone POST /api/v1/transcribe,
/synthesize y /intent.
Latencia, idiomas y calidad
- Latencia STT: < 1.2 s para audios de hasta 10 segundos (objetivo de producto).
- Idiomas: español rioplatense (principal), español neutro, inglés y portugués brasileño.
- Formatos: webm (Chrome/Firefox), mp4 (Safari) y wav, sin pre-procesamiento.
- Voz TTS personalizada (clonado de voz) en el plan Ecosistema.
Seguridad y privacidad
- Mismo
requireAuthque el resto del ecosistema. Cero superficie nueva. - Audio nunca persistido por defecto — sólo el texto transcripto queda en logs.
- Logging centralizado en Supabase con métricas y costo por uso desde el día uno.
- On-premise opcional para clientes Ecosistema, con audio que nunca sale de la red del cliente.
Integración en una app existente
Tres líneas en el frontend (useVoiceInput()) y un endpoint
proxy en el backend que llame a voice API. Eso es todo. Auth,
logging y rate-limit los hereda del wrapper que ya usa el resto del
ecosistema.
Cualquiera de las 12+ apps existentes puede sumarse en menos de un día de trabajo de un dev del equipo.
Roadmap por hitos
- Hito 1 — Botón de hablar en el chat de IA. Validación end-to-end de captura + transcripción. Semana 1–2.
- Hito 2 — Comandos de WhatsApp por voz (vorum-wa). Audios que se ejecutan como si los hubieras tipeado. Semana 3–4.
- Hito 3 — Materializar el repo voice. Módulos
stt,tts,capture, API y cliente liviano. Mes 2. - Hito 4 — Respuestas habladas (TTS). Bot de WA, dashboard y kiosco contestan en audio. Mes 3+.
- Hito 5 — Voz como control remoto del ecosistema. Dashboards, modo presentación, kioskos y dispositivos. Capa de intents compartida con Hito 2.
Costos de proveedores (lo que pagamos nosotros)
- Transcripción: Gemini Flash audio nativo ≈ US$ 0.001 por audio de menos de 1 minuto. A 10.000 transcripciones/mes ≈ US$ 10.
- Síntesis: ElevenLabs ≈ US$ 0.30 por 1.000 caracteres (calidad alta) / Google TTS ≈ US$ 0.016 por 1.000 caracteres (costo bajo).
- Margen sobre estos costos cubre el plan comercial holgado, incluso en uso intensivo.
Dejá de tipear lo que podés decir.
Probá voice 14 días gratis en tu propio ecosistema. Sin tarjeta, sin permanencia, sin instalación física.