La capa de voz del ecosistema

Hablale a todo.
Tipear era una etapa.

voice hace que el chat de IA, WhatsApp, tus dashboards y los kioskos del local entiendan lo que decís y respondan en consecuencia. Una sola integración. Todas las apps.

Pensado para equipos que ya viven en el ecosistema Puntoindigo y quieren dejar de tipear lo que pueden simplemente decir.

Ver precios Cómo funciona

Lo que cambia para vos

Menos clicks. Menos pestañas. Más decir y listo.

⚡

Más rápido que tipear

Hablás a velocidad natural y el sistema lo escribe, lo entiende y lo ejecuta. Latencia objetivo bajo el segundo y medio.

🎯

Manos libres en serio

Manejás el dashboard en una reunión sin tocar el mouse. Mandás un audio a WhatsApp manejando. El kiosco entiende al cliente sin pantalla táctil.

🧩

Funciona donde ya trabajás

No es una app nueva más. Se enciende dentro de las herramientas que el equipo ya usa todos los días.

🔒

Privado por diseño

Los audios no se guardan por defecto. Misma autenticación, mismas reglas y mismas métricas que el resto del ecosistema.

Cinco lugares donde podés hablar

Una voz, cinco superficies.

Chat de IA

Botón de mic al lado del input. Apretás, hablás, revisás, mandás.

WhatsApp (vorum-wa)

Mandás un audio al bot y se ejecuta como si lo hubieras tipeado.

Dashboards

"Mostrame ventas de marzo." "Filtrá por sucursal Centro." "Siguiente slide."

Kioskos y dispositivos

Tablets de mostrador y pantallas de sala con wake-word, siempre escuchando.

Respuestas habladas

El bot, el dashboard y el kiosco te contestan en voz alta. Una sola voz para todo.

Lo que venga

Cualquier app del ecosistema enchufa voice en minutos.

Tres minutos en la vida del producto

Así se siente cuando ya está andando.

Lunes · 9:14 AM · Reunión gerencial

El dashboard que se maneja como un piloto de F1

La gerenta entra a la sala, conecta el monitor y arranca la presentación sin tocar el mouse.

"voice, traeme el comparativo trimestral por sucursal… ahora filtrá solo Centro y Norte… mostrá la proyección a junio."

Martes · 14:32 PM · En el auto, volviendo de un cliente

WhatsApp como interfaz principal

Vendedor manda un audio de 8 segundos al bot. La tarea queda creada, el cliente ya recibió la confirmación.

"Pasale al equipo que el pedido de López sale el jueves, y agendame visita el viernes a las once."

Miércoles · 11:00 AM · Mostrador del local

El kiosco que escucha y responde

Cliente se acerca a la pantalla. No toca nada. Habla. El kiosco consulta stock y dispara la operación.

"¿Tienen el modelo 32 en azul?" — "Sí, queda uno. ¿Te lo reservo a tu nombre?"

Para compartir en redes

Tres flyers, tres ideas.

Capturá el que más te guste y subilo. Cada uno cuenta el producto desde un ángulo distinto: el cambio de hábito, la integración total, y un momento real de uso.

● voice · puntoindigo

Antes tipeabas.

Ahora hablás.

voice.puntoindigo.com

01 · Cambio de hábito

● voice · puntoindigo

voice

chat IA wa dash kiosko sala

Una voz.
Todo el ecosistema.

02 · Integración total

● voice · puntoindigo

Lunes · 9:14 · reunión gerencial

voice, traeme el comparativo trimestral y filtrá por sucursal Centro.

— el dashboard obedece

03 · Momento real

Plan comercial desde el día uno

Tres tiers, sin permanencia, prueba de 14 días. Detalle completo en la hoja de prensa.

US$19 /mes

Ver los tres planes →

Para los que les gusta el debajo del capot

Detalles técnicos

Todo lo que sigue es opcional. Si no te interesa el cómo, saltealo — voice funciona igual.

Stack y arquitectura

voice es una capa fina sobre proveedores existentes. Speech-to-text con Gemini Flash en modo audio nativo (sin ffmpeg, sin conversión: audio/webm y audio/mp4 directos). Síntesis con ElevenLabs o Google TTS, elegible por organización.

El frontend usa un hook useVoiceInput() sobre la API nativa MediaRecorder. Sin dependencias externas en el cliente.

El backend expone POST /api/v1/transcribe, /synthesize y /intent.

Latencia, idiomas y calidad

Latencia STT: < 1.2 s para audios de hasta 10 segundos (objetivo de producto).
Idiomas: español rioplatense (principal), español neutro, inglés y portugués brasileño.
Formatos: webm (Chrome/Firefox), mp4 (Safari) y wav, sin pre-procesamiento.
Voz TTS personalizada (clonado de voz) en el plan Ecosistema.

Seguridad y privacidad

Mismo requireAuth que el resto del ecosistema. Cero superficie nueva.
Audio nunca persistido por defecto — sólo el texto transcripto queda en logs.
Logging centralizado en Supabase con métricas y costo por uso desde el día uno.
On-premise opcional para clientes Ecosistema, con audio que nunca sale de la red del cliente.

Integración en una app existente

Tres líneas en el frontend (useVoiceInput()) y un endpoint proxy en el backend que llame a voice API. Eso es todo. Auth, logging y rate-limit los hereda del wrapper que ya usa el resto del ecosistema.

Cualquiera de las 12+ apps existentes puede sumarse en menos de un día de trabajo de un dev del equipo.

Roadmap por hitos

Hito 1 — Botón de hablar en el chat de IA. Validación end-to-end de captura + transcripción. Semana 1–2.
Hito 2 — Comandos de WhatsApp por voz (vorum-wa). Audios que se ejecutan como si los hubieras tipeado. Semana 3–4.
Hito 3 — Materializar el repo voice. Módulos stt, tts, capture, API y cliente liviano. Mes 2.
Hito 4 — Respuestas habladas (TTS). Bot de WA, dashboard y kiosco contestan en audio. Mes 3+.
Hito 5 — Voz como control remoto del ecosistema. Dashboards, modo presentación, kioskos y dispositivos. Capa de intents compartida con Hito 2.

Costos de proveedores (lo que pagamos nosotros)

Transcripción: Gemini Flash audio nativo ≈ US$ 0.001 por audio de menos de 1 minuto. A 10.000 transcripciones/mes ≈ US$ 10.
Síntesis: ElevenLabs ≈ US$ 0.30 por 1.000 caracteres (calidad alta) / Google TTS ≈ US$ 0.016 por 1.000 caracteres (costo bajo).
Margen sobre estos costos cubre el plan comercial holgado, incluso en uso intensivo.

Dejá de tipear lo que podés decir.

Probá voice 14 días gratis en tu propio ecosistema. Sin tarjeta, sin permanencia, sin instalación física.

Empezar la prueba Ver hoja de prensa