Voice Changer App — AI Edge Bootcamp

Upload Audio

Select or upload a dialogue audio file to convert

or select an existing file

Select the AI service to convert your audio

Whisper STT + GPT-4o TTS

API key required

Direct S2S or per-speaker TTS

API key required

OpenAI API Key

Your key is used only for this session and is never stored.

ElevenLabs API Key

Your key is used only for this session and is never stored.

Conversion Mode

Direct S2S

Faster. Converts audio directly. One voice for all speakers.

Per-Speaker

Transcribes first. Assign a different voice to each speaker.

Voice ID

Find Voice IDs in your ElevenLabs dashboard.

Transcription typically takes 15–30 seconds…

Found speakers in your audio. Assign a voice to each one.

Transcript loaded in memory — assign a voice to each detected speaker below.

Speaking Accent (native language influence)

The output will be in English, but spoken with the accent of a native speaker of the selected language.

Synthesis can take up to a minute for longer audio…

Your voice-converted audio is ready

voice_output.mp3

Provider:

Audio processed in memory — no files stored on server