Capture, picker, preview, crop, and upload. EXIF stripping ON by default; widgets KoderImagePicker / KoderImagePreview / KoderImageCropper.
Audio
Contrato cross-surface para gravação e reprodução de áudio em apps Koder (não-voice). Toggles em Settings (`media.audio.mic`, `media.audio.playback_in_background`); defaults seguros; codecs canônicos (Opus/AAC/MP3 in; Opus out via kodec); widgets `KoderAudioPlayer` + `KoderAudioRecorder` em `engines/sdk/koder_kit`. Recording indicator obrigatório. Upload size cap 100 MB. `<APP>-AUDIO-*` error map. **Relação com voice:** `specs/voice/wake-word.kmd` cobre wake-word + Talk Mode (ouvir o usuário ativamente, sub-domínio). Este spec cobre áudio genérico (tocar/gravar como mídia). Mic permission é compartilhada; voice toggles continuam separados em Settings.
Full specification
Media — Audio Spec — v0.1
Normative cross-surface spec para audio I/O em apps Koder, excluindo voice/wake-word (coberto em
specs/voice/wake-word.kmd). Implementação obrigatória via widgetsKoderAudio*emengines/sdk/koder_kit(Flutter) — nunca rolaraudioplayersupstream ou<audio>raw local.
Scope
Aplica-se a todo app Koder que grave OU reproduza áudio fora do domínio voice/wake-word: audio memos (recorded notes), podcast playback, voicemail, audio attachments em chat, ringtones, sound effects de UI, music streaming.
Fora de scope (cobertos por voice/wake-word.kmd): wake-word
detection (ring buffer pré-wake), Talk Mode (always-listening),
barge-in TTS cancellation.
Surfaces cobertas: Flutter mobile (Android + iOS), Flutter desktop (Linux + macOS + Windows), Flutter web ou templ+HTMX, TV (raro; playback de ringtones em smart-TV apps). CLI/TUI delegam ao desktop player externo.
1 — MUST: expose "Áudio" toggle group in Settings
Sub-seção "Áudio" do agrupamento "Mídia"; deve conter, na ordem:
- Microfone (
media.audio.mic) — gate à gravação de áudio - Reproduzir em background (
media.audio.playback_in_background) — checkbox; quando ON, audio continua tocando ao sair do app (iOS exige entitlementaudiono Info.plist) - Qualidade de gravação (
media.audio.record_quality) — dropdownvoice(32 kbps Opus) /music(96 kbps Opus) /lossless(FLAC) - Echo cancellation (
media.audio.aec) — toggle (relevante em gravação ambiental); default ON
media.audio.mic é separado de voice.enabled da §1 do
voice/wake-word.kmd. Voice toggles controlam wake-word + Talk Mode;
este toggle controla gravação manual (push-to-talk, memos).
2 — MUST: defaults seguros em fresh install
| Chave | Default | Notas |
|---|---|---|
media.audio.mic | OFF | Privacy-by-default; primeiro uso dispara permission prompt do SO |
media.audio.playback_in_background | OFF | iOS exige entitlement; user opt-in via toggle |
media.audio.record_quality | voice | 32 kbps Opus equilibra inteligibilidade e tamanho de upload |
media.audio.aec | ON | Reduz echo de loudspeaker em gravações; OFF útil só pra music/instrument capture |
3 — MUST: privacidade + recording indicator
- NUNCA auto-upload de gravação (user confirma antes do POST)
- NUNCA keep mic open em background além de 5 s pós-leave (a menos
que
playback_in_backgroundativo E o app esteja em sessão de gravação explícita — caso raríssimo, exige consent toast) - Recording indicator obrigatório quando capture ativo: ícone + timer no app; em mobile, system status bar (mic dot) é OS-managed
- Mic permission é compartilhada com
voice.enabledno SO; este toggle controla uso, não permissão de SO
4 — MUST: widget surface no koder_kit
| Widget | Função |
|---|---|
KoderAudioPlayer | Playback de KoderAudioRef ou URL; controls (play/pause/seek/speed/AirPlay-like) |
KoderAudioRecorder | Gravação com VU meter + start/stop/pause; gates media.audio.mic; emite chunks streaming |
KoderAudioPicker | Sheet "Gravar áudio" / "Escolher arquivo"; retorna KoderAudioRef |
KoderAudioWaveform | Render de waveform pré-computado (para preview de memo, attachment); lazy |
KoderRingtonePicker | Helper específico para tom de notificação; restringe a duração ≤ 30 s |
KoderAudioRef: {uri, mime, durationMs, sampleRate, channels, codec, sizeBytes, koderUserId?, workspaceId?}.
5 — MUST: format support
Decode (via engines/kodec): Opus, AAC, MP3, FLAC, OGG Vorbis,
WAV.
Encode (default): Opus em OGG container. FLAC quando
record_quality = lossless.
Sample rate: 16 kHz mono para voice, 48 kHz stereo para music
e lossless.
Upload size cap: 100 MB. Exceder → erro <APP>-AUDIO-SIZE-001.
6 — MUST: error surface
| Cenário | ID | Texto pt-BR |
|---|---|---|
| Permissão de mic negada | <APP>-AUDIO-MIC-001 | "Permita o acesso ao microfone para gravar áudio." |
| Codec de decode não suportado | <APP>-AUDIO-CDC-001 | "Este áudio usa codec não suportado ($codec)." |
| Tamanho excede 100 MB | <APP>-AUDIO-SIZE-001 | "Áudio muito grande. Reduza qualidade ou duração." |
| Upload falhou | <APP>-AUDIO-NET-001 | "Falha ao enviar o áudio. Tente novamente." |
| Hardware indisponível (mic ocupado outro app) | <APP>-AUDIO-HW-001 | "Microfone em uso por outro app. Feche-o e tente novamente." |
| Background playback sem entitlement (iOS) | <APP>-AUDIO-BG-001 | "Ative 'Reproduzir em background' em Ajustes para continuar." |
7 — Observability
- Counters:
media.audio.recorded,media.audio.uploaded,media.audio.playback_started,media.audio.upload_error - Latency histograms:
media.audio.encode_ms,media.audio.upload_ms,media.audio.first_sample_ms - Não emitir métricas que vazem conteúdo (transcript, file path, hash do audio) — apenas counters + latência
8 — Adoption checklist (per app)
- Importa
KoderMediaSettingsTile(sub-seção Áudio visível) - Usa
KoderAudioPlayer/KoderAudioRecorder(nuncaaudioplayersupstream raw) - Defaults da §2 respeitados
- Recording indicator implementado (§3)
- Codec layer via
engines/kodec - Error map da §6 implementado
- Upload path respeita
multi-tenancy/contract.kmd - Se o app também tem voice/wake-word: separar UX (Settings "Voz" e "Áudio" coexistem; cross-link aceito mas não obrigatório)
Relação com voice/wake-word.kmd
Voice ≠ Audio:
- Voice (
specs/voice/wake-word.kmd): capability "ouvir o usuário ativamente" — wake-word detection (ring buffer pré-wake), Talk Mode (always-listening), STT pipeline, barge-in. Settings group "Voz". - Audio (este spec): capability "tocar/gravar áudio como mídia" — memos, attachments, podcast, music, ringtones. Settings group "Áudio".
Mic permission do SO é compartilhada; cada toggle em Settings é uso (não permissão). Se um app usa ambos, manter os 2 sub-grupos em Settings é a UX preferida (clareza de intent: o usuário pode desligar voice mas manter mic pra audio memos).
Non-normative — referências
- Sibling specs:
specs/media/image.kmd,specs/media/video.kmd,specs/media/document.kmd - Voice (sub-domain):
specs/voice/wake-word.kmd(mic gate precedent + ring buffer privacy) - Codec engine:
engines/kodec/(canônica) - Implementation surface:
engines/sdk/koder_kit/lib/src/media/
Other media capabilities
Recording, playback, and screen capture. Recording indicator mandatory; codecs via engines/kodec; widgets KoderVideoPlayer / KoderVideoRecorder / KoderScreenCapture.
Pick, preview, and OCR for PDF/DOCX/MD/TXT. Local-first OCR (tesseract); fallback to services/ai/ocr. Widgets KoderDocumentPicker / KoderOcrButton.