Streaming de tokens LLM para o navegador: a configuração do SSE de produção

Um spinner é uma mentira. Ele informa ao usuário que algo está acontecendo, sem dizer o quê. Quando o spectr-ai gera um relatório de segurança, o LLM produz texto token por token durante 15 a 40 segundos. Se eu esperar pela resposta completa e soltá-la na página, o usuário fica olhando para o nada o tempo todo. Se eu transmitir cada token conforme ele chega, o relatório se escreve na frente deles, exatamente como o ChatGPT. A mesma espera, sensação completamente diferente. Há algum tempo, falei sobre SSE para barras de progresso: o servidor envia

Leia o artigo completo: https://dev.to/pavelespitia/streaming-llm-tokens-to-the-browser-the-production-sse-setup-knh

Fonte: DEV Community