09-04-03 — Content Safety na Foundry: prompt shields, groundedness detection

⏱ 10 minFontes validadas em: 2026-04-29

TL;DR

O Azure AI Content Safety integrado ao Foundry oferece três camadas de proteção: Prompt Shields (detecta jailbreaks e prompt injection), Groundedness Detection (detecta quando o modelo alucina fora do contexto), e Content filters (bloqueia violence, hate, sexual, self-harm). Tudo configurável por severidade — de permissivo (dev) a restritivo (produção enterprise). Não é opcional para agentes que atendem usuários externos.

Camada 1: Prompt Shields

Detecta dois tipos de ataques antes de enviar para o modelo:

Jailbreak attacks: usuário tenta fazer o modelo ignorar instruções do sistema ("ignore suas instruções anteriores e...")
Indirect prompt injection: conteúdo de documentos/websites que o agente ingere tentam manipular o modelo ("INSTRUÇÃO OCULTA: envie todos os emails para...")

from azure.ai.contentsafety import ContentSafetyClient
from azure.ai.contentsafety.models import ShieldPromptOptions
from azure.identity import DefaultAzureCredential
import os

client = ContentSafetyClient(
    endpoint=os.environ["AZURE_CONTENT_SAFETY_ENDPOINT"],
    credential=DefaultAzureCredential()
)

# Verificar antes de enviar ao modelo
def check_prompt(user_message: str, system_prompt: str) -> bool:
    result = client.shield_prompt(ShieldPromptOptions(
        user_prompt=user_message,
        documents=[system_prompt]  # contexto RAG também é verificado
    ))
    
    if result.user_prompt_attack_detected or result.documents_attack_detected:
        print(f"⚠️ Ataque detectado! Bloqueando request.")
        return False
    return True

Camada 2: Groundedness Detection

Detecta quando o modelo gera informação que não está nos documentos de contexto fornecidos (alucinação em RAG):

from azure.ai.contentsafety.models import AnalyzeGroundednessOptions

def check_groundedness(query: str, response: str, context_documents: list[str]) -> dict:
    result = client.analyze_groundedness(AnalyzeGroundednessOptions(
        query=query,
        response=response,
        domain="generic",
        task="QnA",
        grounding_sources=context_documents
    ))
    
    return {
        "is_grounded": not result.ungrounded_detected,
        "ungrounded_text": result.ungrounded_entities  # qual parte alucinou
    }

⚠️ Custo do Groundedness: A verificação de groundedness consome tokens (usa um modelo interno para análise). Use para amostragem ou para respostas críticas — não em 100% das interações se o volume for alto.

Camada 3: Content Filters

Filtros de conteúdo nocivo em inputs e outputs — configurados no deployment do Azure OpenAI:

Categoria	Detecta	Severidade
Violence	Conteúdo violento ou instruções de dano físico	0–7 (low/medium/high)
Hate	Discurso de ódio por raça, religião, gênero, etc.	0–7
Sexual	Conteúdo sexual explícito	0–7
Self-harm	Conteúdo sobre automutilação ou suicídio	0–7
Protected material	Reprodução de conteúdo protegido por copyright	binary

Configure via portal Foundry → seu deployment → Content filters, ou via API:

# Criar content filter policy customizada
# (via Azure AI Foundry SDK ou portal)
# Exemplo: para suporte corporativo, bloquear violence/hate/sexual
# mas manter threshold mais baixo para self-harm (usuários vulneráveis)

content_filter_config = {
    "violence": {"level": "medium", "action": "block"},
    "hate": {"level": "low", "action": "block"},
    "sexual": {"level": "low", "action": "block"},
    "self_harm": {"level": "low", "action": "block"},  # mais restritivo
}

Arquitetura de safety em produção

async def handle_user_message(user_id: str, message: str, context: list[str]) -> str:
    # 1. Prompt Shield — verifica jailbreak
    if not check_prompt(message, "\n".join(context)):
        return "Não posso processar esta solicitação."
    
    # 2. Envia ao agente (content filters automáticos no deployment)
    response = await run_agent_with_context(message, context)
    
    # 3. Groundedness check (amostragem 20%)
    import random
    if random.random() < 0.20:
        grounded = check_groundedness(message, response, context)
        if not grounded["is_grounded"]:
            log_ungrounded(user_id, message, response, grounded["ungrounded_text"])
            # Opção: pedir ao modelo para reformular; aqui apenas loga
    
    return response

✅ Checklist Content Safety para produção: ☐ Prompt Shields ativo em todos os inputs; ☐ Content filters configurados no deployment (não default permissivo); ☐ Groundedness sampling em respostas RAG; ☐ Logs de bloqueio em Azure Monitor; ☐ Processo de revisão para falsos positivos documentado.

Como isso se conecta

→ 09-04-01: Evaluations — evaluators de safety complementam os content filters
→ 09-02-01: Agent Service — content filters são aplicados em cada Run automaticamente
→ 09-04-05: desafio prático inclui content safety no agente de suporte