Como agregamos as notícias.

Todos os dias lemos dezenas de artigos sobre os mesmos eventos em diferentes veículos. Em seguida montamos um resumo único e neutro que mostra onde as fontes concordam, onde a cobertura é desigual, e onde os veículos realmente se contradizem.

Abaixo: cada etapa do pipeline, os modelos de IA que fazem o trabalho e as limitações que conhecemos.

O pipeline

Cada notícia agregada é construída em cinco etapas. As etapas rodam automaticamente uma vez por dia; o resultado é o que você lê na página inicial e nas páginas de cada notícia.

  1. Descoberta — Coletamos artigos recentemente publicados de uma lista curada de redações brasileiras (feeds RSS quando disponíveis, extração de capa quando não). URLs que parecem ser de esportes, entretenimento, clima, horóscopo ou conteúdo patrocinado são filtradas antes do processamento.
  2. Agrupamento — Artigos sobre o mesmo evento são agrupados. Primeiro, comparamos títulos por palavras-chave em comum (ignorando preposições e artigos). Depois um LLM confirma se os grupos descrevem o mesmo evento, separando falsos positivos e mesclando ângulos relacionados. Um grupo precisa ter pelo menos dois veículos diferentes.
  3. Síntese — Para cada grupo, um LLM lê os artigos (fontes de maior qualidade recebem mais peso) e produz quatro coisas: uma manchete neutra, um resumo curto do "o que aconteceu", uma lista de fatos em consenso (com atribuição de fonte), uma lista de fatos sem consenso (reportados por alguns veículos e não outros) e uma lista de divergências (onde as fontes se contradizem).
  4. Revisão — Uma segunda passada do LLM audita a síntese. Remove fatos fora do tema que escaparam dos artigos-fonte, rebaixa divergências fracas que são na verdade detalhes complementares, extrai contexto necessário para entender o evento e remove qualquer linguagem carregada que a síntese tenha herdado dos artigos.
  5. Enriquecimento — Se os artigos realmente não têm contexto, o revisor dispara uma busca na web e traz 3 a 5 fontes adicionais para preencher a lacuna. Essas fontes externas aparecem numa seção separada chamada "Fontes de contexto" na página da notícia, para o leitor ver o que foi adicionado.
  6. Tradução — O revisor produz uma versão em inglês de cada campo na mesma chamada. O prefixo /en/ mostra o conteúdo traduzido; a URL padrão em português mostra o original.

Regras de neutralidade

Tanto a síntese quanto a revisão seguem regras rígidas sobre linguagem. Esta é a parte mais difícil do sistema e a razão de termos adicionado a etapa de revisão.

  • Trocamos verbos carregados como "atacou", "disparou", "arrasou" por alternativas neutras como "afirmou", "criticou", "declarou".
  • Removemos adjetivos de julgamento como "polêmico", "bombástico", "histórico", "surpreendente". Se os fatos são marcantes, os fatos falam.
  • Trocamos caracterizações como "trama golpista" ou "monitoramento ilegal" pela categoria legal neutra ("acusações de tentativa de golpe", "supostas irregularidades"), ou citamos com atribuição quando for importante.
  • Não adotamos o enquadramento de nenhum lado. Se um lado chama algo de "golpe" e o outro de "ação política legítima", descrevemos a disputa em vez de escolher um lado.

Os modelos de IA

Divulgamos quais modelos fazem o trabalho. A maioria das ferramentas de IA não divulga.

  • Agrupamento, síntese e revisão usam Claude Sonnet 4 (Anthropic).
  • A pontuação de qualidade de cada artigo (as seis dimensões que alimentam a atribuição de fontes) usa DeepSeek V3.
  • O enriquecimento via web usa Tavily Search.

Como as notas de qualidade são calculadas

Cada artigo usado na agregação também tem uma nota de qualidade. A nota influencia o peso do artigo durante a síntese (artigos de maior qualidade ganham mais espaço). As notas não aparecem nas notícias agregadas, apenas na seção "Leia diretamente pela imprensa".

Seis dimensões, cada uma pontuada de 1 a 5. A soma vai de 6 a 30. As letras mapeiam para faixas: A (26-30), B (22-25), C (18-21), D (14-17), F (6-13).

Limitações

O que pode dar errado. Publicamos porque um sistema que não pratica transparência não tem o direito de pedir sua confiança.

  • Erros de agrupamento: O agrupador às vezes deixa de juntar artigos relacionados (falsos negativos) ou junta artigos não relacionados (falsos positivos). Quando um grupo está errado, a síntese também estará.
  • Contaminação de tema: Artigos-fonte frequentemente cobrem múltiplos temas. A revisão remove fatos fora do tema que escapam, mas a captura não é garantida.
  • Deriva de linguagem: LLMs podem herdar termos carregados dos artigos-fonte apesar das regras de neutralidade. Re-executamos a revisão periodicamente quando as regras mudam.
  • Viés de cobertura: Só agregamos de redações brasileiras que acompanhamos. Eventos internacionais são lidos pela lente brasileira; cobertura direta estrangeira não é incluída.
  • Sem checagem de fatos: Não verificamos se os eventos aconteceram. Agregamos o que os veículos reportaram. Se todos os veículos erraram um fato, nós também erramos.
  • Variabilidade do LLM: Re-executar com os mesmos artigos pode produzir texto ligeiramente diferente. A estrutura (consenso/divergência) é estável; a redação varia.

Dados e privacidade

  • Artigos são agregados a partir de URLs publicamente disponíveis. O texto completo é processado mas não armazenado permanentemente além dos insumos de síntese necessários para re-executar a revisão.
  • As notícias agregadas são armazenadas para preservar o feed diário.
  • Contas de usuário (opcionais) armazenam endereços de email apenas para autenticação.

Contato

Dúvidas sobre a metodologia? Encontrou um problema? Entre em contato: thiago@thinktwice.capital.

Abra as notícias agregadas de hoje.