Detalhes sobre o Sandbox de privacidade

O Sandbox de privacidade é uma série de propostas para satisfazer casos de uso de terceiros sem cookies de terceiros ou outros mecanismos de rastreamento.

Resumo

  • Esta postagem descreve as APIs e os conceitos das propostas do Sandbox de privacidade.
  • Os autores da proposta estão pedindo feedback da comunidade, especialmente da área de publicidade (editores, anunciantes e empresas de adtech), para sugerir casos de uso ausentes e compartilhar informações sobre como oferecer suporte aos casos de uso de negócios.
  • Para comentar sobre as propostas, registre problemas nos repositórios listados abaixo.
  • Há um glossário para as propostas no fim desta postagem.

O estado atual da privacidade na Web

Os sites usam serviços de outras empresas para fornecer análises, veicular vídeos e realizar muitas outras coisas úteis. A composição é um dos superpoderes da Web. Em especial, os anúncios são incluídos em páginas da web por meio de JavaScript e iframes de terceiros. Cliques, conversões e visualizações de anúncios são acompanhados por scripts e cookies de terceiros.

No entanto, ao visitar um site, talvez você não conheça os terceiros envolvidos e o que eles estão fazendo com seus dados. Mesmo editores e desenvolvedores da Web podem não entender toda a cadeia de suprimentos de terceiros.

A seleção de anúncios, a medição de conversões e outros casos de uso atualmente dependem do estabelecimento de uma identidade do usuário estável entre sites. Historicamente, isso era feito com cookies de terceiros, mas os navegadores começaram a restringir o acesso a esses cookies. Também houve um aumento no uso de outros mecanismos para rastreamento de usuários entre sites, como armazenamento oculto do navegador, técnicas de impressão digital de dispositivos e solicitações de informações pessoais, como endereços de e-mail.

Esse é um dilema para a Web. Como dar suporte a casos de uso legítimos de terceiros sem permitir que os usuários sejam rastreados em sites?

Particularmente, como os sites podem financiar conteúdo permitindo que terceiros exibam anúncios e avaliem o desempenho do anúncio, mas sem permitir que usuários individuais tenham perfis? Como os anunciantes e proprietários de sites podem avaliar a autenticidade de um usuário sem recorrer a padrões escuros, como as impressões digitais do dispositivo?

A forma como as coisas funcionam no momento pode ser problemática para todo o ecossistema da Web, não apenas para os usuários. Para editores e anunciantes, rastrear a identidade e usar uma variedade de soluções de terceiros não padrão pode aumentar a dívida técnica, a complexidade do código e o risco dos dados. Usuários, desenvolvedores, editores e anunciantes devem ter certeza de que a Web protege as escolhas de privacidade dos usuários.

A publicidade é o principal modelo de negócios da Internet, mas ela precisa funcionar para todos. Isso nos leva à missão do Sandbox de privacidade: criar um ecossistema da Web próspero que respeite os usuários e a privacidade por padrão.

Apresentação do Sandbox de privacidade

O Sandbox de privacidade apresenta um conjunto de APIs que preservam a privacidade para oferecer suporte a modelos de negócios que financiam a Web aberta na ausência de mecanismos de rastreamento, como cookies de terceiros.

As APIs do Sandbox de privacidade exigem que os navegadores da Web assumam um novo papel. Em vez de trabalhar com ferramentas e proteções limitadas, as APIs permitem que o navegador do usuário atue em nome do usuário (localmente em seu dispositivo) para proteger as informações de identificação do usuário enquanto ele navega na Web. As APIs permitem casos de uso, como seleção de anúncios e medição de conversões, sem revelar informações particulares e pessoais individuais. Em termos de engenharia, um sandbox é um ambiente protegido. Um princípio fundamental do Sandbox de privacidade é que as informações pessoais de um usuário devem ser protegidas e não compartilhadas de modo a permitir que o usuário seja identificado em todos os sites.

Essa é uma mudança de direção para os navegadores. Na perspectiva do futuro do Sandbox de privacidade, os navegadores oferecem ferramentas específicas para atender a casos de uso específicos e preservar a privacidade do usuário. Um possível modelo de privacidade para a Web (link em inglês) define os princípios básicos por trás das APIs:

  • Para estabelecer o intervalo de atividades na Web em que o navegador do usuário pode permitir que os sites tratem uma pessoa como tendo uma única identidade.
  • Para identificar as formas como as informações podem se mover através dos limites de identidade sem comprometer essa separação.

As propostas do Sandbox de privacidade

Para remover os cookies de terceiros com sucesso, a iniciativa Sandbox de privacidade precisa da sua ajuda. As explicações da proposta precisam do feedback de desenvolvedores, editores, anunciantes e empresas de tecnologia de publicidade para sugerir casos de uso ausentes e compartilhar informações sobre como alcançar as metas sem comprometer a privacidade.

Você pode comentar os textos explicativos da proposta registrando problemas em cada repositório:

  • Modelo de privacidade para a Web
    Estabeleça o intervalo de atividades na Web em que o navegador do usuário pode permitir que os sites trate uma pessoa como tendo uma única identidade. Identifique como as informações podem ultrapassar os limites de identidade sem comprometer essa separação.
  • Orçamento de privacidade
    Limite a quantidade total de dados potencialmente identificáveis que os sites podem acessar. Atualize as APIs para reduzir a quantidade de dados potencialmente identificáveis revelados. Torne mensurável o acesso a dados potencialmente identificáveis.
  • Gnatcatcher
    Limite a capacidade de identificar usuários individuais acessando o endereço IP deles.
  • API Trust Token
    Ative uma origem confiável para emitir tokens criptográficos armazenados pelo navegador do usuário, que poderão ser usados em outros contextos com o objetivo de avaliar a autenticidade do usuário.
  • Conjuntos primários
    Permite que nomes de domínio relacionados pertencentes à mesma entidade se declarem como pertencentes à mesma parte primária.
  • Relatórios agregados
    Ofereça mecanismos de preservação de privacidade que funcionam em vários casos de uso, como medição de alcance, conversão de visualização e Brand e Lift.
  • API Attribution Reporting
    Ofereça medições de cliques e visualizações que preservam a privacidade com relatórios agregados e no nível do evento.
  • API Topics
    Ativa a publicidade com base em interesses, sem precisar recorrer ao rastreamento dos sites que um usuário visita. O design da API foi baseado no feedback da comunidade dos nossos testes anteriores do FLoC e substitui a proposta do FLoC.
  • FLEDGE
    Oferece uma solução para casos de uso de remarketing, criada para que não seja usada por terceiros para rastrear o comportamento de navegação do usuário em sites.

Você pode conferir os explicações sobre as propostas de API imediatamente e, nos próximos meses, vamos publicar postagens sobre cada proposta individualmente.

Além disso, adicionaremos à nossa lista de reprodução vídeos de cinco minutos com uma explicação simples de cada API.

Casos de uso e metas

Medir a conversão

Meta:permitir que os anunciantes meçam a performance dos anúncios.

Com a API Attribution Reporting, é possível medir dois eventos vinculados: 1. É um evento no site de um editor, como um usuário visualizando ou clicando em um anúncio. 1. A conversão subsequente no site de um anunciante.

Essa API é compatível com medições de cliques e visualizações.

Outros recursos dessa API incluem os relatórios de atribuição entre dispositivos e de app para a Web.

A API também oferece dois tipos de relatórios de atribuição:

  • Os relatórios de evento associam um clique ou uma visualização específica do anúncio (no lado do anúncio) com os dados do lado da conversão. Para preservar a privacidade do usuário, impedindo a combinação de identidades de usuários em vários sites, os dados de conversão são muito limitados, e eles recebem ruídos (o que significa que, em uma pequena porcentagem de casos, dados aleatórios são enviados). Como proteção extra de privacidade, os relatórios não são enviados imediatamente.

  • Os relatórios agregados não estão vinculados a um evento específico no anúncio. Esses relatórios fornecem dados de conversão mais completos e com maior fidelidade do que os relatórios de evento. Uma combinação de técnicas de privacidade de criptografia, distribuição de confiança e privacidade diferencial ajuda a reduzir o risco de mesclagem de identidades entre sites.

Ambos os tipos de relatório podem ser usados simultaneamente: são complementares.

Introdução à API Attribution Reporting explica mais sobre o status desses recursos e como testar essa API.

Selecionar anúncios

Meta:permitir que os anunciantes exibam anúncios relevantes para os usuários.

Anúncios relevantes são mais favoráveis para os usuários e mais lucrativos para os editores, ou seja, as pessoas que veiculam sites com anúncios. Ferramentas de seleção de anúncios de terceiros tornam o espaço publicitário mais valioso para os anunciantes (as pessoas que compram espaço publicitário em sites), o que, por sua vez, aumenta a receita de sites com anúncios e permite a criação e a publicação de conteúdo.

Existem várias maneiras de tornar os anúncios relevantes para o usuário, incluindo:

  • Dados próprios: mostre anúncios relevantes para temas que uma pessoa informou a um site em que tem interesse ou para conteúdo que ela tenha acessado anteriormente no site atual.
  • Contextual: escolha onde exibir anúncios com base no conteúdo do site. Por exemplo, "Coloque este anúncio ao lado de artigos sobre tricô".
  • Remarketing: anuncie para pessoas que já visitaram seu site enquanto elas não estão nele. Por exemplo, "Mostre este anúncio de lã com desconto para pessoas que visitaram sua loja e deixaram itens de tricô no carrinho de compras enquanto visitam sites de artesanato".
  • Com base em interesses: selecione anúncios com base no histórico de navegação do usuário. Por exemplo, "Mostrar este anúncio para usuários cujo comportamento de navegação indique que eles podem ter interesse em tricô".

É possível conseguir dados primários e seleção de anúncios contextuais sem saber nada sobre o usuário além da sua atividade no site. Essas técnicas não exigem rastreamento entre sites.

O remarketing geralmente é feito com o uso de cookies ou outra forma de reconhecimento de pessoas em sites, por exemplo, adicionando usuários a listas e selecionando anúncios específicos para serem exibidos.

No momento, a seleção de anúncios com base em interesses usa cookies para acompanhar o comportamento dos usuários no maior número possível de sites. Muitas pessoas estão preocupadas com as implicações de privacidade da seleção de anúncios. O Sandbox de privacidade propõe duas alternativas para remarketing e seleção com base em interesses:

  • FLEDGE: para casos de uso de remarketing.
    A API foi projetada para que não possa ser usada por terceiros para rastrear o comportamento de navegação do usuário: o navegador do usuário, não o anunciante ou a plataforma de adtech, armazena os grupos de interesse definidos pelo anunciante associados ao navegador. O navegador do usuário combina os dados do grupo de interesse com os dados do comprador/vendedor de anúncios e a lógica de negócios para conduzir um "leilão" local no dispositivo do usuário para selecionar um anúncio, em vez de compartilhar dados com um terceiro.

  • API Topics: para públicos com base em interesses.
    Ativar a publicidade com base em interesses sem precisar rastrear os sites visitados por um usuário. A API propõe usar aprendizado de máquina para inferir temas de nomes de host e uma API JavaScript que retorna temas gerais de interesse de um usuário, com base nos nomes do host dos sites visitados recentemente.

Combater técnicas de impressão digital

Objetivo: reduzir a quantidade de dados potencialmente identificáveis revelados pelas APIs e tornar o acesso a dados potencialmente identificáveis, controlável pelos usuários e mensurável.

Os navegadores tomaram medidas para desativar os cookies de terceiros, mas as técnicas para identificar e rastrear o comportamento de usuários individuais, conhecidas como técnicas de impressão digital, continuaram evoluindo. A impressão digital usa mecanismos que os usuários não estão cientes e que não podem controlar.

  • O objetivo da proposta do Orçamento de privacidade é limitar o potencial de técnicas de impressão digital, identificando quantos dados de impressão digital são expostos por APIs JavaScript ou outras "plataformas" (como cabeçalhos de solicitação HTTP) e definindo um limite sobre a quantidade de dados que pode ser acessada.

  • O escopo das plataformas de impressão digital, como o cabeçalho User-Agent, será reduzido. Os dados disponibilizados por mecanismos alternativos, como as Dicas de cliente, estarão sujeitos a limites do Orçamento de privacidade. Outras plataformas, como as APIs de orientação do dispositivo e de nível da bateria, vão ser atualizadas para manter o mínimo possível de informações.

Segurança do endereço IP

Objetivo:controlar o acesso a endereços IP para reduzir o uso de técnicas de impressão digital ocultas e permitir que os sites desativem a exibição de endereços IP para não consumir o orçamento de privacidade.

O endereço IP de um usuário é o "endereço" público do computador dele na Internet, que, na maioria dos casos, é atribuído dinamicamente pela rede pela qual ele se conecta à Internet. Entretanto, até mesmo endereços IP dinâmicos podem permanecer estáveis por um período significativo. Sem surpresa, isso significa que os endereços IP são uma fonte significativa de dados de impressão digital.

A proposta do Gnatcatcher é uma tentativa de preservar a privacidade que evita o consumo do orçamento de privacidade, além de garantir que sites que exigem acesso a endereços IP para fins legítimos, como a prevenção de abusos, possam fazer isso, sujeito a certificação e auditoria.

A proposta tem duas partes: * A cegueira de IP intencional permite que os sites informem aos navegadores que não estão conectando endereços IP aos usuários. * Com a NAT de caminho próximo, grupos de usuários podem enviar tráfego pelo mesmo servidor com privatização, ocultando os endereços IP de um host de site.

Combater spam, fraude e ataques de negação de serviço

Objetivo:verificar a autenticidade do usuário sem técnicas de impressão digital.

A proteção antifraude é essencial para manter os usuários seguros e garantir que anunciantes e proprietários de sites tenham medições precisas de performance de anúncios. Anunciantes e proprietários de sites devem ser capazes de distinguir entre bots maliciosos e usuários autênticos. Se os anunciantes não souberem quais cliques nos anúncios são de pessoas reais, eles vão gastar menos, e os editores de sites receberão menos receita. Atualmente, muitos serviços de terceiros usam técnicas como impressão digital de dispositivos para combater fraudes.

Infelizmente, as técnicas usadas para identificar usuários legítimos e bloquear criadores de spam, fraudadores e bots funcionam de maneira parecida com as técnicas de impressão digital, que prejudicam a privacidade.

  • A API Trust Tokens propõe uma abordagem alternativa, sem identificar o usuário nem vincular as duas identidades, permitindo que a autenticidade estabelecida para um usuário em um contexto, como um site de mídia social, seja transmitida a outro, como um anúncio em um site de notícias.

Permitir que os domínios pertençam aos mesmos domínios

Meta: permitir que as entidades declarem que os nomes de domínio relacionados são de propriedade do mesmo.

Muitas organizações possuem sites em vários domínios. Isso pode se tornar um problema se forem impostas restrições ao rastreamento da identidade do usuário em sites considerados "de terceiros", mas que na verdade pertencem à mesma organização.

  • Os conjuntos primários visam deixar o conceito da Web de terceiros mais alinhados com o mundo real, permitindo que vários domínios se declarem como pertencentes ao mesmo proprietário.

Saiba mais

Explicações sobre as propostas do Sandbox de privacidade

A iniciativa do Sandbox de privacidade precisa da sua ajuda. A explicação da proposta da API precisa de feedback, principalmente para sugerir casos de uso ausentes e formas mais particulares de atingir os objetivos.

Um possível modelo de privacidade para a Web define os princípios básicos das APIs.

Sandbox de privacidade

Discussão e participação

Casos de uso, políticas e requisitos


Apêndice: glossário de termos usados nas explicações da proposta

Taxa de cliques (CTR)

A proporção de usuários que clicaram em um anúncio e o viram. Consulte também impressão.

Conversão de clique (CTC, na sigla em inglês)

Uma conversão atribuída a um anúncio que foi "clicado".

Conversão

A conclusão de uma ação no site de um anunciante por um usuário que já interagiu com um anúncio desse anunciante. Por exemplo, a compra de um produto ou a inscrição em um boletim informativo após clicar em um anúncio que direciona para o site do anunciante.

Privacidade diferencial

Compartilhe informações sobre um conjunto de dados para revelar padrões de comportamento sem revelar informações particulares sobre indivíduos ou se eles pertencem ao conjunto de dados.

Domínio

Consulte Domínio de nível superior e eTLD.

eTLD+1

Os domínios de nível superior "efetivos" são definidos pela lista de sufixos públicos. Exemplo:

co.uk
appspot.com
glitch.me

TLDs eficazes permitem que foo.appspot.com seja um site diferente de bar.appspot.com. Nesse caso, o domínio efetivo de nível superior (eTLD) é appspot.com, e todo o nome do site (foo.appspot.com, bar.appspot.com) é conhecido como eTLD+1.

Consulte também Domínio de nível superior.

Entropia

Uma medida de quanto um item de dados revela uma identidade individual.

A entropia de dados é medida em bits. Quanto mais os dados revelarem identidade, maior será seu valor de entropia.

Os dados podem ser combinados para identificar um indivíduo, mas pode ser difícil descobrir se os novos dados contribuem para a entropia. Por exemplo, saber que uma pessoa é da Austrália não reduz a entropia se você já sabe que ela é da Ilha Kangaroo.

Impressão digital

Técnicas para identificar e acompanhar o comportamento de usuários individuais. A impressão digital usa mecanismos que os usuários não estão cientes e que não podem controlar. Sites como o Panopticlick e o amiunique.org mostram como os dados de impressão digital podem ser combinados para identificar você como indivíduo.

Superfície de impressão digital

Algo que pode ser usado (provavelmente em combinação com outras plataformas) para identificar um usuário ou dispositivo específico. Por exemplo, o método JavaScript navigator.userAgent() e o cabeçalho de solicitação HTTP User-Agent dão acesso a uma superfície de impressão digital (a string do user agent).

Integração própria

Recursos do site que você está visitando. Por exemplo, a página que você está lendo está no site web.dev e inclui recursos desse site. Consulte também Terceiros.

Impressão

Visualização de um anúncio. Consulte também taxa de cliques.

k-anonimato

Uma medida de anonimato dentro de um conjunto de dados. Se você tem anonimidade k, não é possível distinguir k-1 de outras pessoas no conjunto de dados. Em outras palavras, k indivíduos têm as mesmas informações (incluindo você).

Valor de uso único

Número arbitrário usado apenas uma vez em comunicação criptográfica.

Origem

A origem de uma solicitação, incluindo o nome do servidor, mas nenhuma informação de caminho. Por exemplo, https://web.dev.

Superfície passiva

Algumas plataformas de impressão digital, como strings de user agent, endereços IP e cabeçalhos de aceitação de idioma, estão disponíveis para todos os sites, independentemente de o site solicitar ou não. Isso significa que as plataformas passivas podem consumir facilmente o orçamento de privacidade de um site.

A iniciativa do Sandbox de privacidade propõe substituir as superfícies passivas por maneiras ativas de conseguir informações específicas. Por exemplo, usar as dicas do cliente uma única vez para acessar o idioma do usuário, em vez de ter um cabeçalho com idioma de aceitação para cada resposta a todos os servidores.

Editor

As explicações sobre a proposta do Sandbox de privacidade são principalmente sobre anúncios, portanto, os tipos de editores mencionados são aqueles que colocam anúncios nos sites.

Alcance

O número total de pessoas que veem um anúncio.

Remarketing

Direcionar a publicidade para pessoas que já visitaram seu site. Por exemplo, uma loja on-line pode exibir anúncios de uma venda de brinquedos para pessoas que já visualizaram brinquedos em seu site.

Site

Consulte Domínio de nível superior e eTLD.

Superfície

Consulte Superfície de impressão digital e Superfície passiva.

Terceiros

Recursos veiculados de um domínio diferente do site que você está visitando. Por exemplo, o site foo.com pode usar código de análise de google-analytics.com (via JavaScript), fontes de use.typekit.net (por um elemento de link) e um vídeo do vimeo.com (em um iframe). Consulte também Próprios.

Domínio de nível superior (TLD)

Domínios de nível superior, como .com e .org, estão listados no banco de dados da zona raiz.

Observe que alguns "sites" são, na verdade, apenas subdomínios. Por exemplo, translate.google.com e maps.google.com são apenas subdomínios de google.com (que é o eTLD + 1).

.well-known

Pode ser útil acessar a política ou outras informações sobre um host antes de fazer uma solicitação. Por exemplo, o robots.txt informa aos rastreadores da Web quais páginas devem ser acessadas e quais devem ser ignoradas. O IETF RFC8615 descreve uma maneira padronizada de tornar os metadados em todo o site acessíveis em locais padrão em um subdiretório /.well-known/. Veja uma lista deles em iana.org/assignments/well-known-uris/well-known-uris.xhtml (em inglês).


Agradecemos a todos que ajudaram a escrever e analisar esta postagem.

Foto de Pierre Bamin no Unsplash (links em inglês).