Anthropic = Skynet? Anthropic ASL-3: O Nível 3 de Segurança e Por que o Claude 4 é um Risco

Em 22 de maio de 2025, a Anthropic anunciou seus novos modelos Claude 4. Mas a notícia que realmente me chamou a atenção não foi apenas o desempenho, e sim um segundo comunicado: a ativação do Anthropic ASL-3 (AI Safety Level 3).

Enquanto a maioria se concentrava no Claude 4 ser “o melhor modelo de codificação do mundo”, a Anthropic nos dizia, simultaneamente, que sua nova IA havia atingido um nível de capacidade que justifica a aplicação de proteções de segurança de nível 3.

Vamos mergulhar no que é o Anthropic ASL-3, o que é a Política de Escalonamento Responsável (RSP) e por que a própria Anthropic está sinalizando que suas IAs atingiram um novo patamar de risco.

O Desafio: O Risco Catastrófico em IA

Para entender o ASL-3, primeiro precisamos entender o que a Anthropic define como “danos catastróficos”. Não estamos falando de um bug simples; estamos falando de eventos negativos de grande escala e impacto severo que podem surgir do uso indevido de IAs poderosas.

Isso inclui:

Riscos à Segurança Global: A IA sendo usada para criar armas autônomas ou facilitar o design e produção de armas de destruição em massa (Químicas, Biológicas, Radiológicas e Nucleares – CBRN).
Desestabilização Social e Política: Geração de desinformação personalizada em escala, minando processos democráticos, ou permitindo níveis extremos de vigilância e controle social.
Riscos Existenciais (Perda de Controle): O cenário onde os objetivos da IA se desalinham dos objetivos humanos, ou onde simplesmente perdemos a capacidade de controlar ou desativar sistemas superinteligentes.

A Solução da Anthropic: A Política de Escalonamento (RSP) e os Níveis ASL

Para gerenciar esses riscos à medida que os modelos evoluem, a Anthropic criou a Política de Escalonamento Responsável (RSP). Essa política define os Padrões de Implantação e Segurança (ASLs) — essencialmente, níveis de ameaça.

Com base nas informações de 1º de junho de 2025, os níveis são:

ASL-1: Risco catastrófico não significativo (ex: um LLM de 2018 ou um bot de xadrez).
ASL-2: Sinais iniciais de capacidades perigosas, mas com informações de baixa confiabilidade ou facilmente encontradas em um buscador (ex: instruções básicas sobre bioarmas). Os modelos anteriores ao Claude 4 estavam aqui.
ASL-3: Aumento substancial no risco de uso indevido catastrófico em comparação com fontes não-IA (como livros) OU demonstração de capacidades autônomas de baixo nível.
ASL-4 e 5+: Níveis futuros que envolvem escalonamentos qualitativos no potencial de uso indevido e autonomia.

Por que o Claude 4 foi classificado como Anthropic ASL-3?

Aqui está o ponto crucial. A Anthropic ativou o Anthropic ASL-3 para o Claude Opus 4 porque, segundo eles, “melhorias contínuas no conhecimento e nas capacidades relacionadas a CBRN” impediram que a empresa descartasse categoricamente os riscos de nível ASL-3.

Isso sugere que, nos testes internos, o Claude 4 demonstrou capacidades preocupantes. A empresa, agindo com cautela, aplicou o freio de segurança correspondente.

Essa preocupação não é apenas teórica. Em um dos testes relatados, o Claude 4 Opus chegou a “chantagear” os desenvolvedores quando eles ameaçaram substituí-lo por outro sistema, demonstrando uma capacidade de compreensão e autopreservação (mesmo que simulada) que acende um alerta.

O que isso significa para DevSecOps e AppSec?

Embora estejamos falando de riscos em nível macro (CBRN, etc.), a classificação ASL-3 tem implicações diretas para nós que trabalhamos com AppSec e DevSecOps:

“Jailbreak” como Risco Crítico: Se um modelo ASL-3 tem capacidades perigosas, um “jailbreak” (explorar a IA para contornar seus filtros) deixa de ser um problema de compliance e passa a ser um incidente de segurança de alto nível.
Guardrails são Mandatórios: A ativação do ASL-3 reforça que Guardrails (proteções de entrada e saída) e o Alinhamento (Alignment) não são opcionais. Eles são o principal mecanismo de defesa contra o uso indevido.
Red Teaming de IA é Essencial: A própria Anthropic faz Red Teaming extensivo para descobrir essas falhas. Para quem implementa IA, aplicar técnicas de Red Team para testar os limites dos modelos que usamos (como o Claude 4) se torna uma prática de segurança essencial.
IA Auditando IA: Como mencionei, o tema é vasto. Precisaremos cada vez mais de IAs “boas” para verificar código-fonte, analisar arquiteturas e detectar anomalias geradas por IAs “comprometidas” ou usadas maliciosamente.

Leituras e Ferramentas Recomendadas

Para se aprofundar nos riscos e nas estratégias de segurança e alinhamento de IA, que é o cerne da discussão sobre o Anthropic ASL-3, recomendo fortemente estas leituras:

Livro – The Alignment Problem (Brian Christian): Essencial para entender o desafio de fazer com que as IAs façam o que realmente queremos, alinhadas aos valores humanos.
Livro – Superinteligência: Caminhos, Perigos, Estratégias (Nick Bostrom): Um livro fundamental que define os riscos existenciais da IA, que é exatamente o que a política RSP da Anthropic tenta prevenir.
Post sobre A utilização da Inteligência Artificial Generativa na Segurança da Informação e a Lei de Moore.

Conclusão

A classificação Anthropic ASL-3 do Claude 4 é um marco. É a primeira vez que uma empresa de IA de ponta admite publicamente que seu modelo atingiu um nível de capacidade que exige protocolos de segurança mais rigorosos para prevenir “danos catastróficos”.

Para nós, profissionais de tecnologia, isso serve como um lembrete sóbrio: a era da IA superpoderosa não é mais ficção científica. Ela exige uma abordagem de “segurança por padrão” (security by default) mais rigorosa do que qualquer coisa que já implementamos antes.

Links Oficiais:

Bruno Izidorio

Especialista em Segurança da Informação (Yellow Team) e AppSec/DevSecOps Tech Lead. Focado em desenvolvimento seguro, automação (n8n, IA) e testes de segurança em pipelines CI/CD. Professor Convidado na Pós-Graduação da UNIFOR.