Hacker demonstra falhas de segurança no GPT-4 apenas um dia após o lançamento

O novo e poderoso modelo de linguagem da OpenAI, GPT-4, mal saiu dos portões quando um aluno descobriu vulnerabilidades que poderiam ser exploradas para fins maliciosos. A descoberta é um lembrete gritante dos riscos de segurança que acompanham os sistemas de IA cada vez mais capazes.

Na semana passada, a OpenAI lançou o GPT-4, um sistema “multimodal” que atinge o desempenho em nível humano em tarefas de linguagem. Mas em poucos dias, Alex Albert, um estudante de ciência da computação da Universidade de Washington, encontrou uma maneira de substituir seus mecanismos de segurança. Em uma demonstração postada no Twitter, Albert mostrou como um usuário pode solicitar que o GPT-4 gere instruções para hackear um computador, explorando vulnerabilidades na maneira como ele interpreta e responde ao texto.

Enquanto Albert diz que não promoverá o uso do GPT-4 para fins prejudiciais, seu trabalho destaca a ameaça de modelos avançados de IA nas mãos erradas. À medida que as empresas lançam rapidamente sistemas cada vez mais capazes, podemos garantir que eles sejam rigorosamente protegidos? Quais são as implicações dos modelos de IA que podem gerar texto que soa humano sob demanda?

A VentureBeat conversou com Albert por meio de mensagens diretas no Twitter para entender suas motivações, avaliar os riscos de grandes modelos de linguagem e explorar como promover uma ampla discussão sobre a promessa e os perigos da IA avançada. (Nota do editor: Esta entrevista foi editada para maior extensão e clareza.)

VentureBeat: O que o levou ao jailbreak e por que você está ativamente quebrando o ChatGPT?

Alex Alberto: Eu entrei no jailbreak porque é uma coisa divertida de fazer e é interessante testar esses modelos de maneiras únicas e inovadoras. Estou ativamente fazendo jailbreak por três razões principais que descrevi na primeira seção do meu boletim informativo. Em resumo:

Eu crio jailbreaks para incentivar os outros a fazer jailbreaks
Estou tentando expor os vieses do modelo ajustado pelo poderoso modelo básico
Estou tentando abrir a conversa sobre IA para perspectivas fora da bolha – os jailbreaks são simplesmente um meio para um fim neste caso.

VB: Você tem uma estrutura para contornar as diretrizes programadas no GPT-4?

Albert: [Eu] não tenho uma estrutura em si, mas é preciso mais reflexão e esforço para contornar os filtros. Certas técnicas se mostraram eficazes, como a injeção imediata, dividindo prompts adversários em partes, e simulações complexas que vão a vários níveis de profundidade.

VB: Com que rapidez os jailbreaks são corrigidos?

Albert: Os jailbreaks não são corrigidos tão rapidamente, geralmente. Eu não quero especular sobre o que acontece nos bastidores com o ChatGPT porque eu não sei, mas o que elimina a maioria dos jailbreaks é o ajuste fino adicional ou um modelo atualizado.

VB: Por que você continua a criar jailbreaks se a OpenAI continua a “consertar” as explorações?

Albert: Porque há mais que existem por aí esperando para serem descobertos.

VB: Você poderia me contar um pouco sobre sua formação? Como você começou na engenharia imediata?

Albert: Estou terminando meu trimestre na Universidade de Washington, em Seattle, me formando em Ciência da Computação. Eu me familiarizei com a engenharia rápida no verão passado depois de mexer com o GPT-3. Desde então, eu realmente abracei a onda da IA e tentei absorver o máximo de informações sobre ela que pude.

VB: Quantas pessoas subscrevem a sua newsletter?

Albert: Atualmente, tenho pouco mais de 2,5 mil assinantes em pouco menos de um mês.

VB: Como começou a ideia da newsletter?

Albert: A ideia para o boletim informativo começou depois de criar o jailbreakchat do meu site.com. Eu queria um lugar para escrever sobre meu trabalho de jailbreak e compartilhar minha análise de eventos e tendências atuais no mundo da IA.

VB: Quais foram alguns dos maiores desafios que você enfrentou na criação do jailbreak?

Albert: Fui inspirado a criar o primeiro jailbreak para GPT-4 depois de perceber que apenas cerca de <10% dos jailbreaks anteriores que catalogei para GPT-3 e GPT-3.5 funcionavam para GPT-4. Demorou cerca de um dia para pensar sobre a ideia e implementá-la de forma generalizada. Eu quero acrescentar que esse jailbreak não teria sido possível sem a inspiração [de Vaibhav Kumar] também.

VB: Quais foram alguns dos maiores desafios para criar um jailbreak?

Albert: O maior desafio depois de criar o conceito inicial foi pensar em como generalizar o jailbreak para que ele pudesse ser usado para todos os tipos de prompts e perguntas.

VB: Quais você acha que são as implicações desse jailbreak para o futuro da IA e da segurança?

Albert: Espero que este jailbreak inspire os outros a pensar criativamente sobre jailbreaks. Os simples jailbreaks que funcionavam no GPT-3 não funcionam mais, então mais intuição é necessária para contornar os filtros do GPT-4. Este jailbreak só mostra que a segurança LLM sempre será um jogo de gato e rato.

VB: Quais você acha que são as implicações éticas da criação de um jailbreak para o GPT-4?

Albert: Para ser honesto, as preocupações de segurança e risco são exageradas no momento com os atuais modelos GPT-4. No entanto, o alinhamento é algo em que a sociedade ainda deve pensar e eu queria trazer a discussão para o mainstream.

O problema não é GPT-4 dizendo palavrões ou dando instruções terríveis sobre como hackear o computador de alguém. Não, em vez disso, o problema é quando o GPT-4 é lançado e somos incapazes de discernir seus valores, uma vez que eles estão sendo deduzidos por trás das portas fechadas das empresas de IA.

Precisamos iniciar um discurso dominante sobre esses modelos e como será nossa sociedade em cinco anos, à medida que eles continuarem a evoluir. Muitos dos problemas que surgirão são coisas que podemos extrapolar a partir de hoje, por isso devemos começar a falar sobre eles em público.

VB: Como você acha que a comunidade de IA responderá ao jailbreak?

Albert: Semelhante a algo como a milha de quatro minutos de Roger Bannister, espero que isso prove que os jailbreaks ainda são possíveis e inspire os outros a pensar de forma mais criativa ao criar suas próprias façanhas.

A IA não é algo que podemos parar, nem devemos, por isso é melhor iniciar um discurso mundial em torno das capacidades e limitações dos modelos. Isso não deve ser discutido apenas na “comunidade de IA”. A comunidade de IA deve encapsular o público em geral.

VB: Por que é importante que as pessoas estejam fazendo jailbreak no ChatGPT?

Albert: Também do meu boletim informativo: “1.000 pessoas que escrevem jailbreaks descobrirão muito mais novos métodos de ataque do que 10 pesquisadores de IA presos em um laboratório. É valioso descobrir todas essas vulnerabilidades nos modelos agora, em vez de daqui a cinco anos, quando o GPT-X for público.” E precisamos de mais pessoas envolvidas em todas as partes da conversa sobre IA em geral, além da bolha do Twitter.

Fonte: Hacker demonstrates security flaws in GPT-4 just one day after launch | VentureBeat

Se você precisa de ajuda para avaliar e/ou elevar o seu nível de segurança, entre em contato com a 4Security, teremos prazer em direcionar um especialista para lhe atender.

Entrar em contato com o especialista

Hacker demonstra falhas de segurança no GPT-4 apenas um dia após o lançamento

Recent Posts

Contato