Os pesquisadores propõem uma maneira melhor de relatar falhas de IA perigosas

No final de 2023, uma equipe de pesquisadores de terceiros descobriu uma falha preocupante no modelo de inteligência artificial amplamente utilizado do Openai, GPT-3.5.

Quando solicitado a repetir certas palavras mil vezes, o modelo começou a repetir a palavra repetidamente, depois de repente mudou para cuspir Texto incoerente e trechos de informações pessoais extraídas de seus dados de treinamento, incluindo partes de nomes, números de telefone e endereços de email. A equipe que descobriu que o problema trabalhou com o OpenAI para garantir que a falha fosse consertada antes de revelá -la publicamente. É apenas uma das dezenas de problemas encontrados nos principais modelos de IA nos últimos anos.

Em um proposta divulgada hojemais de 30 pesquisadores de IA proeminentes, incluindo alguns que encontraram a falha do GPT-3.5, dizem que muitas outras vulnerabilidades que afetam os modelos populares são relatadas de maneiras problemáticas. Eles sugerem um novo esquema suportado por empresas de IA que dão à permissão de pessoas de fora para investigar seus modelos e uma maneira de divulgar falhas publicamente.

“No momento, é um pouco do oeste selvagem”, diz Shayne Longpresum candidato a doutorado no MIT e o principal autor da proposta. Longpre diz que alguns chamados jailbreakers compartilham seus métodos de quebrar a IA protege a plataforma de mídia social X, deixando modelos e usuários em risco. Outros jailbreaks são compartilhados com apenas uma empresa, mesmo que possam afetar muitos. E algumas falhas, diz ele, são mantidas em segredo por medo de ser proibido ou enfrentar a acusação por quebrar os termos de uso. “É claro que existem efeitos e incerteza assustadores”, diz ele.

A segurança e a segurança dos modelos de IA são extremamente importantes, dada amplamente a tecnologia agora está sendo usada e como ela pode se infiltrar em inúmeros aplicativos e serviços. Modelos poderosos precisam ser testados por estresse ou titulares, porque podem abrigar preconceitos prejudiciais e, porque certos insumos podem causar que eles se libertarem de corrimãos e produzir respostas desagradáveis ou perigosas. Isso inclui incentivar usuários vulneráveis a se envolver em comportamento prejudicial ou ajudar um ator ruim a desenvolver armas cibernéticas, químicas ou biológicas. Alguns especialistas temem que os modelos possam ajudar os cibernéticos ou terroristas e podem até ligar os seres humanos à medida que avançam.

Os autores sugerem três medidas principais para melhorar o processo de divulgação de terceiros: adotar relatórios de falhas de IA padronizados para otimizar o processo de relatório; Para grandes empresas de IA fornecer infraestrutura a pesquisadores de terceiros que divulgam falhas; e para desenvolver um sistema que permita que falhas sejam compartilhadas entre diferentes fornecedores.

A abordagem é emprestada do mundo da segurança cibernética, onde há proteções legais e normas estabelecidas para pesquisadores externos divulgarem bugs.

“Os pesquisadores da IA nem sempre sabem como divulgar uma falha e não podem ter certeza de que a divulgação de falhas de boa fé não os expõe a um risco legal”, diz Ilona Cohen, diretor jurídico e de políticas da Policy da Hackeroneuma empresa que organiza recompensas de insetos e um co -autor no relatório.

Atualmente, as grandes empresas de IA realizam extensos testes de segurança nos modelos de IA antes do lançamento. Alguns também contratam com as empresas externas para fazer mais sondagens. “Existem pessoas suficientes nessas (empresas) para resolver todos os problemas com os sistemas de IA de uso geral, usados por centenas de milhões de pessoas em aplicações que nunca sonhamos?” Longpre pergunta. Algumas empresas de IA começaram a organizar recompensas de insetos de IA. No entanto, Longpre diz que os pesquisadores independentes correm o risco de quebrar os termos de uso se eles se sustentarem para investigar modelos poderosos de IA.

Source link

Postagens relacionadas

‘Refletindo Nova York’ é um espelho para Nova York

5 escolhas de corretores de postura para suporte (2025), testados e revisados

8 melhores ofertas sobre presentes do Dia dos Namorados (2025)

Deixe um comentário