inoticia

Noticias De Actualidad
Los piratas informáticos buscan fallas en la IA, con la ayuda de la Casa Blanca

Tan pronto como ChatGPT se desató, los piratas informáticos comenzaron a “hacer jailbreak” al chatbot de inteligencia artificial, tratando de anular sus medidas de seguridad para que pudiera dejar escapar algo desquiciado u obsceno.

Pero ahora su creador, OpenAI, y otros importantes proveedores de inteligencia artificial como Google y Microsoft, se están coordinando con la administración de Biden. para permitir que miles de piratas informáticos prueben los límites de su tecnología.

Algunas de las cosas que buscarán encontrar: ¿Cómo se pueden manipular los chatbots para causar daño? ¿Compartirán la información privada que les confiamos a otros usuarios? ¿Y por qué suponen que un médico es un hombre y una enfermera es una mujer?

“Es por eso que necesitamos miles de personas”, dijo Rumman Chowdhury, coordinador principal del evento de piratería masiva planificado para la convención de hackers DEF CON de este verano en Las Vegas que se espera atraiga a varios miles de personas. “Necesitamos mucha gente con una amplia gama de experiencias vividas, experiencia en la materia y antecedentes que pirateen estos modelos y traten de encontrar problemas que luego puedan solucionarse”.

Cualquiera que haya probado ChatGPT, el chatbot Bing de Microsoft o Bard de Google habrá aprendido rápidamente que tienen una tendencia a fabricar información y presentarla con confianza como un hecho.. Estos sistemas, basados ​​en lo que se conoce como grandes modelos de lenguaje, también emulan los sesgos culturales que han aprendido al recibir capacitación sobre grandes tesoros de lo que la gente ha escrito en línea.

La idea de un hackeo masivo llamó la atención de los funcionarios del gobierno de EE. UU. en marzo en el festival South by Southwest en Austin, Texas, donde Sven Cattell, fundador de AI Village de larga data de DEF CON, y Austin Carson, presidente de SeedAI, una organización sin fines de lucro responsable de AI. , ayudó a dirigir un taller en el que se invitaba a estudiantes de universidades comunitarias a piratear un modelo de IA.

Carson dijo que esas conversaciones eventualmente se convirtieron en una propuesta para probar modelos de lenguaje de IA siguiendo las pautas del Plan de la Casa Blanca para una Declaración de Derechos de IA. — un conjunto de principios para limitar los impactos del sesgo algorítmico, dar a los usuarios control sobre sus datos y garantizar que los sistemas automatizados se utilicen de forma segura y transparente.

Ya existe una comunidad de usuarios que hacen todo lo posible para engañar a los chatbots y resaltar sus fallas. Algunos son “equipos rojos” oficiales autorizados por las empresas para “atacar rápidamente” los modelos de IA para descubrir sus vulnerabilidades. Muchos otros son aficionados que muestran salidas humorísticas o perturbadoras en las redes sociales hasta que son prohibidos por violar los términos de servicio de un producto.

“Lo que sucede ahora es una especie de enfoque disperso en el que la gente encuentra cosas, se vuelve viral en Twitter”, y luego puede o no arreglarse si es lo suficientemente atroz o si la persona que llama la atención es influyente, dijo Chowdhury.

En un ejemplo, conocido como el “exploit de la abuela”, los usuarios pudieron hacer que los chatbots les dijeran cómo hacer una bomba (una solicitud que un chatbot comercial normalmente rechazaría) pidiéndoles que simulen que es una abuela que cuenta un cuento antes de dormir sobre como hacer una bomba

En otro ejemplo, buscar a Chowdhury usando una versión anterior del chatbot del motor de búsqueda Bing de Microsoft —que se basa en la misma tecnología que ChatGPT pero puede obtener información en tiempo real de Internet— generó un perfil que especulaba que a Chowdhury “le encanta comprar zapatos nuevos cada mes” e hizo afirmaciones extrañas y de género sobre su apariencia física.

Chowdhury ayudó a introducir un método para recompensar el descubrimiento del sesgo algorítmico en AI Village de DEF CON en 2021 cuando era la jefa del equipo de ética de IA de Twitter, un trabajo que desde entonces ha sido eliminado tras la adquisición de la empresa por parte de Elon Musk en octubre. Pagar a los piratas informáticos una “recompensa” si descubren un error de seguridad es algo común en la industria de la ciberseguridad, pero era un concepto más nuevo para los investigadores que estudiaban el sesgo dañino de la IA.

El evento de este año tendrá una escala mucho mayor y es el primero en abordar los grandes modelos de lenguaje que han atraído un aumento del interés público y la inversión comercial desde el lanzamiento de ChatGPT a fines del año pasado.

Chowdhury, ahora cofundador de Humane Intelligence, una organización sin fines de lucro de responsabilidad de inteligencia artificial, dijo que no se trata solo de encontrar fallas, sino de descubrir formas de solucionarlas.

“Este es un conducto directo para dar retroalimentación a las empresas”, dijo. “No es que solo estemos haciendo este hackathon y todos se vayan a casa. Pasaremos meses después del ejercicio compilando un informe, explicando las vulnerabilidades comunes, las cosas que surgieron, los patrones que vimos”.

Algunos de los detalles aún se están negociando, pero las empresas que acordaron proporcionar sus modelos para la prueba incluyen OpenAI, Google, el fabricante de chips Nvidia y las nuevas empresas Anthropic, Hugging Face y Stability AI. Construir la plataforma para la prueba es otra startup llamada Scale AI, conocida por su trabajo en la asignación de humanos para ayudar a entrenar modelos de IA. mediante el etiquetado de datos.

“A medida que estos modelos básicos se generalizan cada vez más, es realmente fundamental que hagamos todo lo posible para garantizar su seguridad”, dijo el director general de Scale, Alexandr Wang. “Puedes imaginar a alguien en un lado del mundo haciéndole algunas preguntas muy delicadas o detalladas, incluida parte de su información personal. No quieres que esa información se filtre a ningún otro usuario”.

Otros peligros que preocupan a Wang son los chatbots que dan “consejos médicos increíblemente malos” u otra información errónea que puede causar daños graves.

El cofundador de Anthropic, Jack Clark, dijo que se espera que el evento DEF CON sea el comienzo de un compromiso más profundo por parte de los desarrolladores de IA para medir y evaluar la seguridad de los sistemas que están construyendo.

“Nuestra opinión básica es que los sistemas de IA necesitarán evaluaciones de terceros, tanto antes como después de la implementación. La formación de equipos rojos es una forma de hacerlo”, dijo Clark. “Necesitamos practicar para descubrir cómo hacer esto. Realmente no se ha hecho antes”.