Datos para AI El entrenamiento está desapareciendo rápidamente, revela un nuevo estudio

Datos para AI Un estudio demuestra que la formación está desapareciendo rápidamente

Un estudio reciente realizado por Data Provenance Initiative, un grupo de investigación liderado por el MIT, ha revelado una crisis creciente en la disponibilidad de datos utilizados para entrenar modelos de inteligencia artificial (IA). La investigación, que examinó 14,000 dominios web incluido en tres de uso común AI conjuntos de datos de entrenamiento, encontraron que una porción significativa de fuentes de datos de alta calidad ahora están restringiendo el acceso a su contenido.

El estudio estima que en los conjuntos de datos C4, RefinedWeb y Dolma, aproximadamente Se han restringido el 5% de todos los datos y el 25% de los datos de las fuentes de mayor calidad.. Estas restricciones se implementan principalmente a través de la Protocolo de exclusión de robots, un método antiguo para que los propietarios de sitios web eviten que los robots automatizados rastreen sus páginas utilizando un archivo llamado robots.txt.

El autor principal, Shayne Longpre, advierte: “Estamos viendo una rápida disminución en el consentimiento para usar datos en la web que tendrá ramificaciones no solo para AI empresas, sino también para investigadores, académicos y entidades no comerciales”. Esta tendencia podría afectar significativamente el desarrollo y la mejora de AI modelos, que dependen en gran medida de grandes cantidades de datos diversos y de alta calidad para la formación.

La escasez de datos de entrenamiento se está convirtiendo en un problema crítico en el AI industria. Como AI A medida que los sistemas se vuelven más sofisticados y se aplican a tareas cada vez más complejas, crece la demanda de conjuntos de datos ricos y diversos. Sin embargo, la oferta de dichos datos está disminuyendo debido a diversos factores, entre ellos: preocupaciones de privacidad, consideraciones éticas y rechazo de creadores de contenido.

AI Las empresas ignoran las normas web para extraer el contenido de los editores

Muchos editores y plataformas en línea han tomado medidas para proteger sus datos de la recopilación sin permiso. Algunos tienen configurar muros de pago o modificar sus términos de servicio limitar el uso de su contenido para AI formación. Otros, como Reddit y StackOverflow, han comenzado casi AI empresas para acceder a sus datos. También se han emprendido acciones legales, como la de The New York Times, que demandó a OpenAI y Microsoft por presunta infracción de derechos de autor relacionada con el uso de artículos de noticias en AI entrenamiento.

Las implicaciones de esta escasez de datos son de largo alcance. AI Los modelos entrenados con datos insuficientes o sesgados pueden experimentar una precisión reducida, una generalización limitada y una incapacidad para adaptarse a nuevas situaciones. Esto podría frenar la innovación en el campo y obstaculizar el desarrollo de nuevos... AI aplicaciones.

Para abordar estos desafíos, los investigadores y AI Las empresas están explorando enfoques alternativos. Estos incluyen técnicas de aprendizaje activo, que se centran en seleccionar los puntos de datos más informativos para la capacitación, y el aprendizaje por transferencia, que aprovecha el conocimiento de... modelos pre-entrenados para mejorar el rendimiento en nuevas tareas con datos limitados.

Algunas empresas también están llegando a acuerdos con editores para asegurar el acceso continuo a su contenido. Por ejemplo, OpenAI, Google y Meta han firmado recientemente acuerdos con organizaciones de noticias. como The Associated Press y News Corp para garantizar un flujo continuo de datos de capacitación de alta calidad.

Como AI A medida que la industria se enfrenta a esta crisis emergente de datos, podría verse obligada a desarrollar métodos más eficientes y responsables para entrenar modelos. Esto podría conducir a innovaciones en la recopilación y utilización de datos, e incluso a paradigmas de aprendizaje completamente nuevos que dependan menos de conjuntos de datos masivos.

El Estudio's Los resultados Subrayan la necesidad de un enfoque equilibrado AI desarrollo que respete los derechos de propiedad intelectual y las preocupaciones sobre la privacidad, al tiempo que fomenta la innovación. A medida que el panorama de AI Los datos de capacitación continúan evolucionando, por lo que la colaboración entre empresas tecnológicas, creadores de contenido y legisladores será crucial para abordar estos desafíos y garantizar el crecimiento sostenible de AI Tecnologías.

https://twitter.com/kevinroose/status/1814320101962957235

Deje un comentario

Su dirección de correo electrónico no será publicada. Las areas obligatorias están marcadas como requeridas *

Este sitio usa Akismet para reducir el correo no deseado. Conozca cómo se procesan los datos de sus comentarios.

Únete a los Aimojo ¡Tribu!

¡Únase a más de 76,200 miembros para recibir consejos exclusivos cada semana! 
🎁 BONUS: Obtenga nuestros $200 “AI “Mastery Toolkit” ¡GRATIS cuando te registras!

Tendencias AI Accesorios
Subtítulos AI

Transforma grabaciones en bruto en vídeos con calidad de estudio en cuestión de minutos. El todo en uno AI Estudio de creación de vídeos para creadores modernos.

Texta IA

Monitorización AI Responde, realiza un seguimiento de las menciones y aumenta la visibilidad de tu marca. Lo esencial AI Plataforma de visibilidad para equipos de marketing modernos

bramework

Transforma tu estrategia de contenido con un blog de SEO impulsado por IA. La plataforma todo en uno para empresas y creadores.

Clearscope

Optimización de contenido impulsada por IA que garantiza la visibilidad en los motores de búsqueda a largo plazo. Dominar Google y AI búsqueda con precisión semántica

ChatJanitor 

Voltea tu AI obsesión por el juego de rol con recompensas reales de USDT mientras se charla con el personaje más constante. AI En la red. Conserje AI Acaba de recibir una mejora estética. Les presentamos a Chat Janitor.

© Copyright 2023 - 2026 | Conviértete en un AI Pro | Hecho con ♥