Tema: Preferencias Humanas
2025
Evaluación del Conjunto de Datos Helpful and Harmless
Un estudio revela vulnerabilidades y excesos en la seguridad de modelos de lenguaje natural.
2024
Revolución en la Evaluación de Modelos de Recompensa con PPE
La Universidad de California desarrolla una nueva herramienta para evaluar y mejorar modelos de lenguaje en bases a preferencias humanas reales.
2024
DRDO: Avanza en la Alineación de Preferencias de Modelos de Lenguaje
Un enfoque innovador que supera a los métodos tradicionales en la alineación de preferencias en modelos de lenguaje, demostrando una robustez superior en escenarios complejos.