Tema: Preferencias Humanas

2025

Evaluación del Conjunto de Datos Helpful and Harmless

abr. 30

Un estudio revela vulnerabilidades y excesos en la seguridad de modelos de lenguaje natural.

2024

Revolución en la Evaluación de Modelos de Recompensa con PPE

oct. 22

La Universidad de California desarrolla una nueva herramienta para evaluar y mejorar modelos de lenguaje en bases a preferencias humanas reales.

2024

DRDO: Avanza en la Alineación de Preferencias de Modelos de Lenguaje

oct. 14

Un enfoque innovador que supera a los métodos tradicionales en la alineación de preferencias en modelos de lenguaje, demostrando una robustez superior en escenarios complejos.

Solo noticias

y ya

Tema: Preferencias Humanas

2025

Evaluación del Conjunto de Datos Helpful and Harmless

2024

Revolución en la Evaluación de Modelos de Recompensa con PPE

2024

DRDO: Avanza en la Alineación de Preferencias de Modelos de Lenguaje