如何正确的看待大模型的评测

Presentation闪电演讲 Lightning Talk
🕒 ~
  • 马诺
    • 马诺
    • 零一万物
    • 开发者关系(DevRel)工程师

Attendee Ratings

我们将深入探讨大模型评测的复杂性,拆分为知识容量(Knowledge Capacity)、任务能力(Task Capability)和人类偏好(Human Preference)三个层面,分析传统评测的局限性,并提出动态评测的必要性。我们认为,真正的评测应该源自真实场景,并且需要更多人的参与来构建一个全面评估大型语言模型(LLM)能力的评测环境。