我们将深入探讨大模型评测的复杂性,拆分为知识容量(Knowledge Capacity)、任务能力(Task Capability)和人类偏好(Human Preference)三个层面,分析传统评测的局限性,并提出动态评测的必要性。我们认为,真正的评测应该源自真实场景,并且需要更多人的参与来构建一个全面评估大型语言模型(LLM)能力的评测环境。
我们将深入探讨大模型评测的复杂性,拆分为知识容量(Knowledge Capacity)、任务能力(Task Capability)和人类偏好(Human Preference)三个层面,分析传统评测的局限性,并提出动态评测的必要性。我们认为,真正的评测应该源自真实场景,并且需要更多人的参与来构建一个全面评估大型语言模型(LLM)能力的评测环境。