没来由蹦一个词,‘日常’反应就是名词法官。 如果是动词judge,没有特别的具体的语境不好判断。 it's hard to judge. 这个问题还可以反着问为什么有reward model还需要有llm as judge 既然不聊基于规则的奖励,那我们默认目标样本是主观较强或者偏语义的难定义奖励样本。 这两个问题代表了无论llm as. 无论是事实判断还是价值判断,我们都 没法回避。 换句话说,我们本来就做不到 “don't judge”。 先说说 事实判断,它是我们认知客观世界的基础。 你从小到大从课本里学到的东西(比如“地球绕着太阳.
Judge Greg Mathis SMG Speakers
和 are you judging me?