Dynamic Evaluation of Large Language Models for Reasoning Tasks (2024)

.toccapter Chapternone 附录none

Kaijie Zhu ${}^{1}$ , Jiaao Chen ${}^{2*}$ , Jindong Wang ${}^{1}$ , Neil Zhenqiang Gong ${}^{3}$ , Diyi Yang ${}^{4}$ , Xing Xie ${}^{1}$
${}^{1}$ Microsoft Research, ${}^{2}$ Georgia Tech, ${}^{3}$ Duke University, ${}^{4}$ Stanford UniversityEqual contribution. Contact: kaijiezhu11@gmail.com, jiaaochen@gatech.edu.Correspondence to: Jindong Wang $<$ jindong.wang@microsoft.com $>$ .

摘要

大型语言模型（大语言模型）在各种评估基准中都取得了令人瞩目的表现。然而，人们担心其大量训练语料库中可能存在数据污染。此外，当前基准的静态性质和固定复杂性可能不足以衡量大语言模型的先进能力。在本文中，我们介绍了DyVal，一种通用且灵活的大语言模型动态评估协议。基于我们的框架，我们利用有向无环图的结构优势构建了图信息DyVal，动态生成复杂度可控的评估样本。 DyVal 针对数学、逻辑推理和算法问题等推理任务生成具有挑战性的评估集。我们评估了从 Flan-T5-large 到 GPT-3.5-Turbo 和 GPT-4 的各种大语言模型。实验表明，大语言模型在DyVal生成的不同复杂度的评估样本中表现较差，凸显了动态评估的意义。我们还分析了不同提示方法的失败案例和结果。此外，DyVal生成的样本不仅是评估集，而且还是有助于微调的数据，以提高大语言模型在现有基准上的性能。我们希望DyVal能够为未来大语言模型的评价研究提供启发。代码位于：https://github.com/microsoft/promptbench。

1简介

大型语言模型（大语言模型）最近在不同的任务中取得了前所未有的性能（OpenAI，2023b；Bubeck 等人，2023）。这项伟大的努力引发了人们对大语言模型成为通用人工智能先驱的可能性的积极猜测，因此需要进行细致入微的评估。通过查明改进的差距，评估成为增强对当前模型的理解并确保人工智能持续发展的基石。

大语言模型评估工作显着加强。 Liang等人(2023)介绍了HELM，它提供了大语言模型在各种场景下的整体评估。同样，Chatbot Arena (Zheng 等人, 2023) 通过对比生成的输出来评估大语言模型。其他在大语言模型评估领域树立标准的基准包括 AlpacaEval (Li 等人, 2023c)、C-Eval (Huang 等人, 2023)、 ARB (Sawada 等人, 2023)、API-Bank (Li 等人, 2023a)、Socket (Choi 等人, 2023)、和 Big-Bench （基准作者，2023）。此外，手动实验已成为这些基准的补充方法，例如 Bubeck 等人 (2023) 和 Bang 等人 (2023) 等作品。作为补充，人类评估者在衡量大语言模型的实力方面也发挥了重要作用，正如 Ziems 等人 (2023) 和 Zečević 等人 (2023) 所讨论的那样。

当前的评估基准面临两个基本挑战。第一的，数据污染。许多基准测试的数据来源于互联网，与训练大语言模型的庞大语料库存在潜在重叠，引发了“泛化与记忆”的争论(Bender 等人, 2021; Magar & Schwartz, 2022 ; Carlini 等人, 2023; Biderman 等人, 2023): 模型的结果是源于真实能力还是只是记忆训练数据？Zečević 等人 (2023) 提供了一个最近的例子：大语言模型可以根据看到的数据模糊地推导出海拔影响温度的结论。同样，Berglund等人(2023)发现，用“A is B”训练的大语言模型无法推断“B is A”，这怀疑大语言模型的能力可能来自记忆。第二，静态数据集和固定复杂度。随着大语言模型的快速发展，现有数据集通常无法匹配模型不断发展的功能，因为现有基准的复杂性水平通常是静态和固定的。正如 Dziri 等人 (2023) 所证明的那样，大语言模型虽然可以很好地处理简单问题，但无法解决复杂问题。由于无法根据现有数据自动、动态地增加复杂性级别，因此无法采用静态基准来准确选择、比较和推进大语言模型。尽管有一些现有的动态基准测试，例如 DynaBench (Kiela 等人，2021) 和 DynaBoard (Ma 等人，2021)，但它们依赖于众包工作来获取数据收集，这可能既昂贵又乏味。

在本文中，我们介绍了DyVal——一种新颖、通用且灵活的评估协议，用于大语言模型的动态评估（第3.1 ）。DyVal 的核心是动态地生成评估样本，而不是收集一组固定的数据。 DyVal由三个部分组成：1）生成算法 $\mathcal{G}$ ，生成具有多样性的测试样本； 2）调节样本复杂性和有效性的约束 $\mathcal{C}$ ； 3）描述函数 $\mathcal{F}$ 将生成的样本翻译成自然语言。基于这个框架，我们提出了一种基于图的DyVal（第3.2，图1)来使用图生成数据。具体来说，受到编译器原理（Alfred V等人，2007）和分解复杂性的解析树等技术的启发（Klein & Manning，2003；Vinyals等人，2015），我们采用有向无环图（DAG）（Thulasiraman & Swamy，2011）将基本元素组合成更复杂的问题，每个单元都象征为一个图节点。图生成的可扩展性和随机性有效地调节了复杂性水平。此外，图的层次属性适合逻辑等多步骤推理任务。DyVal 生成的问题不仅需要对问题解决的深刻理解而不是简单的记忆，而且还呼应了人类渐进式解决问题和推导解决方案的方法。 DyVal具有通用性和灵活性，可以与现有基准共存并共同演化，以实现更好的大语言模型评估和演化。

我们利用 DyVal 来综合 $7$ 推理任务¹¹1我们选择推理任务主要是因为（1）推理能力与智力之间存在内在联系；（2）大语言模型在以推理为中心的任务中取得的显着进展（Sawada等人，2023）。请注意，DyVal 也可以应用于现有基准来创建新的更难的评估数据。，包括：（1）数学：算术和线性方程； (2)逻辑推理：布尔逻辑、演绎逻辑、溯因逻辑； (3)算法：可达性和最大和路径问题。然后，我们重新审视最先进的大语言模型，范围从 Flan-T5-large (Chung 等人, 2022), phi-1.5 (Li 等人, 2023d )、Xwin-13B （团队，2023）、Llama2-13B-chat （Touvron 等人，2023）、Vicuna-13B-v1.3 (Chiang 等人, 2023), WizardMath-13B (Luo 等人, 2023), 到 GPT-3.5-Turbo (OpenAI, 2023a)和 GPT-4 （OpenAI，2023b）和 DyVal。我们还测试了最新的提示技术，包括少样本 (Brown 等人, 2020)、CoT (Wei 等人, 2022)、从最少到最多提示 (Zhou等人, 2023b)、自动提示工程(周等人, 2023d)、情景技能提示(陈等人, 2023)。最后，我们进行了涉及 $82$ 人类评估者的人类研究，使用 DyVal 生成的评估样本进行比较和微调实验。此外，现有基准测试的实验还表明，使用DyVal生成的数据对大语言模型进行微调可以直接提高模型的能力，而无需额外仔细收集训练数据（周等人，2023a）。We further show the flexibility of DyVal by extending it to natural language tasks in Appendix H.我们的主要发现是：

•
DyVal评估结果并不总是与现有基准一致，表明现有大语言模型的训练数据质量可能较低和/或数据污染（第4.2)。例如，phi-1.5、WizardMath-13B 和 Xwin-13B 在 DyVal 上表现不佳，同时声称对现有基准进行了巨大改进。
•
随着难度的增加，大语言模型往往表现更差，并且性能差距变得更大，强调了当前大语言模型缺乏组合性以及不断发展的复杂性评估的重要性（第4.2)。
•
我们基于DyVal评估的错误分析展示了各种失败模式，这为如何进一步改进大语言模型提供了线索。（第 4.3 节）。
•
没有一种即时工程方法可以在我们所有的评估集中表现最佳；较大的模型尺寸往往会获得更好的性能（第 4.4 节）。
•
迪瓦尔还可以用来生成训练数据，提高大语言模型的能力。（第 5 节）。例如，使用我们的 DyVal 生成的数据微调 Llama2 模型，在 $6$ 现有基准上展示了增强的结果。

综上所述，本文做出以下贡献：

•
动态评估协议。 DyVal 是一种动态评估协议，旨在动态生成测试样本，从而减轻数据污染和静态复杂性问题。
•
一种基于图的DyVal算法，用于评估大语言模型的推理能力。我们使用DAG来组成 $7$ 从数学、逻辑推理到算法的推理问题。
•
大量的实验和分析。我们进行了大量的实验，为评估和改进大语言模型提供见解。

2相关工作

评估大语言模型。

虽然神经网络被认为是通用函数逼近器（Cybenko，1989），具有卓越的数据拟合能力（Zhang等人，2021；Arpit等人，2017），但争论(Bender 等人, 2021; 张等人, 2021; Tänzer 等人, 2022; Magar & Schwartz, 2022; Carlini 等人, 2023; Wu 等人, 2023; Tang 等人, 2023; Zečević 等人, 2023 ;Kocoń 等人, 2023; Biderman 等人, 2023; Zhu & Li, 2023) 坚持大语言模型泛化能力的本质。大语言模型的日益突出需要严格的基准（Hendrycks等人，2021；Li等人，2023b；Zhong等人，2023；HuggingFace，2023）。近期趋势包括：（1）以人为本的评估（Gao 等人，2022；Ribeiro & Lundberg，2022），（2）众包测试（Kiela 等人，2021；Ma等人，2021），以及（3）专门任务挑战（Liang 等人，2023；Tian 等人，2018；Ribeiro 等人，2020；基准作者，2023）。作为补充，我们的 DyVal 引入了动态评估系统，始终与快速发展的人工智能领域相关。尽管Krause等人（2018）引入了“动态评估”这一术语，但我们的DyVal在方法和目标上有很大不同。具体来说，推理被广泛认为是人类和人工智能的核心。我们对构建推理任务的关注反映了人类推理的复杂性和多步骤性（Brody，1999；Lohman & Lakin，2011；Sawada 等人，2023），构建推理基准是实现推理的关键一步帮助大语言模型迈向智能。

数据污染。

研究人员开始意识到大语言模型中潜在的数据污染问题(Lovin, 2023; Chowdhuri 等人, 2023; Bender 等人, 2021; Kocoń 等人, 2023)。GPT-4和LLama报告明确指出了数据污染的现象。最近，周等人(2023c)讨论了评估大语言模型时评估基准的数据污染的风险和影响。 Li (2023)研究了 LLama 模型的数据污染问题。 Skywork大语言模型Wei等人(2023)再次演示了多个数据污染问题。Golchin 和 Surdeanu (2023a; b)； Oren 等人 (2023);杨等人(2023b)设计了检测大语言模型数据污染的新方法。迪瓦尔不是一种检测方法，而是一种减轻污染问题的新协议。

从复杂到简单的问题分解和评估集构建。

使用图表来解构复杂的任务一直是跨领域的持久且有效的策略。正如计算理论中所见，编译器（Alfred V 等人，2007）有效地分解了高级结构，而在 NLP 中，解析树使复杂的句法和语义结构变得清晰（Klein & Manning, 2003; Vinyals 等人, 2015)。 Roy & Roth (2015) 使用树来解决多步骤问题，展示了该方法在算术中的效力。此外，一些当代技术已要求大语言模型分解复杂问题（Wei 等人，2022；Zhou 等人，2023b；Khot 等人，2022；Zhang 等人，2023）。一些研究利用基于图的方法来构建组合任务，特别是在一阶逻辑（Sinha等人，2019；Clark等人，2020；Tian等人，2021）和因果关系领域推理（Jin 等人，2023）。 DyVal 在目标和方法上都呈现出显着的区别。此外，GraphWorld (Palowitch 等人, 2022) 主要对图神经网络 (GNN) 进行基准测试，而 DyVal 则专注于使用图结构的大语言模型。它们本质上是不同的。

3 迪瓦尔

在本节中，我们首先阐明我们的通用动态评估协议，以通过动态数据生成和可控复杂性来解决数据污染的挑战。 3.1。然后，我们通过利用第 2 节中的有向无环图（DAG）来调整这个通用协议来执行推理任务。 3.2。对 DyVal 灵活性的更多分析在第 2 节中。 3.3。

Dynamic Evaluation of Large Language Models for Reasoning Tasks (1)

3.1通用动态评估描述语言

首先，我们介绍动态评估协议的通用描述语言。给定任务 $T$ ，动态评估算法被表述为 $\mathcal{A}_{T}=\mathcal{F}(\mathcal{G}(\mathcal{C}))$ ，其中(1) $\mathcal{G}$ 是样本生成算法，结合随机性来保证每个样本的唯一性。随机性在不同的任务中可能会有所不同，例如数学问题中的数字和逻辑推理任务中的逻辑链。(2) $\mathcal{C}=\{\mathcal{C}_{T},\mathcal{C}_{\mathcal{G}}\}$ 表示 $\mathcal{G}$ 上的约束条件，其中 $\mathcal{C}_{T}$ 是任务 $T$ 的任务约束条件，如生成样本在任务背景下的合法性保证。 $\mathcal{C}_{\mathcal{G}}$ 是生成过程的复杂度约束，例如每个节点值的采样策略以及评估样本中添加的扰动数量。(3) $\mathcal{F}=\{\mathcal{F}_{T},\mathcal{F}_{\mathcal{G}}\}$ 是描述函数，用于将 $\mathcal{G}$ 生成的原始评估样本翻译成自然语言描述。 $\mathcal{F}_{\mathcal{G}}$ 阐明了 $\mathcal{G}$ 生成的样本的特征和属性。 $\mathcal{F}_{T}$ 是任务 $T$ 的描述，例如任务目标和预期结果。

一般来说，评估样本可以用上述描述语言表示为 $d_{\text{eval}}=\mathcal{F}_{T}(\mathcal{F}_{\mathcal{G}}(\mathcal{G}(\mathcal%{C}_{\mathcal{G}},\mathcal{C}_{T})))$ 。 $\mathcal{G}$ 首先生成一个遵循复杂性约束 $\mathcal{C}_{\mathcal{G}}$ 和任务约束 $\mathcal{C}_{T}$ 的样本。然后经过描述函数 $\mathcal{F}_{\mathcal{G}}$ 转换为自然语言格式，最后经过任务描述函数 $\mathcal{F}_{T}$ 。上述描述语言自然地（1）通过 $\mathcal{G}$ 避免了动态生成的数据污染，（2）通过 $\mathcal{C}$ 承诺了动态数据集和可控的复杂性。具体来说，通过改变 $\mathcal{C}$ 中的约束，我们可以生成不同难度的评估样本，从而实现大语言模型和评估过程的“共同进化”。描述语言是灵活的，因为它允许通过相应地改变 $\mathcal{G}$ 和 $\mathcal{C}$ 来实现不同的生成算法和复杂性控制。

3.2基于图的推理任务动态评估

在本节中，遵循通用评估描述语言，我们从图结构中汲取灵感，实现了用于推理任务的DyVal。鉴于推理任务固有的多步骤推理性质，它们本质上表现出结构特征，使得有向无环图（DAG）成为建模这些任务的自然选择。DAG 还通过调整内部结构来促进动态样本生成，并通过调整结构复杂性来对问题难度进行细粒度控制。更多 DAG 的背景可以在附录A中找到。

3.2.1 生成算法 $\mathcal{G}$ ：DAG构建

生成算法建立在图的构建过程上。我们将 DAG 分类为基于树的 DAG (T-DAG) 和通用 DAG (G-DAG)，如图 1 所示。 T-DAG 本质上是分层的，这使得它们适合从一组初始前提到最终推理的任务，例如算术问题和逻辑推理任务。 T-DAG 中的每个节点都代表一个基本子问题。这些子问题通过节点之间的链接串联起来，最终形成一个复杂的问题。相反，G-DAG 擅长映射复杂的关系，尤其是在需要理解非线性交互的任务中。它们非常适合解决涉及复杂依赖关系的算法挑战。例如，想象一下对一个系统进行建模，其中一个实体的更改可能会以级联方式影响多个其他实体，或者任务需要在实体之间找到不同的潜在路径。这两类 DAG 的生成过程如附录B.1所示。

DAG 生成过程中的随机性。T-DAG 随机性源自分配给节点的操作和叶节点的初始值。例如，在算术中，操作可以是“ $+$ ”，叶节点接收随机数。另一方面，对于 G-DAG，每个节点都被赋予一个随机值（如果某个问题需要的话）。对于每个节点，子节点的数量是随机确定的，子节点的最大数量取决于输入。然后，我们通过随机选择目标子节点来建立链接。

定理3.1和3.2通过探索T-DAG和G-DAG生成的两个样本相同的概率来形式化地保证动态生成过程。我们只关注基本情况，忽略额外的复杂性，例如随机链接的集成或随机描述的嵌入，这将进一步降低两个 DAG 相同的可能性。

Theorem 3.1.

给定一个深度 $d$ 和宽度 $w$ 的基于树的 DAG，如果非叶子节点的操作集有 $k$ 个不同的操作，并且叶子节点的值集节点包含 $n$ 个不同的值，两个独立生成的 DAG 相同的概率为： $P=\left(k^{\frac{w^{d-1}-1}{w-1}}\times n^{w^{d-1}}\right)^{-1}.$

Theorem 3.2.

给定一个具有 $n$ 个节点的通用 DAG，其中每个节点最少具有 $l\geq 1$ 个链接，两个随机选择的 DAG 相同的概率受 $\frac{1}{(n-1)!}$ 限制。

证明可以在附录C中找到。这些定理保证产生相同评估样本的几率相当低。例如，在具有 $d=4$ 和 $w=2$ 的算术任务（其中 $k=6,n=10$ )中，两个 DAG 相同的机会徘徊在 $1e^{-15}$ 附近。

3.2.2 图生成的约束 $\mathcal{C}$

任务约束 $\mathcal{C}_{T}$ 。任务限制因任务而异。以节点创建为例： 1）节点值应该遵循什么分布？ 2) 哪组操作是允许的？ 3）如何根据子节点的值计算节点的值？在算术任务中， $\mathcal{C}_{T}$ 包括确保被除数非零、避免溢出等。在这里，我们关注两个一般任务约束：（1）值分布 $\mathcal{V}$ ：指定可以分配叶节点值的允许范围或分布。例如，在逻辑推理任务中，前提（叶节点）被分配为 $\mathrm{True}$ 或 $\mathrm{False}$ 。(2) 操作集 $\mathcal{O}$ ：列出 DAG 内允许的操作。操作集约束通常用于基于树的 DAG。例如，在算术任务中，允许的操作集合可以被定义为基本算术操作 $\{+,-,\times,/\}$ 。

Field	Task	Generationalgorithm $\mathcal{G}$	Constraint $\mathcal{C}$		# Classes	Description $\mathcal{F}$
Field	Task	Generationalgorithm $\mathcal{G}$	$\mathcal{C}_{T}$	$\mathcal{C}_{\mathcal{G}}$	# Classes	Description $\mathcal{F}$
Mathematics	Arithmetic	Tree-based	$\mathcal{V}:\{1,2,\ldots,10\}$ $\mathcal{O}:\{+,-,\times,\,\sqrt{\cdot},\cdot^{2}\}$	Depth, Width,Extra links, Random desc	-	What is thevalue of [Root]?
Mathematics	Linearequation	Tree-based	$\mathcal{V}:\{1,2,...,10\}$ $\mathcal{O}:\{+,-,\times,\,\sqrt{\cdot},\cdot^{2}\}$	Depth, Width,Extra links, Random desc	-	What is thevalue of x and y?
LogicalReasoning	Bool	Tree-based	$\mathcal{V}:\{\mathrm{True,False}\}$ $\mathcal{O}:\mathrm{\{AND,OR,NOT\}}$	Depth, Width,Extra links, Random desc	$2$ $\mathrm{\{True,False\}}$	What is thevalue of [Root]?
	Deductive	Tree-based	$\mathcal{V}:\{\mathrm{True,False}\}$ $\mathcal{O}:\mathrm{\{AND,OR,NOT\}}$	Depth, Width,Extra links, Random desc	$3$ $\mathrm{\{True,False,N/A\}}$	What is thevalue of [Root]?
	Abductive	Tree-based	$\mathcal{V}:\{\mathrm{True,False}\}$ $\mathcal{O}:\mathrm{\{AND,OR,NOT\}}$	Depth, Width,Extra links, Random desc	$3$ $\mathrm{\{True,False,N/A\}}$	Given [Root] is [Value],what is the value of [Leaf $i$ ]?
Algorithm	Reachability	General	$\mathcal{V}:-$ $\mathcal{O}:-$	# Nodes, # max links,random desc	$2$ $\mathrm{\{True,False\}}$	Can [Node $i$ ] bereached from [Node $j$ ]?
	Max sumpath	General	$\mathcal{V}:\{1,2,\ldots,10\}$ $\mathcal{O}:-$	# Nodes, # max links,random desc	-	What is the maximumpath [Node $i$ ] to [Node $j$ ]?

复杂性约束 $\mathcal{C}_{\mathcal{G}}$ 。我们研究将复杂性注入 DAG 的 $4$ 技术（图5)：（1）更改 T-DAG 的宽度和深度：控制树复杂性的自然方法。(2) 更改 G-DAG 的节点和链接数量：我们控制 G-DAG 中的节点总数。每个节点中的链接数量是从预定义范围中随机选择的，例如 $[1,5]$ 。(3) 添加额外的随机链接：对于每个节点，我们可以引入到另一个随机节点的附加链接。(4) 嵌入随机描述：将随机描述添加到主 DAG 的描述中。更多复杂性细节可以参见附录B.2，并以图7作为说明。

3.2.3 描述函数 $\mathcal{F}$

在构造出具有一定约束的 DAG 后，我们需要使用描述函数 $\mathcal{F}$ 将它们转换为可理解的自然语言描述。

DAG描述函数 $\mathcal{F}_{\mathcal{G}}$ 。我们逐个节点地描述 DAG，然后将节点的描述形成序列。自然语言中每个节点的解释取决于其位置和任务。对于表示主要输入或前提的叶节点，它们可以描述为：“[Name] 的值为 [Value]。”例如，表示数字 5 的节点可以表示为：“节点 A 的值为 5”。对于 T-DAG，中间节点通常表示在其子节点上执行的操作，描述可以表述为：“[Name] 的值是通过 [Operation] [Children's Names] 的值导出的”。对于G-DAG，中间节点通常被描述为节点之间的连接：“[名字]指向[孩子的名字]”。请注意，自然语言描述可以根据自定义需求进行替换，并且可以进一步与文本对抗攻击结合（Li 等人，2019；Gao 等人，2018；Jin 等人，2020；Li 等人，2020）.

此外，复杂性还受到描述节点的顺序的影响。我们设计了三种顺序：拓扑、反向拓扑和随机顺序，每种顺序都为理解 DAG 带来了独特的挑战。这些订单的详细信息参见附录B.4。

任务描述函数 $\mathcal{F}_{T}$ 。 $\mathcal{F}$ 的构造很大程度上取决于任务的上下文。值得注意的是，这种结构也非常灵活。例如，将对抗性提示（朱等人，2023）合并到任务描述中可能会使问题变得更加困难。在这里，我们提出了分别代表 T-DAG 和 G-DAG 的算术任务和可达性任务的任务描述函数。附录B.3介绍了其余 $5$ 任务的详细信息和示例。

算术：给定一个T-DAG，DAG描述函数已经证明了前提：叶子节点和推理的中间步骤：非叶子节点。接下来，我们选择根节点作为需要解决的变量，我们附加问题“[根]的值是什么？”到描述中，其中[Root]填充根变量的名称（图9)。

可达性：可达性任务旨在对两个节点是否在图中连接进行建模。对于G-DAG来说，DAG描述功能已经展示了节点之间的联系。可达性任务的任务描述为：“[节点 $j$ ]可以到达[节点 $i$ ]”，其中节点 $i$ 和节点 $j$ 是从G-DAG中的节点中随机选择的（图9)。

最后，虽然直接采用 GPT-4 生成上下文描述而不是简单的描述是可行的（参见附录 B.5)，但验证 GPT 生成问题的基本原理具有挑战性-4。因此，我们将其留待将来的工作。

3.3 DyVal 与现有基准共存并共同发展

DyVal 是对现有基准的补充。首先，具有内在结构的任务可以从 DyVal 中受益匪浅，因为它们可以通过调整生成过程来调节复杂性和随机性。CheckList（Ribeiro 等人，2020）、数据增强（Andreas，2020；Zhang 等人，2022）、推理数据集合成（Sinha 等）等工作人，2019；Clark 等人，2020；Jin 等人，2023）可以轻松集成到 DyVal 中。相反，没有明确定义结构的任务可能会给 DyVal 的实现带来挑战。其次，DyVal 可以通过现有基准进行增强，以制定更具挑战性的场景。例如，描述函数 $\mathcal{F}$ 都是关于自然语言文本的，因此它可以很容易地与对抗性攻击结合（Li 等人, 2019; Jin 等人, 2020; Zhu 等人, 2023 ) 或分布外提示(Yang 等人, 2023a) 来评估大语言模型的稳健性。

请注意，虽然本文侧重于评估推理任务，但 DyVal 可以灵活评估自然语言任务。我们在附录 H 中展示了使用 DyVal 评估情绪分析的初步研究，未来可以做更多的工作。最后，DyVal本质上保证了评估样本的无偏和平衡构建，因为人们可以轻松控制生成过程，如附录F所示。

4实验

4.1设置

任务和复杂程度。我们主要讨论每个任务中使用的约束。测试集的准确性可能会有所不同，因为它是动态生成的。为了平衡测试时间和差异，我们为每个数据集生成 500 个样本。为了减轻随机性对评估结果的影响，我们对每个数据集评估三次。我们为每个任务定义 $4$ 复杂性级别 (D1 $\sim$ D4)。对于使用通用 DAG 的任务，节点数设置为 $\{7,10,15,20\}$ ，每个节点具有 $\{3,4,6,8\}$ 最大链接和 $1$ 最小链接。对于使用基于树的 DAG 的任务，树深度和宽度分别为 $(2,2),(3,2),(3,3),(4,2)$ 。D1 $\sim$ D4 的更多详细信息参见附录D。

评估指标。我们的主要评估指标是准确性。对于答案为数字的任务，我们采用相对精度（Burden等人，2015）来确定预测的正确性，即如果答案的相对精度在指定阈值内，则认为答案是正确的， $\sigma$ （例如， $0.01\%$ )，与真实值相关。相对精度计算为 $|\mathrm{pred}-\mathrm{gt}|/(\mathrm{gt}+\epsilon)\leq\sigma$ ，其中 $\mathrm{gt}$ 表示地面真值， $\mathrm{pred}$ 是模型的预测， $|\cdot|$ 是绝对值函数， $\sigma$ 是所需的相对精度阈值， $\epsilon$ 是为防止被零除而引入的小值。

大语言模型。我们评估的大语言模型包括 Flan-T5-large (Chung 等人, 2022)、phi-1.5 (Li 等人, 2023d)、WizardMath-13B (Luo 等人, 2023), Xwin-13B (Team, 2023), Llama2-13B-chat (Touvron 等人, 2023), Vicuna- 13B-v1.3 （Chiang 等人，2023）、GPT-3.5-Turbo （OpenAI，2023a）和 GPT-4 （OpenAI，2023b）。温度设置为 $0$ 以避免随机性。我们将生成长度设置为与输入长度成正比。具体来说，对于GPT-3.5-Turbo和GPT-4，生成长度设置为输入长度的两倍；对于其余模型，它设置为输入长度的五倍。我们为每项任务设计了提示，并结合了规则演示，特别是推理和算法任务。为了确保格式化输出，我们进一步要求大语言模型明确输出“ $\langle\langle\langle$ ”和“ $\rangle\rangle\rangle$ ”之间的预测。所有实现均基于 Huggingface。

4.2 数学、逻辑推理和算法任务的结果

Dynamic Evaluation of Large Language Models for Reasoning Tasks (2)

在介绍主要结果之前，请注意，Flan-T5-large、phi-1.5、WizardMath-13B 和 Xwin-13B 在所有任务中的结果均为 0，因此我们不再报告它们。我们使用三个随机种子进行了实验。图2显示了所有任务在三个生成顺序和三个随机种子中的平均结果（完整结果见附录D.4)。GPT-4 表现最好，紧随其后的是 GPT-3.5-Turbo。 Llama2-13B-chat 的性能较差，Vicuna-13B-v1.3 偶尔会优于 Llama2-13b-chat。更多发现如下。

现有静态基准测试与 DyVal 之间的性能不一致：尽管phi-1.5、Xwin-13B和WizardMath-13B在现有基准上取得了优异的结果，但它们在我们的评估中的较差表现凸显了仅在静态基准上评估大语言模型时的潜在问题以及可能的低训练数据质量或数据污染问题。

复杂数据集的困难：从 D1 到 D4，性能大多急剧下降，凸显了大语言模型在复杂性增加方面的挣扎。例如，随着复杂性的增加，GPT-3.5-Turbo 对于算术任务的性能下降了 23%。值得注意的是，正如 Berglund 等人 (2023) 所支持的，溯因逻辑（从结论推导出前提）的表现远低于演绎逻辑（从前提推导出结论）的表现，这表明大语言模型更优于演绎逻辑（从前提推导出结论）。 “A是B”比“B是A”更重要。此外，GPT-4 和 GPT-3.5-Turbo 之间的性能差异虽然在 D1 等简单任务中很微妙，但在复杂任务中却变得突出。这些观察表明复杂且不断发展的任务对于有效区分和评估模型的价值。我们还在附录D.4中提出了更多有趣的观察结果。

Dynamic Evaluation of Large Language Models for Reasoning Tasks (3)

人体研究：我们招募了 82 名至少具有学士学位的人类评估员²²2结果可能并不代表人类表现的最高水平。人口统计数据参见附录D.8。，根据最复杂的数据集 (D4) 上的大语言模型来衡量他们的数学和逻辑推理任务技能。每个参与者解决了每个数据集中的 5 个问题。如图 3 所示，GPT-4 和 GPT-3.5-Turbo 在大多数任务中始终表现出较高的能力，超过了人类的平均成绩。原因可能是生成的问题通常对人类来说更难，但对大语言模型来说更容易。尽管如此，GPT-4 在线性方程和溯因逻辑等领域仍举步维艰。这表明未来的发展可能涉及更多来自特定领域的数据。

4.3案例研究

Dynamic Evaluation of Large Language Models for Reasoning Tasks (4)

为了全面了解大语言模型的行为，我们仔细检查了故障模式。我们特别关注基于 GPT-4 性能的算术、演绎逻辑、溯因逻辑和可达性任务中最具挑战性的数据集。我们为每个任务随机选择 $20$ 个失败样本，并总结了图4中的失败模式。详细的失败案例参见附录D.5。错误类型各不相同，表明还有很大的改进空间。

部分计算错误： GPT-4 有时会在中间步骤中出错，同时保持其余步骤的正确性。我们强调，错误可能就像 $20/7=37.28$ 一样简单。这与 (Dziri 等人, 2023) 一致，指出大语言模型有时会给出部分正确的多位数乘法结果。错误的推理和自相矛盾：在推理任务中，GPT-4 可能会误解规则。假设溯因逻辑 $A\lor B\rightarrow C$ 且 $C$ 为 False，则前提 $A, B$ 必定为 False。然而，GPT-4 错误地推断 A 或 B 可能是 False。此外，GPT-4 在溯因逻辑任务中的相同推理的假设有时会自相矛盾。未经证实的回应：在推理任务和算法任务中，GPT-4 常常在没有任何推论或论证的情况下给出答案。其仅回答的反应表明可能是记忆或肤浅的理解。教学监督：有时，GPT-4 能够熟练地得出正确的计算结果，但在遵守提示中列出的输出指令（例如数学计算所需的相对精度）时会遇到困难。

4.4消融研究

Dynamic Evaluation of Large Language Models for Reasoning Tasks (5)

复杂性约束 $\mathcal{C}_{\mathcal{G}}$ 的影响：在图 5 中，我们通过调整约束来改变 GPT-3.5-Turbo 的复杂性，如第 2 节中所述。 3.2.2 并观察大语言模型性能如何在算术、布尔逻辑和演绎逻辑任务之间变化。值得注意的是，随着复杂性参数增加导致任务复杂性增加，大语言模型的性能下降。深度成为基于树的 DAG 的主要挑战，强调了大语言模型扩展推理步骤的困难。

即时工程：我们在最具挑战性的数据集上评估了五种提示技术 (PE)，如表 6 和附录 D.7 中所述。没有一种 PE 方法能够在所有任务中表现最佳。虽然 APE 显着地将线性方程任务提高了 $10$ %，但它对演绎和溯因逻辑产生了负面影响。这些不同的结果凸显了针对特定任务的体育项目选择和发展的重要性。

模型尺寸的影响：我们进一步评估 Llama2 在最简单的数据集 D1 上使用不同模型大小的算术、布尔逻辑和可达性任务的性能。表 6 显示较大的尺寸会产生更好的结果，但大多数情况下仍无法超过 GPT-4 和人类。

5 DyVal 帮助微调

Dynamic Evaluation of Large Language Models for Reasoning Tasks (6)

在本节中，我们将展示 DyVal 生成的数据可以进一步用于分布式大语言模型，以提高其解决复杂任务的能力。具体来说，我们将 $7$ 任务的训练数据生成到参数 Llama2-13B-chat。微调和训练样本生成的详细信息参见附录E。然后，我们使用不同的设置测试模型：（1）与训练数据具有相同难度的in-distribution样本； (2)分布外训练样本，其难度级别高于数据。为了进一步证明我们生成的数据的有效性，我们在现有基准上使用少量样本示例来测试模型，包括 GSM8K (Cobbe 等人，2021) 和 SVAMP ( Patel 等人，2021）评估数学能力，FOLIO （Han 等人，2022）和 RACO （基准作者，2023）评估逻辑推理能力能力，以及 DP （Dziri 等人，2023）和 LCS （基准作者，2023）来评估算法能力。图6和10中的结果表明，微调模型的性能在所有任务中都有所提高。结果表明，DyVal不仅作为基准有效，而且通过对其生成的样本进行微调，可以提高大语言模型在现有基准上的性能。这种改进可能源于各种基准测试和 DyVal 生成的样本之间的相似性。例如，GSM8K 样本可以解释为深度为 $2$ 或 $3$ 的树。有趣的是，即使我们的微调中没有动态编程任务，微调后的模型在 DP 和 LCS 数据集上也表现出了改进的性能。这凸显了大语言模型潜在的学习能力以及DyVal生成的训练样本的有效性。我们进一步对 GPT-3.5-Turbo 进行了微调，并检验了其一般自然语言理解的能力。结果表明，对我们生成的数据集进行微调并不一定会损害自然语言理解能力，如附录G中全面讨论的那样。

6结论与讨论

我们提出了DyVal，一种动态大语言模型评估协议，以减轻现有基准的数据污染和静态复杂性。我们为推理任务设计了基于图的 DyVal。DyVal的优势在于其动态生成样本，具有固有的难度调整灵活性。我们在使用我们的基准的实验中观察到了一些有趣的发现。更重要的是，DyVal生成的样本不仅可以用作评估样本，还可以作为大语言模型的微调数据，以增强其在现有基准测试中的性能。

我们的工作有几个局限性。(1) 任务：我们目前专注于推理任务。虽然DyVal支持其他任务（参见第H节），但它需要设计生成算法 $\mathcal{G}$ 。(2) 样本：由于资源限制，我们的实验使用了有限的测试样本。对更大集合的评估可能有助于观察更多发现。(3) 微调：可以在更多样化的模型和数据集上进行微调，以获得更深入的见解。

确认和免责声明

本研究的目的是针对大语言模型的快速发展提出一个动态的、不断发展的评估协议。我们有以下主张。首先，DyVal的生成机制不包含任何潜在有害的词语或表达，而仅包含数学、逻辑和算法描述。将来，在其他自然语言任务上使用 DyVal 时应谨慎处理，不要包含任何有害或不负责任的语言。其次，本研究涉及人类受试者作为大语言模型的竞争对手，进行性能比较和分析。所有人体研究均遵守某些国家的法律法规。第三，本文对GPT-3.5-Turbo和GPT-4进行的实验是基于其2023年6月的最新版本。作者建议使用这些服务的相同版本以实现可重复性。然而，当我们尽力为实验调整最佳提示时，众所周知，大语言模型对提示高度敏感。因此，本文的实验仅基于我们的提示设计和代码库。最后，我们可能得出结论，本文中的某些大语言模型在我们的基准测试中表现不佳，但这并不意味着这些模型不好或不能在实践中使用。作者们对所有评价的大语言模型都保持着积极乐观的态度，认为他们会进一步变得更强。

参考

Alfred V et al. (2007)Aho Alfred V, Lam Monica S, Sethi Ravi, Ullman Jeffrey D, et al.Compilers-principles, techniques, and tools.pearson Education, 2007.
Andreas (2020)Jacob Andreas.Good-enough compositional data augmentation.In Proceedings of the 58th Annual Meeting of the Associationfor Computational Linguistics, pp. 7556–7566, Online, July 2020.Association for Computational Linguistics.
Arpit et al. (2017)Devansh Arpit, Stanislaw Jastrzkebski, Nicolas Ballas, David Krueger,Emmanuel Bengio, Maxinder S. Kanwal, Tegan Maharaj, Asja Fischer, AaronCourville, Yoshua Bengio, and Simon Lacoste-Julien.A closer look at memorization in deep networks.In Proceedings of the 34th International Conference on MachineLearning, volume 70, pp. 233–242, 06–11 Aug 2017.
Bang et al. (2023)Yejin Bang, Samuel Cahyawijaya, Nayeon Lee, Wenliang Dai, Dan Su, Bryan Wilie,Holy Lovenia, Ziwei Ji, Tiezheng Yu, Willy Chung, et al.A multitask, multilingual, multimodal evaluation of chatgpt onreasoning, hallucination, and interactivity.arXiv preprint arXiv:2302.04023, 2023.
bench authors (2023)BIG bench authors.Beyond the imitation game: Quantifying and extrapolating thecapabilities of language models.Transactions on Machine Learning Research, 2023.ISSN 2835-8856.
Bender et al. (2021)Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, and ShmargaretShmitchell.On the dangers of stochastic parrots: Can language models be too big?FAccT 2021, pp. 610–623, New York, NY, USA, 2021. Association forComputing Machinery.ISBN 9781450383097.
Berglund et al. (2023)Lukas Berglund, Meg Tong, Max Kaufmann, Mikita Balesni, Asa Cooper Stickland,Tomasz Korbak, and Owain Evans.The reversal curse: Llms trained on “a is b” fail to learn “b isa”.arXiv preprint arXiv:2309.12288, 2023.
Biderman et al. (2023)Stella Biderman, USVSN Sai Prashanth, Lintang Sutawika, Hailey Schoelkopf,Quentin Anthony, Shivanshu Purohit, and Edward Raf.Emergent and predictable memorization in large language models.arXiv preprint arXiv:2304.11158, 2023.
Brody (1999)Nathan Brody.What is intelligence?International Review of Psychiatry, 11(1):19–25, 1999.
Brown et al. (2020)Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, PrafullaDhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell,et al.Language models are few-shot learners.Advances in neural information processing systems,33:1877–1901, 2020.
Bubeck et al. (2023)Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, EricHorvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg,et al.Sparks of artificial general intelligence: Early experiments withgpt-4.arXiv preprint arXiv:2303.12712, 2023.
Burden et al. (2015)Richard L Burden, J Douglas Faires, and Annette M Burden.Numerical analysis.Cengage learning, 2015.
Carlini et al. (2023)Nicholas Carlini, Daphne Ippolito, Matthew Jagielski, Katherine Lee, FlorianTramer, and Chiyuan Zhang.Quantifying memorization across neural language models.In The Eleventh International Conference on LearningRepresentations, 2023.
Chen et al. (2023)Jiaao Chen, Xiaoman Pan, Dian Yu, Kaiqiang Song, Xiaoyang Wang, Dong Yu, andJianshu Chen.Skills-in-context prompting: Unlocking compositionality in largelanguage models.arXiv preprint arXiv:2308.00304, 2023.
Chiang et al. (2023)Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, LianminZheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E Gonzalez, et al.Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgptquality.See https://vicuna. lmsys. org (accessed 14 April 2023), 2023.
Choi et al. (2023)Minje Choi, Jiaxin Pei, Sagar Kumar, Chang Shu, and David Jurgens.Do llms understand social knowledge? evaluating the sociability oflarge language models with socket benchmark.arXiv preprint arXiv:2305.14938, 2023.
Chowdhuri et al. (2023)Raunak Chowdhuri, Neil Deshmukh, and David Koplow.No, gpt4 can’t ace mit.https://flower-nutria-41d.notion.site/No-GPT4-can-t-ace-MIT-b27e6796ab5a48368127a98216c76864,2023.
Chung et al. (2022)Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus,Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, et al.Scaling instruction-finetuned language models.arXiv preprint arXiv:2210.11416, 2022.
Clark et al. (2020)Peter Clark, Oyvind Tafjord, and Kyle Richardson.Transformers as soft reasoners over language.In Christian Bessiere (ed.), Proceedings of the Twenty-NinthInternational Joint Conference on Artificial Intelligence, IJCAI-20, pp. 3882–3890. International Joint Conferences on Artificial IntelligenceOrganization, 7 2020.
Cobbe et al. (2021)Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, LukaszKaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano,et al.Training verifiers to solve math word problems.arXiv preprint arXiv:2110.14168, 2021.
Cybenko (1989)George Cybenko.Approximation by superpositions of a sigmoidal function.Mathematics of control, signals and systems, 2(4):303–314, 1989.
Dziri et al. (2023)Nouha Dziri, Ximing Lu, Melanie Sclar, Xiang Lorraine Li, Liwei Jian,Bill Yuchen Lin, Peter West, Chandra Bhagavatula, Ronan Le Bras, Jena DHwang, et al.Faith and fate: Limits of transformers on compositionality.arXiv preprint arXiv:2305.18654, 2023.
Gao et al. (2022)Irena Gao, Gabriel Ilharco, Scott Lundberg, and Marco Tulio Ribeiro.Adaptive testing of computer vision models.arXiv preprint arXiv:2212.02774, 2022.
Gao et al. (2018)J. Gao, J. Lanchantin, M. L. Soffa, and Y. Qi.Black-box generation of adversarial text sequences to evade deeplearning classifiers.In 2018 IEEE Security and Privacy Workshops (SPW), pp. 50–56, May 2018.doi: 10.1109/SPW.2018.00016.
Golchin & Surdeanu (2023a)Shahriar Golchin and Mihai Surdeanu.Data contamination quiz: A tool to detect and estimate contaminationin large language models.arXiv preprint arXiv:2311.06233, 2023a.
Golchin & Surdeanu (2023b)Shahriar Golchin and Mihai Surdeanu.Time travel in llms: Tracing data contamination in large languagemodels.arXiv preprint arXiv:2308.08493, 2023b.
Han et al. (2022)Simeng Han, Hailey Schoelkopf, Yilun Zhao, Zhenting Qi, Martin Riddell, LukeBenson, Lucy Sun, Ekaterina Zubova, Yujie Qiao, Matthew Burtell, et al.Folio: Natural language reasoning with first-order logic.arXiv preprint arXiv:2209.00840, 2022.
Hendrycks et al. (2021)Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, DawnSong, and Jacob Steinhardt.Measuring massive multitask language understanding.In International Conference on Learning Representations, 2021.
Hu et al. (2022)Edward J Hu, yelong shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, SheanWang, Lu Wang, and Weizhu Chen.LoRA: Low-rank adaptation of large language models.In International Conference on Learning Representations, 2022.
Huang et al. (2023)Yuzhen Huang, Yuzhuo Bai, Zhihao Zhu, Junlei Zhang, Jinghan Zhang, Tangjun Su,Junteng Liu, Chuancheng Lv, Yikai Zhang, Jiayi Lei, et al.C-eval: A multi-level multi-discipline chinese evaluation suite forfoundation models.arXiv preprint arXiv:2305.08322, 2023.
HuggingFace (2023)HuggingFace.Open-source large language models leaderboard.https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard, 2023.
Jin et al. (2020)Di Jin, Zhijing Jin, Joey Tianyi Zhou, and Peter Szolovits.Is bert really robust? a strong baseline for natural language attackon text classification and entailment.In Proceedings of the AAAI conference on artificialintelligence, volume 34, pp. 8018–8025, 2020.
Jin et al. (2023)Zhijing Jin, Jiarui Liu, Zhiheng Lyu, Spencer Poff, Mrinmaya Sachan, RadaMihalcea, Mona Diab, and Bernhard Schölkopf.Can large language models infer causation from correlation?arXiv preprint arXiv:2306.05836, 2023.
Khot et al. (2022)Tushar Khot, Harsh Trivedi, Matthew Finlayson, Yao Fu, Kyle Richardson, PeterClark, and Ashish Sabharwal.Decomposed prompting: A modular approach for solving complex tasks.In The Eleventh International Conference on LearningRepresentations, 2022.
Kiela et al. (2021)Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger,Zhengxuan Wu, Bertie Vidgen, Grusha Prasad, Amanpreet Singh, Pratik Ringshia,Zhiyi Ma, Tristan Thrush, Sebastian Riedel, Zeerak Waseem, Pontus Stenetorp,Robin Jia, Mohit Bansal, Christopher Potts, and Adina Williams.Dynabench: Rethinking benchmarking in NLP.In Proceedings of the 2021 Conference of the North AmericanChapter of the Association for Computational Linguistics: Human LanguageTechnologies, pp. 4110–4124, June 2021.
Klein & Manning (2003)Dan Klein and Christopher D Manning.Accurate unlexicalized parsing.In Proceedings of the 41st annual meeting of the associationfor computational linguistics, pp. 423–430, 2003.
Kocoń et al. (2023)Jan Kocoń, Igor Cichecki, Oliwier Kaszyca, Mateusz Kochanek, DominikaSzydło, Joanna Baran, Julita Bielaniewicz, Marcin Gruza, Arkadiusz Janz,Kamil Kanclerz, et al.Chatgpt: Jack of all trades, master of none.Information Fusion, pp. 101861, 2023.
Krause et al. (2018)Ben Krause, Emmanuel Kahembwe, Iain Murray, and Steve Renals.Dynamic evaluation of neural sequence models.In International Conference on Machine Learning, pp. 2766–2775. PMLR, 2018.
Li et al. (2019)Jinfeng Li, Shouling Ji, Tianyu Du, Bo Li, and Ting Wang.TextBugger: Generating adversarial text against real-worldapplications.In Proceedings 2019 Network and Distributed System SecuritySymposium. Internet Society, 2019.doi: 10.14722/ndss.2019.23138.
Li et al. (2020)Linyang Li, Ruotian Ma, Qipeng Guo, Xiangyang Xue, and Xipeng Qiu.BERT-ATTACK: Adversarial attack against BERT using BERT.In Proceedings of the 2020 Conference on Empirical Methods inNatural Language Processing (EMNLP), pp. 6193–6202, November 2020.
Li et al. (2023a)Minghao Li, Feifan Song, Bowen Yu, Haiyang Yu, Zhoujun Li, Fei Huang, andYongbin Li.Api-bank: A benchmark for tool-augmented llms.arXiv preprint arXiv:2304.08244, 2023a.
Li et al. (2023b)Xuechen Li, Tianyi Zhang, Yann Dubois, Rohan Taori, Ishaan Gulrajani, CarlosGuestrin, Percy Liang, and Tatsunori B. Hashimoto.Alpacaeval: An automatic evaluator of instruction-following models.https://github.com/tatsu-lab/alpaca_eval, 2023b.
Li et al. (2023c)Xuechen Li, Tianyi Zhang, Yann Dubois, Rohan Taori, Ishaan Gulrajani, CarlosGuestrin, Percy Liang, and Tatsunori B Hashimoto.Alpacaeval: An automatic evaluator of instruction-following models,2023c.
Li et al. (2023d)Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, SuriyaGunasekar, and Yin Tat Lee.Textbooks are all you need ii: phi-1.5 technical report.arXiv preprint arXiv:2309.05463, 2023d.
Li (2023)Yucheng Li.An open source data contamination report for llama series models.arXiv preprint arXiv:2310.17589, 2023.
Liang et al. (2023)Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu,Michihiro Yasunaga, Yian Zhang, Deepak Narayanan, Yuhuai Wu, Ananya Kumar,Benjamin Newman, Binhang Yuan, Bobby Yan, Ce Zhang, Christian AlexanderCosgrove, Christopher D Manning, Christopher Re, Diana Acosta-Navas,Drew Arad Hudson, Eric Zelikman, Esin Durmus, Faisal Ladhak, Frieda Rong,Hongyu Ren, Huaxiu Yao, Jue WANG, Keshav Santhanam, Laurel Orr, Lucia Zheng,Mert Yuksekgonul, Mirac Suzgun, Nathan Kim, Neel Guha, Niladri S. Chatterji,Omar Khattab, Peter Henderson, Qian Huang, Ryan Andrew Chi, Sang Michael Xie,Shibani Santurkar, Surya Ganguli, Tatsunori Hashimoto, Thomas Icard, TianyiZhang, Vishrav Chaudhary, William Wang, Xuechen Li, Yifan Mai, Yuhui Zhang,and Yuta Koreeda.Holistic evaluation of language models.Transactions on Machine Learning Research, 2023.ISSN 2835-8856.
Lohman & Lakin (2011)David F Lohman and Joni M Lakin.Intelligence and reasoning.The Cambridge handbook of intelligence, pp. 419–441, 2011.
Lovin (2023)Brian Lovin.Gpt-4 performs significantly worse on coding problems not in itstraining data.https://brianlovin.com/hn/35297067, 2023.
Luo et al. (2023)Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou, Chongyang Tao, XiuboGeng, Qingwei Lin, Shifeng Chen, and Dongmei Zhang.Wizardmath: Empowering mathematical reasoning for large languagemodels via reinforced evol-instruct.arXiv preprint arXiv:2308.09583, 2023.
Ma et al. (2021)Zhiyi Ma, Kawin Ethayarajh, Tristan Thrush, Somya Jain, Ledell Wu, Robin Jia,Christopher Potts, Adina Williams, and Douwe Kiela.Dynaboard: An evaluation-as-a-service platform for holisticnext-generation benchmarking.Advances in Neural Information Processing Systems,34:10351–10367, 2021.
Magar & Schwartz (2022)Inbal Magar and Roy Schwartz.Data contamination: From memorization to exploitation.arXiv preprint arXiv:2203.08242, 2022.
OpenAI (2023a)OpenAI.https://chat.openai.com.chat, 2023a.
OpenAI (2023b)OpenAI.Gpt-4 technical report, 2023b.
Oren et al. (2023)Yonatan Oren, Nicole Meister, Niladri Chatterji, Faisal Ladhak, and Tatsunori BHashimoto.Proving test set contamination in black box language models.arXiv preprint arXiv:2310.17623, 2023.
Palowitch et al. (2022)John Palowitch, Anton Tsitsulin, Brandon Mayer, and Bryan Perozzi.Graphworld: Fake graphs bring real insights for gnns.In Proceedings of the 28th ACM SIGKDD Conference on KnowledgeDiscovery and Data Mining, pp. 3691–3701, 2022.
Patel et al. (2021)Arkil Patel, Satwik Bhattamishra, and Navin Goyal.Are NLP models really able to solve simple math word problems?In Proceedings of the 2021 Conference of the North AmericanChapter of the Association for Computational Linguistics: Human LanguageTechnologies, pp. 2080–2094, June 2021.
Ribeiro & Lundberg (2022)Marco Tulio Ribeiro and Scott Lundberg.Adaptive testing and debugging of nlp models.In Proceedings of the 60th Annual Meeting of the Associationfor Computational Linguistics (Volume 1: Long Papers), pp. 3253–3267,2022.
Ribeiro et al. (2020)Marco Tulio Ribeiro, Tongshuang Wu, Carlos Guestrin, and Sameer Singh.Beyond accuracy: Behavioral testing of NLP models withCheckList.In Proceedings of the 58th Annual Meeting of the Associationfor Computational Linguistics, pp. 4902–4912, Online, July 2020.Association for Computational Linguistics.
Roy & Roth (2015)Subhro Roy and Dan Roth.Solving general arithmetic word problems.In Proceedings of the 2015 Conference on Empirical Methods inNatural Language Processing, pp. 1743–1752, September 2015.
Sawada et al. (2023)Tomohiro Sawada, Daniel Paleka, Alexander Havrilla, Pranav Tadepalli, PaulaVidas, Alexander Kranias, John J Nay, Ksh*tij Gupta, and Aran Komatsuzaki.Arb: Advanced reasoning benchmark for large language models.arXiv preprint arXiv:2307.13692, 2023.
Schaeffer (2023)Rylan Schaeffer.Pretraining on the test set is all you need.arXiv preprint arXiv:2309.08632, 2023.
Sinha et al. (2019)Koustuv Sinha, Shagun Sodhani, Jin Dong, Joelle Pineau, and William L.Hamilton.CLUTRR: A diagnostic benchmark for inductive reasoning from text.In Proceedings of the 2019 Conference on Empirical Methods inNatural Language Processing and the 9th International Joint Conference onNatural Language Processing (EMNLP-IJCNLP), pp. 4506–4515, Hong Kong,China, November 2019. Association for Computational Linguistics.
Tang et al. (2023)Xiaojuan Tang, Zilong Zheng, Jiaqi Li, Fanxu Meng, Song-Chun Zhu, Yitao Liang,and Muhan Zhang.Large language models are in-context semantic reasoners rather thansymbolic reasoners.arXiv preprint arXiv:2305.14825, 2023.
Tänzer et al. (2022)Michael Tänzer, Sebastian Ruder, and Marek Rei.Memorisation versus generalisation in pre-trained language models.In Proceedings of the 60th Annual Meeting of the Associationfor Computational Linguistics (Volume 1: Long Papers), pp. 7564–7578, May2022.
Team (2023)Xwin-LM Team.Xwin-lm, 9 2023.URL https://github.com/Xwin-LM/Xwin-LM.
Thulasiraman & Swamy (2011)Krishnaiyan Thulasiraman and Madisetti NS Swamy.Graphs: theory and algorithms.John Wiley & Sons, 2011.
Tian et al. (2021)Jidong Tian, Yitian Li, Wenqing Chen, Liqiang Xiao, Hao He, and Yaohui Jin.Diagnosing the first-order logical reasoning ability throughLogicNLI.In Proceedings of the 2021 Conference on Empirical Methods inNatural Language Processing, pp. 3738–3747, November 2021.
Tian et al. (2018)Yuchi Tian, Kexin Pei, Suman Jana, and Baishakhi Ray.Deeptest: Automated testing of deep-neural-network-driven autonomouscars.In Proceedings of the 40th international conference on softwareengineering, pp. 303–314, 2018.
Touvron et al. (2023)Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, YasmineBabaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale,et al.Llama 2: Open foundation and fine-tuned chat models.arXiv preprint arXiv:2307.09288, 2023.
Vinyals et al. (2015)Oriol Vinyals, Łukasz Kaiser, Terry Koo, Slav Petrov, Ilya Sutskever, andGeoffrey Hinton.Grammar as a foreign language.Advances in neural information processing systems, 28, 2015.
Wei et al. (2022)Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, brian ichter, Fei Xia,Ed H. Chi, Quoc V Le, and Denny Zhou.Chain of thought prompting elicits reasoning in large languagemodels.In Alice H. Oh, Alekh Agarwal, Danielle Belgrave, and Kyunghyun Cho(eds.), Advances in Neural Information Processing Systems, 2022.
Wei et al. (2023)Tianwen Wei, Liang Zhao, Lichang Zhang, Bo Zhu, Lijie Wang, Haihua Yang, BiyeLi, Cheng Cheng, Weiwei Lü, Rui Hu, et al.Skywork: A more open bilingual foundation model.arXiv preprint arXiv:2310.19341, 2023.
Wu et al. (2023)Zhaofeng Wu, Linlu Qiu, Alexis Ross, Ekin Akyürek, Boyuan Chen, BailinWang, Najoung Kim, Jacob Andreas, and Yoon Kim.Reasoning or reciting? exploring the capabilities and limitations oflanguage models through counterfactual tasks.arXiv preprint arXiv:2307.02477, 2023.
Yang et al. (2023a)Linyi Yang, Shuibai Zhang, Libo Qin, Yafu Li, Yidong Wang, Hanmeng Liu, JindongWang, Xing Xie, and Yue Zhang.Glue-x: Evaluating natural language understanding models from anout-of-distribution generalization perspective.In Findings of ACL, 2023a.
Yang et al. (2023b)Shuo Yang, Wei-Lin Chiang, Lianmin Zheng, Joseph E Gonzalez, and Ion Stoica.Rethinking benchmark and contamination for language models withrephrased samples.arXiv preprint arXiv:2311.04850, 2023b.
Zečević et al. (2023)Matej Zečević, Moritz Willig, Devendra Singh Dhami, and Kristian Kersting.Causal parrots: Large language models may talk causality but are notcausal.Transactions on Machine Learning Research, 2023.
Zhang et al. (2021)Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, and Oriol Vinyals.Understanding deep learning (still) requires rethinkinggeneralization.Communications of the ACM, 64(3):107–115,2021.
Zhang et al. (2022)Le Zhang, Zichao Yang, and Diyi Yang.TreeMix: Compositional constituency-based data augmentation fornatural language understanding.In Proceedings of the 2022 Conference of the North AmericanChapter of the Association for Computational Linguistics: Human LanguageTechnologies, pp. 5243–5258, July 2022.
Zhang et al. (2023)Yifan Zhang, Jingqin Yang, Yang Yuan, and Andrew Chi-Chih Yao.Cumulative reasoning with large language models.arXiv preprint arXiv:2308.04371, 2023.
Zhao et al. (2019)Jie Zhao, Xiang Deng, and Huan Sun.Easy-to-hard: Leveraging simple questions for complex questiongeneration, 2019.
Zheng et al. (2023)Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, YonghaoZhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric Xing, et al.Judging llm-as-a-judge with mt-bench and chatbot arena.arXiv preprint arXiv:2306.05685, 2023.
Zhong et al. (2023)Wanjun Zhong, Ruixiang Cui, Yiduo Guo, Yaobo Liang, Shuai Lu, Yanlin Wang, AminSaied, Weizhu Chen, and Nan Duan.Agieval: A human-centric benchmark for evaluating foundation models.arXiv preprint arXiv:2304.06364, 2023.
Zhou et al. (2023a)Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, XuezheMa, Avia Efrat, Ping Yu, Lili Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, LukeZettlemoyer, and Omer Levy.Lima: Less is more for alignment, 2023a.
Zhou et al. (2023b)Denny Zhou, Nathanael Schärli, Le Hou, Jason Wei, Nathan Scales, XuezhiWang, Dale Schuurmans, Claire Cui, Olivier Bousquet, Quoc Le, et al.Least-to-most prompting enables complex reasoning in large languagemodels.In ICLR, 2023b.
Zhou et al. (2023c)Kun Zhou, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu Chen,Yankai Lin, Ji-Rong Wen, and Jiawei Han.Don’t make your llm an evaluation benchmark cheater.arXiv preprint arXiv:2311.01964, 2023c.
Zhou et al. (2023d)Yongchao Zhou, Andrei Ioan Muresanu, Ziwen Han, Keiran Paster, Silviu Pitis,Harris Chan, and Jimmy Ba.Large language models are human-level prompt engineers.In ICLR, 2023d.
Zhu et al. (2023)Kaijie Zhu, Jindong Wang, Jiaheng Zhou, Zichen Wang, Hao Chen, Yidong Wang,Linyi Yang, Wei Ye, Neil Zhenqiang Gong, Yue Zhang, et al.Promptbench: Towards evaluating the robustness of large languagemodels on adversarial prompts.arXiv preprint arXiv:2306.04528, 2023.
Zhu & Li (2023)Zeyuan Allen Zhu and Yuanzhi Li.Physics of language models: Part 3.1, knowledge storage andextraction, 2023.
Ziems et al. (2023)Caleb Ziems, William Held, Omar Shaikh, Jiaao Chen, Zhehao Zhang, and DiyiYang.Can large language models transform computational social science?arXiv preprint arXiv:2305.03514, 2023.

.tocappendix Chapternone 附录小节

附录A有向无环图初步介绍

有向无环图（通常称为 DAG）是一类封装了独特结构的图：它们是有向的且不包含环。在 DAG 中，顶点通过有向链路连接，并且不存在环回原始节点的链路序列。 DAG 中的每条链路都有一个初始节点和一个终端节点，为其提供方向。这通常用 $a\rightarrow b$ 表示，其中 a 是起始节点，b 是结束节点。 DAG 与其他有向图的一个关键特性是它们缺乏循环。换句话说，从图中的任何一个节点开始，都无法遍历一系列链接并返回到同一个节点。

在我们的实现中，每个节点包含三个属性： 1）子节点（链接）：这些是给定节点连接到的直接从属节点或后续节点。它们强调直接关系或遵循特定节点。2) 值：每个节点都拥有一个值，该值可以显式分配，也可以根据其操作及其子节点派生。该值捕获了所表示的子问题的本质或结果。3) 操作：在基于树的 DAG 中尤其相关，操作指示节点如何解释或处理其子节点的值以计算其自身的值。运算可能包括数学函数、逻辑评估。

附录BDyVal的详细信息

B.1 生成算法

我们将 DAG 分为两大类：基于树的 DAG (T-DAG) 和通用 DAG (G-DAG)，如图 1 所示。

B.1.1 T-DAG

基于树的 DAG 具有固有的层次结构，该结构经常封装需要一系列条件的任务，最终得出明确的结论或结果。这种层次结构自然地与许多数学和逻辑问题的结构保持一致。例如，在解决多步代数问题时，通常从提供的方程（叶节点）开始，逐步进行，组合并简化这些方程，直到得到最终解（根节点）。这种自然的推演过程使得基于树的 DAG 对于这些问题特别可行。

我们采用自上而下的方法来构建基于树的 DAG。该算法专门用于生成具有指定深度和宽度的树。固有的随机性源于两个主要因素：分配给中间节点的操作和叶节点的初始化值。对于中间节点，我们首先随机选择一个定义节点及其子节点之间关系的操作。以算术任务为例：选择“addition ( $+$ )”意味着该节点的值是其子节点值的总和。一旦建立了所有子节点，我们就会相应地计算父节点的值。对于叶节点，值是随机分配的，例如从 $[1,10]$ 范围中选取一个整数来执行算术任务。

B.1.2 G-DAG

与基于树的 DAG 不同，一般 DAG 缺乏严格的层次结构。相反，它们呈现了一个更复杂的节点关系网络。它们的优势在于模拟现实世界中复杂、交织的关系。一个经典的用例是交通系统的表示，其中节点象征城市，边缘代表连接道路。确定一个城市是否可以从另一个城市访问等挑战概括了一般 DAG 熟练建模的现实世界问题。它们的灵活性延伸到代表多种情况，从绘制供应链物流图到分析社交网络。

为了创建通用 DAG，我们首先生成没有任何连接链路的孤立节点。随后，每个节点被赋予一个随机值。对于每个节点，子节点的数量是随机确定的，子节点的最大数量取决于输入。然后，我们通过随机选择目标子节点来建立链接。

B.2复杂度控制

图7演示了T-DAG的 $4$ 类型的复杂性约束。与原始情况相比，添加宽度和附加链接会增加每个子问题的计算复杂性。增加深度会增加复杂性，因为需要更多的推理步骤。嵌入随机描述的目的是分散大语言模型的注意力。

Dynamic Evaluation of Large Language Models for Reasoning Tasks (7)

B.3描述函数

图9展示了我们在 $3$ 科目中生成的 $7$ 任务的说明：（1）数学(DyVal-M），其中包括算术任务和线性方程任务；（2）逻辑推理(DyVal-L），包括布尔逻辑任务、演绎逻辑任务、溯因逻辑任务； (3)算法任务(DyVal-A)，包括可达性任务和最大和路径任务。

B.3.1 DyVal-M

对于DyVal-M，我们设计的数学问题可以分为两大类：

算术：

给定一个T-DAG，DAG描述函数已经证明了前提：叶子节点和推理的中间步骤：非叶子节点。接下来，我们选择根节点作为需要求解的变量，我们附加问题“[根]的值是什么？” 到描述的最后，其中 [Root] 填充根变量的名称。

这是一个算术问题的描述：

aaa 的值为 9。

aad 的值为 4。

aae 通过对 aad 的值求平方根来得到它的值。

aab 的值为 3。

aac 的值是通过将 aaa 和 aab 的值相加得到的。

aaf的值是通过aac的值减去aae的值得到的。

计算aaf的结果。如果无法计算解决方案，请回答“N/A”。与地面真值相比，确保结果的相对精度在 0.0001（或 0.01%）之内。确保最终结果以“<<<”开头并以“>>>”结尾，例如，如果答案为 1，则最终结果应为 <<<1>>>。

线性方程组：

与算术相比，具有多个变量的线性方程呈现出更高程度的复杂性。我们使用描述为 $a_{1}x+b_{1}y=c_{1},a_{2}x+b_{2}y=c_{2}$ 的二变量线性方程。系数被分配一个随机值。我们要求大语言模型求解这个线性系统的 $x, y$ 的值。请注意，构建此类线性方程不需要 T-DAG 或 G-DAG。为了引入额外的挑战，一些系数可以替换为从 T-DAG 根导出的值，从而强制采用两步解决问题的方法：首先计算 DAG 的系数，然后求解线性方程。请注意，在我们的实验中，线性方程任务的树深度和宽度分别为 $(1,1),(2,2),(3,2),(4,2)$ 。 $(1,1)$ 表示直接给出替换系数的值。

给定以下具有两个变量的线性方程组：

-7 x + aac0 y = 1

8 x + -1 y = 10

aac0的计算定义为：

aab0 的值为 4。

aaa0 的值为 9。

aac0 的值是通过将 aaa0 和 aab0 的值相加得到的。

确定 x 和 y 的值。与地面实况值相比，确保结果的相对精度在 0.001（或 0.1%）之内。 Your response should be formatted as: <<<x’s value y’s value>>>, e.g., if x=1 and y=2, then it should be <<<1 2>>>

B.3.2 DyVal-L

由于逻辑构造中固有的内在进展和依赖性，DyVal-L 还与 T-DAG 的结构化表示具有天然的兼容性。任务是：

布尔逻辑：

与算术任务类似，它主要围绕使用运算符 $\mathrm{AND,OR,NOT}$ 对 $\mathrm{True}$ 和 $\mathrm{False}$ 值进行操作和组合。问题呈现为： [Root]的真值是多少？.

这是一个布尔逻辑问题的描述：

aaa 是真的。

aab 的值等于（不是 aaa）。

aac 的值等于（不是 aab）。

计算aac的结果。如果无法计算解决方案，请回答“N/A”。 Ensure your final result begins with ’<<<’ and ends with ’>>>’, for example, if the answer is True, your final result should be <<<True>>>.

演绎逻辑：

演绎逻辑的过程与布尔逻辑类似，但与布尔逻辑推理相比，演绎引入了一点复杂性。例如，给定前提 $A$ （True）和 $B$ （False）以及关系 $(A\land B)\rightarrow C$ ，结论 $C$ 的值仍然存在未确定，因为连词 $(A\land B)$ 为 false。鉴于 T-DAG 的描述，问题被表述为根据推导规则，[Root]的值是多少？

这是一个演绎逻辑问题的描述：

aab 是真的。

aaa 是真的。

（aaa 和 aab）-> aac。

aad 是假的。

（不是 aad）-> aae。

（aac 或 aae）-> aaf。

符号“->”表示演绎关系，例如，A -> B 意味着如果 A 为真，则 B 为真。如果 A 为假，则 B 的真值仍不确定 (N/A)。扣除aaf的结果。如果解不能被绑架，则回答“N/A”。 Ensure your final result begins with ’<<<’ and ends with ’>>>’, for example, if the answer is True, your final result should be <<<True>>>.

归纳逻辑：

它的目的是根据观察到的结果假设最可能的原因或解释。使用 T-DAG 时，我们为根节点分配一个随机值。然后，我们随机选择一个叶子节点，问题是根据给定的 DAG 结构和根的值来确定叶子节点的值。任务描述是假设[Root]的值为[value]，那么[Node]的值为多少？

以下是溯因逻辑问题的描述：

（aaa 或 aab）-> aac。

（不是 aac）-> aad。

假设 aad 为 False，那么 aab 的值是多少？

符号“->”表示演绎关系，例如，A -> B 意味着如果 B 为假，则 A 为假。如果 B 为真，则 A 的真值仍不确定 (N/A)。如果无法推导出解，请回答“N/A”。 Ensure your final result begins with ’<<<’ and ends with ’>>>’, for example, if the answer is True, your final result should be <<<True>>>.

B.3.3 DyVal-A

DyVal-A 任务适合 D-DAG，因为它们旨在对现实世界的应用程序进行建模。在许多可以抽象和建模为 G-DAG 的问题中，我们选择两个有代表性的任务。

可达性：

G-DAG 发挥作用的一个典型例子是建模问题，例如 DAG 中两个节点的可达性。给定代表城市的各种节点以及指示它们之间的道路的链接，问题模型可以帮助推断是否存在从一个城市到另一个城市的路线。因此，该任务的描述是：“[Node2]能否到达[Node1]”，其中Node1和Node2是从G-DAG中的节点中随机选择的。

给定一个有向图：

aai 指向：（无）。

aac 指向：(aai)。

aaj 指向：(aai)。

aah 指向：（aai、aac、aaj）。

aag 指向：(aac)。

aaf 指向：（aag、aah、aaj）。

aab 指向：（aaf、aah）。

aaa 指向：（aag、aah、aaf、aaj）。

aae 指向：（aai、aac、aaa）。

aad 指向：（aab、aaf、aae）。

从aag出发可以到达aaf吗？

如果可连接，则回复"<<真>>"，否则回复"<<假>>"。

最大总和路径：

与可达性问题相比，最大和路径更加复杂。该问题为每个城市分配一个值，然后要求从两个城市找到一条路径，该路径经过的值之和最大。它要求大语言模型找出两个节点之间的所有路径，然后确定具有最大值的路径。该任务的描述是从 [节点 1] 到 [节点 2] 的最大和路径是多少？

给定一个有向图，其中每个节点都分配有值：

aaj 指向：（无）。

aah 指向：（无）。

aai 指向：（啊）。

aag 指向：(aai)。

aac 指向：(aag)。

aab 指向：(aac, aag)。

aaf 指向：(aai)。

aae 指向：（aac、aah）。

aad 指向：（aag、aae、aaj）。

aaa 指向：（aae、aai、aaj、aad）。

aaj的值为9

aab的值为8

aah的值为3

aaf的值为3

aai的值为3

aae的值为3

aad的值为6

aac的值为4

aag的值为8

aaa的值为4

从 aaa 到 aae 的最大和路径是多少？例如，路径 A->B->C 的值由节点 A、B 和 C 的值相加得出。请将您的回答格式化为 <<答案>>。例如，如果答案为 1，则应表示为 <<<1>>>。

Dynamic Evaluation of Large Language Models for Reasoning Tasks (8)

Dynamic Evaluation of Large Language Models for Reasoning Tasks (9)

B.4描述顺序

•
拓扑顺序：该方法以每个节点在其所有后代节点之后引入的方式对节点的描述进行排序。这样的顺序确保叶节点在使用它们的任何操作（例如，加法或逻辑 AND）之前进行布局。
•
颠倒的拓扑顺序：采用一种几乎违反直觉的方法，该顺序首先强调最终节点或结果。一旦这些结果被揭露，叙述就会回溯其步骤，向后导航到根节点或主要输入。
•
随机顺序：这种非结构化方法以随机序列呈现节点，而不考虑它们在 DAG 中的依赖关系。这种无序的叙述挑战了大语言模型独立连接点并推导出模式。

B.5 使用 GPT-4 生成描述函数的潜力

在本节中，我们将探讨使用 GPT-4 生成更自然、更情境化的问题描述的潜力，而不是使用 B.3 节中的简单描述。

我们只需向 GPT-4 提供以下指令：

“这是算术问题的描述，请使用以下信息生成应用数学测试。不要更改确切的数字。请注意，测试应该是上下文化的、真实的应用程序测试，而不是简单的描述。” 其次是 DyVal 生成的问题，例如 DyVal-M 中的问题。

那么，GPT-4就会生成如下更形象的应用问题：

问题：想象一下您正在管理一个小仓库。仓库总存储容量为9个大板条箱（用‘aaa’表示）。您还有一个额外的区域可以存放 3 个以上的板条箱（用“aab”表示）。最近，您购买了一套 4 个可堆叠的特殊板条箱（用“aad”表示）。堆叠后，这些板条箱占据 2 个普通板条箱的空间。您的任务是在添加可堆叠板条箱并利用额外的存储区域后计算仓库的新总存储容量。步骤：确定总初始容量 (aaa)。确定额外容量 (aab)。计算可堆叠板条箱 (aae) 占用的有效空间 - 堆叠后将它们视为一个单元。通过添加初始容量和附加容量 (aac) 来计算新的总容量。最后，考虑可堆叠板条箱 (aaf) 占用的空间来调整总容量。问题：调整后仓库新的总存储容量是多少？（使用给定的值和运算来解决问题）

虽然上述应用问题看起来比普通问题更加生动，但实际上验证其基本原理和正确性具有挑战性。例如，问题是自然的吗？上下文正确吗？请注意，GPT-4 倾向于在生成新问题之前先计算原始问题的答案，这可能会积累包括问题理解、应用程序生成和计算在内的错误。因此，虽然我们指出这种做法的可行性，但现阶段很难验证，应该留待以后的工作。

附录C证明

Theorem C.1.

证明。

为了确定总体概率，我们分析每个深度的可能性，然后将这些概率相乘。对于深度 $i$ ，节点数为 $w^{i-1}$ 。

对于深度 $i,1\leq i\leq d-1$ 。由于这些节点是非叶节点，因此它们在两个独立生成的 DAG 中相同的概率就是它们全部具有相同操作的可能性： $p_{i}=\frac{1}{k^{w^{i-1}}}.$

对于深度 $d$ 处的叶节点，它们在两个 DAG 中相同的概率为： $p_{d}=\frac{1}{n^{w^{d-1}}}.$

因此，两个 DAG 相同的总体概率 $P$ 为： $P=\prod_{i=1}^{d-1}p_{i}\times p_{d}.$

代入上面的表达式并化简得到结果： $P=\left(k^{\frac{w^{d-1}-1}{w-1}}\times n^{w^{d-1}}\right)^{-1}.$

注意：我们认为两棵树是不同的，即使它们仅在操作顺序上不同。例如，表示 $3\times 5$ 的树被认为与表示 $5\times 3$ 的树不同。排除此类情况可能并非微不足道，而且不太可能显着影响赔率。

∎

Theorem C.2.

给定一个具有 $n$ 个节点的通用 DAG，其中每个节点最少具有 $l\geq 1$ 个链接，此配置的两个随机选择的 DAG 相同的概率下限为 $\left((n-1)!\right)^{-1}$ .

证明。

考虑一个 DAG，其中每个节点只有一个传出链接。第一个节点可以连接到任何剩余的 $n-1$ 节点。随后，第二个节点可以连接到任何剩余的 $n-2$ 节点，不包括已经连接到第一个节点的节点。按照此逻辑，第三个节点可以连接到任何 $n-3$ 未连接的节点，依此类推。

因此，在这些约束下可以构造的不同 DAG 的总数由以下公式给出： $(n-1)\times(n-2)\times\ldots\times 2\times 1=(n-1)!$

给定两个随机选择的此类 DAG，它们相同的可能性是唯一 DAG 数量的倒数： $\frac{1}{(n-1)!}$

当考虑具有最少 $l\geq 1$ 链接的节点的 DAG 的一般情况时，该概率充当下界，从而证明该定理。

∎

附录D实验细节

D.1实验环境

所有实验均在配备 16GB 内存的 NVIDIA V100 GPU 和 80GB 内存的 A100 GPU 的工作站上进行。对于GPT-3.5-Turbo和GPT-4，我们使用OpenAI的API进行推理，版本是gpt-3.5-turbo-0613和gpt-4-0613。对于 Llama2 模型，我们从 Llama2 github 存储库下载³³3https://github.com/facebookresearch/llama 并按照说明进行操作⁴⁴4https://github.com/huggingface/transformers/blob/main/src/transformers/models/llama/convert_llama_weights_to_hf.py 将它们转换为 Huggingface 模型。对于 Vicuna-13B-v1.3，我们从其 github 存储库下载了它⁵⁵5https://github.com/lm-sys/FastChat。其余模型可以直接通过huggingface下载。

D.2 提示

•
算术：
这是一个算术问题的描述：
{}
计算 {} 的结果。如果无法计算解决方案，请回答“N/A”。与地面真值相比，确保结果的相对精度在 0.0001（或 0.01%）之内。确保最终结果以“<<<”开头并以“>>>”结尾，例如，如果答案为 1，则最终结果应为 <<<1>>>。
•
线性方程：
给定以下具有两个变量的线性方程组：
{}
确定 x 和 y 的值。与地面实况值相比，确保结果的相对精度在 0.001（或 0.1%）之内。 Your response should be formatted as: <<<x’s value y’s value>>>, e.g., if x=1 and y=2, then it should be <<<1 2>>>
•
布尔逻辑：
这是一个布尔逻辑问题的描述：
{}
计算 {} 的结果。如果无法计算解决方案，请回答“N/A”。 Ensure your final result begins with ’<<<’ and ends with ’>>>’, for example, if the answer is True, your final result should be <<<True>>>.
•
演绎逻辑：
这是一个演绎逻辑问题的描述：
{}
符号“->”表示演绎关系，例如，A -> B 意味着如果 A 为真，则 B 为真。如果 A 为假，则 B 的真值仍不确定 (N/A)。推导 {} 的结果。如果无法推导出解决方案，请回答“N/A”。 Ensure your final result begins with ’<<<’ and ends with ’>>>’, for example, if the answer is True, your final result should be <<<True>>>.
•
归纳逻辑：
以下是溯因逻辑问题的描述：
{}
符号“->”表示演绎关系，例如，A -> B 意味着如果 B 为假，则 A 为假。如果 B 为真，则 A 的真值仍不确定 (N/A)。如果解不能被推断，则回答“N/A”。 Ensure your final result begins with ’<<<’ and ends with ’>>>’, for example, if the answer is True, your final result should be <<<True>>>.
•
可达性：
给定一个有向图：
{}
如果可连接，则回复"<<真>>"，否则回复"<<假>>"。
•
最大总和路径：
给定一个有向图，其中每个节点都分配有值：
{}
例如，路径 A->B->C 的值由节点 A、B 和 C 的值相加得出。请将您的回答格式化为 <<答案>>。例如，如果答案为 1，则应表示为 <<<1>>>。

D.3评估集

我们将任务分为四个复杂级别，表示为 D1 至 D4。对于依赖一般有向无环图 (DAG) 的任务，节点计数设置为 ${7,10,15,20}$ 。这些节点中的每一个都拥有 ${3,4,6,8}$ 的最大链接范围和 $1$ 的最小链接计数。相反，对于使用基于树的 DAG 的任务，树的深度和宽度被定义为 $(2,2),(3,2),(3,3),(4,2)$ ，按照复杂性递增的顺序。

这些数据集的范围从简单到复杂。为了说明这一点，树深度为 2 的算术问题代表基本的二变量算术计算。相比之下，树深度为 4 的任务表现出更高的复杂性，需要多个推理步骤来解决。

D.4实验结果详情

我们不报告 Flan-T5-large、phi-1.5、WizardMath-13B 和 Xwin-13B 的结果，因为即使在我们的 DyVal 生成的最简单的评估集上，它们的性能也几乎为 0。因此，我们广泛运行了其余四个模型的结果：Vicuna-13B-v1.3、Llama2-13B-chat、GPT-3.5-Turbo 和 GPT-4。表2、3和4报告了这些模型在不同复杂度下的详细结果（平均 $\pm$ 标准误差）（D1 $\sim$ D4）和不同的描述生成顺序（拓扑、逆拓扑和随机顺序）。

在可达性任务中，随着任务难度的提升，Llama2-13B-chat 的性能反而得到了提高。经过调查，Llama2-13B-chat 本质上采用了跨数据集的随机猜测。 “正确”答案的比例有所增加（从 D1 中的 40% 增加到 D3 中的 60%），而“错误”答案几乎不存在。其余的都是无响应，从而提高了整体准确性。该观察与第 4.4 节中的观察类似，我们研究了不同模型大小的影响。

此外，生成描述顺序会影响结果：在可达性任务中，当给出与拓扑顺序相反的顺序时，GPT-4 的准确率下降了 13.67%。实验结果详见附录D.4。

Task

Dataset

GPT4

ChatGPT

Llama2-13b-chat

Vicuna-13b-v1.3

Topo

Reversed

Rand

Topo

Reversed

Rand

Topo

Reversed

Rand

Topo

Reversed

Rand

Arithmetic

98.00

\pm

0.00

100.00

\pm

0.00

99.00

\pm

1.00

95.00

\pm

0.40

99.53

\pm

0.23

97.27

\pm

0.90

12.33

\pm

0.90

38.67

\pm

1.86

24.20

\pm

1.93

2.73

\pm

0.64

0.53

\pm

0.58

2.40

\pm

0.69

94.17

\pm

1.15

95.67

\pm

1.04

95.50

\pm

1.00

90.47

\pm

1.17

92.27

\pm

0.12

92.07

\pm

0.31

5.73

\pm

1.01

3.00

\pm

0.87

4.60

\pm

0.35

1.53

\pm

0.46

0.07

\pm

0.12

0.60

\pm

0.20

85.83

\pm

1.89

87.67

\pm

1.61

84.35

\pm

2.26

76.20

\pm

2.80

78.20

\pm

3.41

78.47

\pm

3.83

1.07

\pm

0.12

2.47

\pm

0.23

3.07

\pm

0.76

1.13

\pm

0.31

0.07

\pm

0.12

0.20

\pm

0.00

79.33

\pm

1.61

81.33

\pm

1.89

77.67

\pm

2.57

72.40

\pm

1.51

72.73

\pm

1.68

69.40

\pm

2.25

2.80

\pm

0.53

0.80

\pm

0.35

1.20

\pm

0.69

0.20

\pm

0.20

0.07

\pm

0.12

0.00

\pm

0.00

LinearEquation

56.33

\pm

1.15

58.50

\pm

0.00

56.33

\pm

3.01

36.20

\pm

1.04

36.20

\pm

2.42

36.27

\pm

2.66

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

42.67

\pm

2.36

42.17

\pm

1.89

43.00

\pm

2.65

27.67

\pm

1.75

30.87

\pm

1.72

29.60

\pm

2.55

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

44.33

\pm

2.52

43.17

\pm

6.60

43.83

\pm

2.93

19.40

\pm

1.06

29.67

\pm

1.29

23.87

\pm

2.10

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

38.83

\pm

4.25

37.17

\pm

3.82

34.00

\pm

1.73

13.80

\pm

1.06

21.07

\pm

0.50

14.93

\pm

2.05

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

Task

Dataset

GPT4

ChatGPT

Llama2-13b-chat

Vicuna-13b-v1.3

Topo

Reversed

Rand

Topo

Reversed

Rand

Topo

Reversed

Rand

Topo

Reversed

Rand

BooleanLogic

100.00

\pm

0.00

100.00

\pm

0.00

100.00

\pm

0.00

99.80

\pm

0.20

99.87

\pm

0.23

97.60

\pm

0.53

25.33

\pm

1.17

12.73

\pm

0.23

19.53

\pm

1.33

77.93

\pm

1.47

84.93

\pm

0.12

81.13

\pm

0.12

100.00

\pm

0.00

99.33

\pm

0.58

100.00

\pm

0.00

98.80

\pm

0.20

99.40

\pm

0.20

96.80

\pm

0.40

7.87

\pm

0.61

17.00

\pm

1.40

18.67

\pm

0.70

43.00

\pm

1.00

68.40

\pm

2.12

53.93

\pm

1.55

97.00

\pm

1.00

100.00

\pm

0.00

100.00

\pm

0.00

99.60

\pm

0.35

98.00

\pm

0.69

92.93

\pm

1.10

13.53

\pm

1.55

20.07

\pm

1.51

17.93

\pm

0.50

28.93

\pm

2.19

42.47

\pm

2.10

39.67

\pm

2.58

96.00

\pm

2.00

100.00

\pm

0.00

99.67

\pm

0.58

99.40

\pm

0.20

95.47

\pm

0.23

90.47

\pm

0.64

10.87

\pm

0.42

13.93

\pm

1.30

16.33

\pm

0.99

29.20

\pm

1.59

29.73

\pm

2.12

29.80

\pm

1.25

DeductiveLogic

100.00

\pm

0.00

88.17

\pm

1.26

95.17

\pm

1.53

81.87

\pm

0.76

82.47

\pm

1.42

81.53

\pm

2.72

45.40

\pm

1.25

56.27

\pm

1.03

49.13

\pm

0.42

11.87

\pm

0.31

44.60

\pm

1.11

20.73

\pm

0.99

98.50

\pm

1.50

92.50

\pm

0.87

97.17

\pm

1.61

64.60

\pm

1.60

65.93

\pm

1.14

63.73

\pm

3.42

43.60

\pm

2.60

34.47

\pm

2.05

43.07

\pm

3.14

48.00

\pm

2.31

38.73

\pm

2.05

44.87

\pm

0.61

98.17

\pm

1.53

87.83

\pm

2.52

98.33

\pm

1.04

63.47

\pm

2.48

61.60

\pm

2.80

63.33

\pm

1.86

26.60

\pm

1.91

33.47

\pm

1.68

26.27

\pm

1.21

46.67

\pm

1.75

45.47

\pm

2.72

34.67

\pm

2.21

96.17

\pm

1.04

84.33

\pm

1.44

90.67

\pm

5.03

56.40

\pm

1.78

57.33

\pm

1.30

56.47

\pm

3.00

20.60

\pm

1.56

29.20

\pm

1.59

20.60

\pm

2.69

38.07

\pm

1.15

37.40

\pm

1.22

33.40

\pm

3.17

AbductiveLogic

93.50

\pm

0.50

83.33

\pm

3.33

91.00

\pm

1.00

37.93

\pm

2.14

49.33

\pm

3.59

38.07

\pm

2.61

3.73

\pm

0.23

0.00

\pm

0.00

1.73

\pm

0.76

56.40

\pm

2.25

31.60

\pm

1.22

45.53

\pm

2.10

78.83

\pm

6.37

48.50

\pm

5.57

63.50

\pm

4.09

53.47

\pm

2.50

59.80

\pm

3.41

56.60

\pm

3.36

21.47

\pm

1.17

10.53

\pm

1.42

17.67

\pm

1.86

19.80

\pm

0.20

25.47

\pm

1.72

22.00

\pm

1.39

64.67

\pm

5.51

49.83

\pm

3.18

58.50

\pm

3.28

56.13

\pm

3.06

60.80

\pm

1.06

57.87

\pm

2.81

12.60

\pm

1.51

7.60

\pm

2.25

8.07

\pm

0.95

20.40

\pm

1.31

14.80

\pm

0.92

17.20

\pm

0.87

Task

Dataset

GPT4

ChatGPT

Llama2-13b-chat

Vicuna-13b-v1.3

Topo

Reversed

Rand

Topo

Reversed

Rand

Topo

Reversed

Rand

Topo

Reversed

Rand

Reachability

83.67

\pm

1.15

92.67

\pm

1.15

85.33

\pm

3.06

59.53

\pm

0.76

63.87

\pm

1.51

63.40

\pm

2.42

21.60

\pm

1.20

23.20

\pm

0.80

26.87

\pm

1.47

11.47

\pm

1.29

29.80

\pm

2.03

23.53

\pm

2.20

85.00

\pm

0.00

91.00

\pm

3.00

83.00

\pm

2.00

53.53

\pm

3.97

56.73

\pm

2.81

54.27

\pm

1.79

34.60

\pm

1.40

26.87

\pm

1.27

26.27

\pm

1.17

12.07

\pm

0.58

31.73

\pm

0.64

21.73

\pm

0.50

68.17

\pm

2.93

77.67

\pm

0.58

67.67

\pm

2.31

49.67

\pm

2.55

57.53

\pm

1.90

53.73

\pm

3.13

39.33

\pm

2.08

39.33

\pm

1.80

37.47

\pm

1.01

13.60

\pm

1.00

29.67

\pm

3.75

21.80

\pm

2.88

63.00

\pm

1.00

76.67

\pm

0.58

74.33

\pm

2.52

49.40

\pm

2.71

59.13

\pm

3.49

52.33

\pm

2.89

33.67

\pm

2.97

41.53

\pm

1.22

38.60

\pm

0.92

10.80

\pm

0.72

30.73

\pm

1.53

22.00

\pm

1.64

Max SumPath

37.33

\pm

5.86

30.67

\pm

6.11

26.67

\pm

6.03

29.47

\pm

2.08

29.67

\pm

2.77

25.27

\pm

0.83

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

38.67

\pm

8.14

27.00

\pm

8.54

25.67

\pm

5.69

14.20

\pm

1.25

13.33

\pm

2.37

11.33

\pm

0.76

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

21.33

\pm

4.04

17.00

\pm

5.00

16.67

\pm

4.16

6.40

\pm

1.64

8.40

\pm

1.51

7.60

\pm

0.72

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

16.67

\pm

2.52

12.00

\pm

2.00

10.67

\pm

0.58

5.07

\pm

0.76

6.20

\pm

1.11

6.67

\pm

1.33

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

\pm

0.00

D.5 案例研究详细信息

我们选择了 GPT-4 的算术、演绎逻辑、溯因逻辑和可达性方面最具挑战性的数据集的 20 个失败案例。

在这里，我们为每种错误类型提供一个失败案例。

部分计算错误

据观察，GPT-4 在某些情况下会在中间计算步骤中犯错误，而在其余步骤中保持正确性。这种特征异常并不孤立于复杂的计算。事实上，不仅是复杂的计算，看似简单的计算也可能会被错误地计算出来。这种观察到的行为与（Dziri等人，2023）提出的研究结果一致，他们强调低级学习模型（大语言模型）偶尔会产生部分准确的结果，特别是在多位数乘法的领域。

输入：这是一个算术问题的描述：aaj 的值为 7。aak 通过对 aaj 的值进行平方来获得其值。aah 的值为 6。aag的值为2。aai 的值是通过 aag 的值除以 aah 的值得到的。aan 的值是通过将 aai 和 aak 的值相乘得到的。aaa 的值为 6。aab 通过对 aaa 的值进行平方来获得其值。aac的值为8。aad 的值为 1。aae 的值是通过将 aac 的值除以 aad 的值得到的。aaf 的值是通过 aab 的值除以 aae 的值得到的。aao 的值是通过将 aaf 和 aan 的值相加得到的。计算aao的结果。如果无法计算解决方案，请回答“N/A”。与地面真值相比，确保结果的相对精度在 0.0001（或 0.01%）之内。确保最终结果以“<<<”开头并以“>>>”结尾，例如，如果答案为 1，则最终结果应为 <<<1>>>。GPT-4 的回应：首先，我们一步步计算一下数值：aaj=7aak = aaj ${}^{2}$ = 7 ${}^{2}$ = 49啊=6aag = 2aai = aag / aah = 2 / 6 = 0.3333aan = aai * aak = 0.3333 * 49 = 16.3167 （应为 16.3317）aaa=6aab = aaa ${}^{2}$ = 6 ${}^{2}$ = 36aac = 8aad = 1aae = aac / aad = 8 / 1 = 8aaf = aab / aae = 36 / 8 = 4.5aao = aaf + aan = 4.5 + 16.3167 = 20.8167所以，aao 的结果是 20.8167。因此，最终结果为<<<20.8167>>>。基本事实： 20.8333

不正确的推理

当执行推理任务时，GPT-4 偶尔会在规则解释方面出现问题，尤其是在演绎逻辑任务中。

输入：以下是溯因逻辑问题的描述：（aaa 和 aab）-> aac。（aae 或 aaf）-> aag。（aah 或 aai）-> aaj。（aag 或 aaj）-> aak。（不是 aac）-> aad。（aad 或 aak）-> aan。假设 aan 为 False，aab 的值是多少？符号“->”表示演绎关系，例如，A -> B 意味着如果 B 为假，则 A 为假。如果 B 为真，则 A 的真值仍不确定 (N/A)。如果解不能被推断，则回答“N/A”。 Ensure your final result begins with ’<<<’ and ends with ’>>>’, for example, if the answer is True, your final result should be <<<True>>>.GPT-4 的回应：假设 aan 为 False，则意味着 aad 或 aak 必须为 False （aad 和 aak 都应为 False）（因为 aad 或 aak -> aan）。如果 aak 为 False，则 aag 或 aaj 必须为 False（因为 aag 或 aaj -> aak）。如果 aag 为 False，则 aae 或 aaf 必须为 False（因为 aae 或 aaf -> aag）。如果 aaj 为 False，则 aah 或 aai 必须为 False（因为 aah 或 aai -> aaj）。然而，这些条件都没有提供有关 aab 的任何信息。因此，aab 的值不能从给定的信息中推断出来。So, the answer is <<<N/A>>>.基本事实：不适用

自相矛盾

GPT-4 有时会在溯因逻辑任务中的相同推理过程中提出自相矛盾的假设。

输入：以下是溯因逻辑问题的描述：（aah 或 aai）-> aaj。（不是 aaj）-> aak。（aad 或 aae）-> aaf。（aaa 或 aab）-> aac。（aac 或 aaf）-> aag。（aag 或 aak）-> aan。假设 aan 为 False，aah 的值是多少？符号“->”表示演绎关系，例如，A -> B 意味着如果 B 为假，则 A 为假。如果 B 为真，则 A 的真值仍不确定 (N/A)。如果解不能被推断，则回答“N/A”。 Ensure your final result begins with ’<<<’ and ends with ’>>>’, for example, if the answer is True, your final result should be <<<True>>>.GPT-4 的回应：由于 aan 为 False，因此 aag 或 aak 中至少有一个必须为 False。然而，我们不知道哪一个是假的，所以我们无法确定aah的值。（此推理步骤与前一个示例相矛盾，其中 GPT-4 假设 aah 为 False。）因此，答案是“不适用”。<<<不适用>>> 基本事实：不适用

未经证实的回应

在推理和算法任务中反复观察到的一个现象是 GPT-4 倾向于在没有附带理由的情况下提供答案。这些简洁、仅回答问题的回答引发了人们对 GPT-4 理解深度以及其方法是否基于实际理解或仅仅是记忆结果的担忧。该错误多发生在算法任务中，偶尔发生在逻辑推理任务中。

输入：以下是溯因逻辑问题的描述：（aaa 或 aab）-> aac。（aad 或 aae）-> aaf。（aac 或 aaf）-> aag。（不是啊）-> aai。（不是 aaj）-> aak。（aai 或 aak）-> aan。（aag 或 aan）-> aao。假设 aao 为 False，那么 aaa 的值是多少？符号“->”表示演绎关系，例如，A -> B 意味着如果 B 为假，则 A 为假。如果 B 为真，则 A 的真值仍不确定 (N/A)。如果解不能被推断，则回答“N/A”。 Ensure your final result begins with ’<<<’ and ends with ’>>>’, for example, if the answer is True, your final result should be <<<True>>>.GPT-4 的回应：<<<不适用>>>基本事实：不适用

教学监督

有趣的是，虽然 GPT-4 通常可以准确计算，但在精确遵循给定提示中描述的输出指令时，它有时会出现问题。这种差异表明，即使底层计算能力健全，模型解析和遵守复杂教学细节的能力也存在潜在差距。

输入：这是一个算术问题的描述：aac的值为6。aai的值为6。aag 的值为 8。aan的值是用aah的值减去aak和aae的值之和得到的。aao 的值是通过将 aae 和 aan 和 aae 的值相乘得到的。aah 的值是通过将 aaf、aag 和 aae 的值相乘得到的。aap的值为1。aaa 的值为 6。aad 通过取 aac 的值的平方根来获取其值。aaj 的值为 4。aak的值是用aai的值减去aaj和aae的值之和得到的。aaq的值为7。aar 的值是通过 aap 的值除以 aaq 的值得到的。aab 通过对 aaa 的值进行平方来获得其值。aaf 的值为 10。aae 的值是通过将 aab 和 aad 以及 aai 的值相乘得到的。计算aao的结果。如果无法计算解决方案，请回答“N/A”。与地面真值相比，确保结果的相对精度在 0.0001（或 0.01%）之内。确保最终结果以“<<<”开头并以“>>>”结尾，例如，如果答案为 1，则最终结果应为 <<<1>>>。GPT-4 的回应：让我们一步步解决这个问题：1。 aac = 62。 aai = 63。 aag = 84。 AAA=65。 aad = sqrt(aac) = sqrt(6)6。 aaj = 47。 aaq = 78。 aap = 19。 aaf = 1010。 aab = aaa ${}^{2}$ = 6 ${}^{2}$ = 3611。 aae = aab * aad * aai = 36 * sqrt(6) * 612。 aak = aai - (aaj + aae) = 6 - (4 + 36 * sqrt(6) * 6)13。 aah = aaf * aag * aae = 10 * 8 * 36 * sqrt(6) * 614。 aan = aah - (aak + aae) = 10 * 8 * 36 * sqrt(6) * 6 - (6 - (4 + 36 * sqrt(6) * 6) + 36 * sqrt(6) * 6)15。 aao = aae * aan * aae = (36 * sqrt(6) * 6) * (10 * 8 * 36 * sqrt(6) * 6 - (6 - (4 + 36 * sqrt(6) * 6) + 36 * sqrt(6) * 6)) * (36 * sqrt(6) * 6)这是一个复杂的计算和不可能进一步简化它。然而，很明显，结果将是一个非常大的数字。由于该问题没有对变量的值提供任何约束，因此我们不能说该解决方案是“N/A”。（该方程是正确的，但 GPT-4 并未简化它。在我们的实验中，我们发现 GPT-4 可以处理大数字，因此错误并非源自它们。）所以，aao的结果是一个非常大的数字，无法进一步简化。基本事实： 11848342359.78579

D.6 不同复杂性约束的详细信息

如图5所示，我们通过调整单个约束同时保持其他约束不变来系统地改变 GPT-3.5-Turbo 的复杂程度。具体来说，我们探讨了随着我们逐步调整深度、宽度、#nodes、#max 链接、额外链接的数量以及算术、布尔逻辑和演绎逻辑任务的随机描述数量，性能指标如何演变。为了综合评估复杂性约束的影响，对各种参数进行了精心调整。下面解释了所采用的配置：

•
深度约束：保持宽度为 $2$ ，既不添加随机链接，也不嵌入额外描述（均设置为 0），深度系统地变化，值设置为 $2,3,4,5,$ 和 $6$ 。
•
宽度约束：使用固定深度 $3$ ，添加随机链接并嵌入额外描述，均中和为 0，使用值 $2,3,4,5,$ 和 $6$
•
随机链接添加约束：为此，保持 $4$ 的深度和 $2$ 的宽度，并将额外描述设置为 0。引入的随机链接的数量变化为 $0,1,2,3,$ 和 $4$ 。应该强调的是，由于固有的非循环约束，某些节点可能会阻止添加额外的链接。
•
嵌入额外描述：深度和宽度分别固定为 $4$ 和 $2$ ，并且不添加随机链接（设置为 0），嵌入的额外描述的级别被校准为 $0,1,2,3,$ 和 $4$ 。

在这些变化中，我们的结果始终强调了一个显着的趋势：随着这些复杂性参数的增加，任务变得更加复杂，大语言模型逐渐陷入困境，强调了任务复杂性增加所带来的固有挑战。可以看出，深度是基于树的 DAG 最有影响力的复杂性约束，表明大语言模型难以处理需要更多推理步骤的问题。

D.7即时工程细节

Prompt engineering	Arithmetic	LinearEquation	DeductiveLogic	AbductiveLogic	Reachability	Max SumPath
Vanilla	42.13	14.93	56.40	54.33	49.40	5.07
CoT (Wei et al., 2022)	42.33	21.93	52.93	43.73	47.73	1.93
Fewshot (Brown et al., 2020)	47.86	2.40	35.93	41.60	81.80	12.20
Least2most (Zhou et al., 2023b)	36.73	12.47	44.07	38.80	76.53	8.07
APE (Zhou et al., 2023d)	45.20	23.40	44.67	53.13	62.80	8.87
SKiC (Chen et al., 2023)	32.07	13.70	63.00	78.27	71.40	11.80

Size	Arithmetic	Boolean logic	Reachability
7b	13.07	28.93	29.53
13b	24.20	19.53	26.53
70b	29.71	28.30	47.38

我们探索了五种提示技术来评估它们对最具挑战性的数据集的潜在影响（不包括布尔逻辑，因为 GPT-3.5-Turbo 在最具挑战性的数据集上取得了可比较的结果）：Zeroshot-CoT （Wei 等人，2022），少样本（实验中为 3-shot）(Brown 等人, 2020)，从最少到最多 (Zhou 等人, 2023b)，自动提示工程(APE) (Zhou 等人, 2023d) 和情境技能 (SkiC) (Chen 等人, 2023)。这些技术的细节如下：

•
Zeroshot-CoT：一种允许模型从预训练中进行泛化的方法，而无需目标任务中的明确示例（Wei等人，2022）。
•
Fewshot（在我们的实验中为 3 次）：为模型提供目标任务中的少量示例，以帮助理解和推广到更广泛的任务（Brown 等人，2020）。
•
从最少到最多的提示：该技术逐步提供更具体的提示来指导模型的响应，并根据问题的难度级别调整提示（周等人，2023b）。
•
自动提示工程（APE）：一种自动设计提示以从模型中引出所需响应的方法，通常会最大化其性能（周等人，2023d）。
•
情境技能 (SKiC)：该方法旨在了解模型的固有技能，并在特定环境中利用它们来改进其输出（Chen 等人，2023）。

D.8 人类研究

我们在遵守当地法律法规的情况下进行了人体研究。人类受试者的人口统计数据如表7所示。

Sex	Age	Degree
Male: 63 (63%)	20-25: 75 (75%)	Bachelor: 62 (62%)
Female: 37 (37%)	26-36: 25 (25%)	Master: 38 (38%)

附录E微调细节

E.1 构建训练数据

训练数据包括问题及其相应的推理步骤。构造推理步骤与 DAG 描述类似。对于利用 T-DAG 的数学任务和逻辑推理任务，我们遵循拓扑顺序来描述中间体如何从其子级获取其值。对于算法任务来说，推理实际上是一种算法，因此，我们将算法中的每个步骤形式化为自然语言，最终形成推理步骤。以下列表提供了每个任务的训练示例。请注意，每个任务的推理步骤也非常灵活，可以通过更多细节进行增强，我们相信更详细的推理步骤将受益更多。

•
算术：
输入：
这是一个算术问题的描述：
aae 的值为 2。
aad 的值为 4。
aaf 的值是通过 aad 的值除以 aae 的值得到的。
aag 通过取 aaf 的值的平方根来获取其值。
计算 aag 的结果。如果无法计算解决方案，请回答“N/A”。与地面真值相比，确保结果的相对精度在 0.0001（或 0.01%）之内。确保最终结果以“<<<”开头并以“>>>”结尾，例如，如果答案为 1，则最终结果应为 <<<1>>>。
推理步骤：
AA是2.0
广告是4.0
aaf = aad / aae = 4.0 / 2.0 = 2.0
aag = sqrt aaf = sqrt(2.0) = 1.41421356
因此，答案是<<<1.41421356>>>
•
线性方程：
输入：
给定以下具有两个变量的线性方程组：
aag0 x + -6 y = -6
-2x+6y=0
aag0的计算定义为：
aab0 的值为 10。
aaa0 的值为 6。
aac0 的值是通过将 aaa0 和 aab0 的值相加得到的。
aad0 的值为 6。
aae0 的值为 1。
aaf0 通过将 aad0 和 aae0 的值相乘来获得其值。
aag0 通过将 aac0 和 aaf0 的值相乘来获得其值。
确定 x 和 y 的值。与地面实况值相比，确保结果的相对精度在 0.001（或 0.1%）之内。 Your response should be formatted as: <<<x’s value y’s value>>>, e.g., if x=1 and y=2, then it should be <<<1 2>>>
推理步骤：
我们首先求解线性方程的系数。
aab0 是 10.0
aaa0 是 6.0
aac0 = aaa0 + aab0 = 6.0 + 10.0 = 16.0
aad0 是 6.0
aae0 是 1.0
aaf0 = aad0 * aae0 = 6.0 * 1.0 = 6.0
aag0 = aac0 * aaf0 = 16.0 * 6.0 = 96.0
因此，aag0 = 96.0
接下来，求解线性方程：
96.0 x + -6.0 y = -6.0
-2.0 x + 6.0 y = 0.0
要消除“y”，请将第一个方程乘以 6，将第二个方程乘以 -6。这使得“y”的系数相等。从第一个方程中减去第二个方程得出：564.0x = -36.0。
根据方程 564.0x = -36.0，我们可以解出 x。
求解 x，我们得到 x = -0.06382979。
将 x = -0.06382979 代入第一个原始方程，我们得到： -6.0y = 0.12765957，从而得出 y = -0.0212766。
因此，答案是 <<<-0.06382979 -0.0212766>>>
•
布尔逻辑：
输入：
这是一个布尔逻辑问题的描述：
aaa 是假的。
aab 是真的。
aac 的值等于(aaa OR aab)。
aad 是假的。
aae 是假的。
aaf 的值等于(aad AND aae)。
aag 的值等于(aac AND aaf)。
计算 aag 的结果。如果无法计算解决方案，请回答“N/A”。 Ensure your final result begins with ’<<<’ and ends with ’>>>’, for example, if the answer is True, your final result should be <<<True>>>.
推理步骤：
aaa 是假的。
aab 是真的。
aac = (aaa 或 aab) = (假或真) = 真。
aad 是假的。
aae 是假的。
aaf = (aad 和 aae) = (假和假) = 假。
aag = (aac 和 aaf) = (真和假) = 假。
因此，答案是<<<错误>>>
•
演绎逻辑：
输入：
这是一个演绎逻辑问题的描述：
aaa 是假的。
aab 为假。
（aaa 或 aab）-> aac。
（不是 aac）-> aad。
符号“->”表示演绎关系，例如，A -> B 意味着如果 A 为真，则 B 为真。如果 A 为假，则 B 的真值仍不确定 (N/A)。推导出aad的结果。如果无法推导出解决方案，请回答“N/A”。 Ensure your final result begins with ’<<<’ and ends with ’>>>’, for example, if the answer is True, your final result should be <<<True>>>.
推理步骤：
aaa 是假的。
aab 为假。
（aaa 或 aab）=（假或假）-> aac。
前提(False OR False)为False，因此无法推导出aac的值，设置为N/A。
（不是 aac）=（不是 N/A）-> aad。
aad的值无法推导，设置为N/A。
Thus, the answer is <<<N/A>>>
•
归纳逻辑：
输入：
以下是溯因逻辑问题的描述：
（aad 或 aae）-> aaf。
（aaa 或 aab）-> aac。
（aac 或 aaf）-> aag。
假设 aag 为 False，那么 aab 的值是多少？
符号“->”表示演绎关系，例如，A -> B 意味着如果 B 为假，则 A 为假。如果 B 为真，则 A 的真值仍不确定 (N/A)。如果解不能被推断，则回答“N/A”。 Ensure your final result begins with ’<<<’ and ends with ’>>>’, for example, if the answer is True, your final result should be <<<True>>>.
推理步骤：
（aac 或 aaf）-> aag = False。
给定 aag 为 False，则前提 (aac OR aaf) 的值为 False，因此，aac 的值被推断为 False。
（aaa 或 aab）-> aac = False。
给定 aac 为 False，则前提 (aaa OR aab) 的值为 False，因此，aab 的值被推断为 False。
因此，答案是<<<错误>>>
•
可达性：
输入：
给定一个有向图：
aag 指向：（无）。
aaf 指向：（无）。
aaa 指向：（aag、aaf）。
aac 指向：(aaa)。
aab 指向：(aaa)。
aad 指向：(aaa)。
aae 指向：(aad)。
从aaf出发可以到达aag吗？
如果可连接，则回复"<<真>>"，否则回复"<<假>>"。
推理步骤：
从节点 aaf 开始搜索过程，目标是到达节点 aag。
检查节点aaf。
节点 aaf 没有未访问的子节点。向后移动。
穷尽所有可能的路径但未到达节点 aag。
因此，答案是<<<错误>>>
•
最大总和路径：
输入：
给定一个有向图，其中每个节点都分配有值：
aag 指向：（无）。
aaf 指向：(aag)。
aae 指向：（aaf、aag）。
aab 指向：(aaf)。
aad 指向：（aab、aae）。
aac 指向：(aag, aad)。
aaa 指向：（aac、aag、aae）。
aaa的值为3
aab的值为2
aaf的值为5
aag的值为5
aae的值为1
aad的值为7
aac的值为2
从 aab 到 aae 的最大和路径是多少？
例如，路径 A->B->C 的值由节点 A、B 和 C 的值相加得出。请将您的回答格式化为 <<答案>>。例如，如果答案为 1，则应表示为 <<<1>>>。
推理步骤：
开始搜索从节点aab到节点aae的最大和路径。
到达节点 aab，当前总和为 2。
现在，我们探索节点 aab 的子节点：aaf。
到达节点 aaf，当前总和为 7。
现在，我们探索节点 aaf 的子节点：aag。
到达节点 aag，当前总和为 12。
节点 aag 没有子节点。向后移动。
没有从节点 aab 到节点 aae 的路径。
Thus, the answer is <<<N/A>>>

E.2 训练数据和测试数据

E.2.1 训练数据

对于利用 T-DAG 的数学任务和逻辑推理任务，我们构建了四种类型的训练数据集。每个数据集由 500 个训练样本组成。所有这些类型的深度均为 3。设置如下：

1.
width=2，添加随机链接=0，嵌入随机descs=0，
2.
width=2，添加随机链接=1，嵌入随机descs=0，
3.
width=2，添加随机链接=1，嵌入随机descs=1，
4.
宽度=3，添加随机链接=0，嵌入随机描述=0。

对于算法任务，会生成两种类型的训练数据集：

1.
节点数 = 7，每个节点的最大链接 = 3，
2.
节点数 = 10，每个节点的最大链接数 = 4。

E.2.2测试数据

我们创建三种类型的测试数据：

1.
分发内 (ID) 测试集：难度级别与训练集的难度级别相匹配。
- •
  对于 T-DAG：深度=4，宽度=2，没有额外的链接和随机描述。
- •
  对于 G-DAG：节点数 = 15，最大链接数 = 6。
2.
分布外 (OOD) 测试集：
- •
  对于T-DAG：深度=4，宽度=2，没有额外的链接和随机描述。
- •
  对于 G-DAG：节点数 = 15，最大链接数 = 6。
3.
分布外困难 (OOD-hard) 测试集：
- •
  对于 T-DAG：深度 = 4，宽度 = 2，每个节点有一个额外链接和一个随机描述。
- •
  对于 G-DAG：节点数 = 20，最大链接数 = 8。

请注意，我们任务中 OOD 的定义主要取决于样本的不同复杂性，这些样本可能具有更高级的结构或描述。对于模型评估，使用DyVal生成的测试数据时，采用零样本设置。对于现有基准，上下文中提供了少量样本 COT 示例：GSM8K 和 SVAMP 的 4 个示例，FOLIO 和 RACO 的 3 个示例，DP 和 LCS 的 2 个示例。我们任务的评估结果如图10所示。

E.3 微调结果

我们使用 LORA (Hu 等人, 2022) 对 Llama2-13b-chat 进行了 3 个 epoch 的微调，其中排名为 $8$ ，比例因子为 $16$ 退出率为 $0.05$ 。我们使用了 $0.0003$ 学习率和批量大小 $128$ 。微调模型现有基准的结果如图6所示。

图10显示了按照第E.2.2节所述对我们的测试数据集进行微调后的结果。在我们的数据集上进行微调后，Llama2-13B-chat 在布尔逻辑、演绎逻辑和可达性等任务上的性能显着提高。然而，仍然存在明显的差距，特别是在数学任务、溯因逻辑和最大和路径等领域。

Dynamic Evaluation of Large Language Models for Reasoning Tasks (10)

附录F生成的数据集不平衡

我们的算法通过精心控制灵活的动态生成过程，可以轻松满足平衡要求。例如，在可达性任务中，我们可以删除生成的带有“False”标签的评估样本，直到生成带有“True”标签的样本。我们在表中展示了 GPT-3.5-Turbo 和 GPT-4 在平衡数据集中的结果 8. 平衡数据集中的结果与我们最初的发现相似：(1) GPT-3.5-Turbo 始终将所有问题预测为“True”，统一准确率为 50%。 (2)GPT-4表现出优异的性能。它在所有复杂性级别上都保持了显着更高的准确率。

Model	ChatGPT				GPT4
Complexity	D1	D2	D3	D4	D1	D2	D3	D4
Balanced	50	50	50	50	84.54	79.03	73.5	72.41
Imbalanced	63.87	54.27	53.73	52.33	85.33	83	67.67	74.33

附录G微调后的通用语言理解能力

我们使用我们在溯因逻辑和可达性数据集上生成的数据对 GPT-3.5-turbo-0613 进行了微调，因为 GPT-3.5 在这两个数据集上的表现最差。具体来说，我们为每个任务生成了 100 个跨复杂度级别 D1、D2 和 D3 的样本。我们在 GLUE 数据集中的几个基准任务上比较了原始模型和微调模型的性能。溯因逻辑和可达性任务的性能在 D4 任务上进行测试（与微调数据集不同）。如表所示 9，微调模型在 WNLI 和 QNLI 数据集上的性能下降。然而，微调模型在 CoLA、QQP 和 MRPC 数据集上取得了更好的结果。尽管结果好坏参半，但几个数据集的整体改进表明，对我们生成的数据集进行微调并不一定会损害一般语言理解能力。

	Abductive Logic	Reachability	SST-2	CoLA	WNLI	QNLI	QQP	MRPC
GPT3.5	55.27	50.00	93.29	77.00	59.15	80.00	76.50	73.0
GPT3.5-FT	85.10	96.53	93.23	78.00	45.07	72.50	78.00	77.5

附录 H自然语言任务的灵活性

最后，我们讨论DyVal的灵活性而本文的主要重点是推理任务。我们表明迪瓦尔使用情感分析的初始实验可以轻松扩展到自然语言处理任务。

一般来说，自然语言句子可以表示为语法树，类似于 DAG。然而，通过直接语法树构建（类似于算术任务的构建）生成句子提出了显着的挑战，主要是因为需要语法正确性和这些句子固有的自然性。尽管如此，迪瓦尔仍然可以通过利用现有句子提取的语法树模板来生成自然语言任务。对于 SST-2 数据集中的每个句子，我们最初使用 GPT-3.5-Turbo 来提取其句法结构。在每个语法树（即 DAG）中，我们识别可以修改的元素：即名词（例如名称和地点）和形容词。然后使用 GPT-3.5-Turbo 为每个可修改组件创建五个替代候选组件，随后以迭代方式进行替换。在整个过程中，我们不断评估这些替换是否改变了句子的原始语义。任何导致语义转变的更改都将被丢弃。请注意，图不能作为推理任务随机生成，因为我们需要约束生成句子的自然性和语法正确性。作为补救措施，可以使用 GPT-3.5-Turbo 生成的模板句子来抽象图的结构。

我们在上述过程中为每个句子生成三个替代版本，形成我们新生成的数据集。然后，我们使用原始 SST-2 数据集以及我们生成的数据集进行比较，评估 Flan-T5-large 和 Llama2-7b 模型的性能。这些评估的结果详述于表中 10.它表明，使用我们生成的样本，性能下降，表明我们正在创建具有挑战性的测试集。请注意，这是一项初步研究和扩展迪瓦尔 NLP 任务非常重要，本文无法涵盖，但应留待将来的工作。

	Flan-T5-large	Llama2-7b
Origin	93.12	90.37
DyVal	86.46	72.03

Dynamic Evaluation of Large Language Models for Reasoning Tasks (2024)

摘要

1简介

2相关工作

评估大语言模型。

数据污染。

从复杂到简单的问题分解和评估集构建。

3 迪瓦尔

3.1通用动态评估描述语言

3.2基于图的推理任务动态评估

3.2.1 生成算法𝒢：DAG构建

Theorem 3.1.

Theorem 3.2.

3.2.2 图生成的约束𝒞

3.2.3 描述函数ℱ

3.3 DyVal 与现有基准共存并共同发展

4实验

4.1设置

4.2 数学、逻辑推理和算法任务的结果

4.3案例研究

4.4消融研究

5 DyVal 帮助微调

6结论与讨论

确认和免责声明

参考

附录A有向无环图初步介绍

附录BDyVal的详细信息

B.1 生成算法

B.1.1 T-DAG

B.1.2 G-DAG

B.2复杂度控制

B.3描述函数

B.3.1 DyVal-M

算术：

线性方程组：

B.3.2 DyVal-L

布尔逻辑：

演绎逻辑：

归纳逻辑：

B.3.3 DyVal-A

可达性：

最大总和路径：

B.4描述顺序

B.5 使用 GPT-4 生成描述函数的潜力

附录C证明

Theorem C.1.

证明。

Theorem C.2.

证明。

附录D实验细节

D.1实验环境

D.2 提示

D.3评估集

D.4实验结果详情

D.5 案例研究详细信息

部分计算错误

不正确的推理

自相矛盾

未经证实的回应

教学监督

D.6 不同复杂性约束的详细信息

D.7即时工程细节

D.8 人类研究

附录E微调细节

E.1 构建训练数据

E.2 训练数据和测试数据

E.2.1 训练数据

E.2.2测试数据

E.3 微调结果

附录F生成的数据集不平衡

附录G微调后的通用语言理解能力

附录 H自然语言任务的灵活性

3.2.1 生成算法 $\mathcal{G}$ ：DAG构建

3.2.2 图生成的约束 $\mathcal{C}$

3.2.3 描述函数 $\mathcal{F}$