谁更懂教学设计？——大语言模型与多智能体文本评估模式比较研究夏娅娜杨烨枫冯翔-西南大学西南民族教育与心理研究中心

谁更懂教学设计？——大语言模型与多智能体文本评估模式比较研究

作者：夏娅娜,杨烨枫,冯翔

阅读数：24次

来源：《现代教育技术》2026年第5期

摘要：随着人工智能技术的飞速发展，教学设计的自动化与智能化已成为教育领域的重要发展方向。然而，实现教学设计自动化迭代的关键难题在于缺乏适配的大语言模型且高效稳定的教学设计文本评估方法。文章通过不同模式的评估实验，比较了大模型直接评估、多智能体合作评估与多智能体辩论评估这三种方法在信息科技教学设计文本评估中的效果差异。研究结果表明，多智能体协作评估模式不仅显著提高了评估的稳定性和人机一致性，还通过角色分工与观点辩论生成了更具操作性的改进建议，为教学设计的自动化迭代提供了坚实的方法论基础，也为未来教学设计的智能化发展提供了新的思路和方向。

关键词：教学设计；自动化评估；多智能体协作；多智能体辩论

一、引言

随着教育实践与理论的不断深化、新课程改革的推进，教学模式逐渐从以“教”为中心，转向以“学”为中心，教学目标也经历了从“双基”到“三维目标”再到“核心素养”的不断演变，“导学案”“大单元”“自主探究”等新的教学理念不断出现，这些变化都与教学设计紧密相连。如何实现学科育人功能，始终是教学设计与教学改革实践的核心问题，其发展过程始终围绕教学效果、社会需求、技术变革展开。2022年，教育部等八部门印发《新时代基础教育强师计划》，强调深入实施人工智能助推教师队伍建设试点行动，探索人工智能助推教师教育改革、教育教学方法创新，提升教育教学水平，促进教师专业发展。教学设计文本作为教学活动的核心蓝图，其质量直接关系到教学目标的达成和教学效果的优化。当下，随着人工智能领域的快速发展，教学设计的自动化、智能化成为新的发展方向，如何利用人工智能技术辅助教学设计成为变革中的新挑战。

然而，实现教学设计自动化迭代的首要问题是探索适配的大语言模型且高效稳定的教学设计文本评估方法，为迭代提供可靠依据和优化方向。传统教学设计的评析通常依靠个人反思、同伴交流以及专家评审与指导，而这些方式又往往较为依赖专家或同行的个人经验。不同专家对教学设计文本的理解和评价标准存在差异，导致评估结果缺乏一致性和可比性。此外，专家评审需要投入大量时间和精力，教师难以根据即时反馈调整教学设计文本，从而难以实现教学设计的持续优化。基于大语言模型的多智能体系统作为人工智能领域的新兴研究方向，为解决这一难题提供了可行思路。多智能体系统由多个相互作用的智能体组成，不同智能体可以承担不同的角色和任务，有效提高复杂问题的解决能力，为高质量的教学设计评估甚至是自动迭代提供了更多可能。

本研究通过设计面向信息科技课程的教学设计评估量表，开展不同模式的评估实验，探索大模型直接评估、多智能体合作评估与多智能体辩论评估三种方式在信息科技教学设计文本评估上的效果差异，以期为教学设计评估理论的发展提供新的思路和方法。

二、相关研究

（一）教学设计评估方法与框架

早期，教案评估主要依赖传统的手工评估方式，通常由教师所在教研室的领导或同事进行，主要通过查看教案书写是否规范、教学内容是否完整、教学重点是否突出等方面进行评价。随着教育理念的不断发展，教案评估方法开始逐渐向科学化、系统化方向转变，基于工作过程导向的教案评价指标体系研究应运而生，评估围绕典型工作任务的选取、教学目标与工作任务的对接、教学手段的多样化等方面展开。这种评估虽然能够提供一定的反馈，但仍依赖手工评估，存在诸多局限性。评估标准缺乏统一性，不同评估者对教案质量的判断可能存在较大差异，导致评估结果的主观性较强。而且评估过程较为繁琐，需要耗费大量时间和精力，难以对教案进行全面、深入的分析。此外，传统手工评估方式难以对教案的实施效果进行准确评估，无法及时发现教案在实际教学中的问题。

目前，教学设计评估框架呈现出多样化的特点，以适应不同学科和教学模式的需求。在理科学科中，常见的评估框架包括SLPAI和SLPRI，这些框架主要围绕与认可实践的对齐、课程设计的多维度问题以及教学策略的实施等方面展开，强调科学概念的理解和实验技能的培养。LPER Instrument和化学教学设计评价量表（CTDES）分别从数学和化学学科的角度出发，关注课程目标的明确性、教学内容的准确性以及与学科标准的一致性。

除了学科特定的框架，还有一些通用的评估框架，如Goldston提出的基于5E探究式学习模型的5EILPv2框架，适用于多种学科的教学设计评估。Chang等提出从结构、准确性、完整性、外观、创新性和交互性六个方面对教案设计质量进行评估，该框架具有较强的通用性，并与主流教学设计理论保持高度一致性。例如，在ADDIE模型中，这些维度分别对应于教学流程的组织、内容的科学性与完整性、方法与工具的更新、学习者的参与和反馈；在TPACK框架下，结构与完整性体现了内容知识与教学法知识的结合，准确性反映学科知识的把握，创新性强调技术知识的融入，交互性则体现三者的交汇与整合。该框架适用于不同的教育情境，信息科技学科既强调知识点的逻辑性和准确性，又注重操作性和生成性，需要在结构、完整性和交互性之间找到平衡。因此，本研究结合信息科技学科特点，对该框架进行了补充与调整，以支持教学设计质量的自动化评估。

（二）基于大语言模型的文本评估研究

尽管技术在教育评估中的应用日益广泛，研究者对于教学设计的关注却相对较少。而在作文自动评价领域，研究相对成熟，其评价策略和方法为本研究提供了重要参考。如吴军其等利用“文心一言”大模型，从内容、语言、结构三个维度评价作文，发现AIGC在评价数量上显著高于教师，评价类型更倾向建议型和概述型，而教师多倾向于诊断型和表扬型。魏顺平等以500篇小学作文为样本，测试了“智谱AI”和“讯飞星火”两款国产模型的评分与评语效果，发现模型评分与原始分数仅微弱相关。“智谱AI”分数评价不稳定，“讯飞星火”等级评价较稳定；评语在内容与结构方面表现较好，但稳定性较差，前后生成相似度低（模型版本论文未披露）。这些研究从不同角度展示了大语言模型在作文评价中的应用潜力和不足，为本研究提供了重要的借鉴和启示。这种直接利用大模型进行多维度评价的方法，我们可以理解为单一智能体方法。

然而，单一的智能体在应对复杂教学场景时可能存在局限性。多智能体协同工作以实现更高效、更精准的教学评价，成为了值得探索的方向。当前，多智能体系统的发展已进入到基于生成式人工智能的多智能体系统阶段，基于大语言模型的多智能体框架不断涌现，具有较高的可定制性。基于生成式人工智能技术的多智能体系统在模拟课堂、个性化学习、自动化评估等领域发挥重要作用。本研究将进一步探讨多智能体评估在教学设计中的应用，以更好地满足教育实践中的多样化需求。

三、研究设计

（一）研究对象

本研究选取了88份信息科技教学设计作为分析样本，包含两部分：①44份源自国家中小学智慧教育平台（以下简称“平台”）的规范性教学设计（2025年1月5日下载），这些设计经过了平台的审查与认证，符合国家教育标准；②另外44份源自教学实践的原始性样本，由一线新手教师提供，未经审查与打磨。多层次的样本为后续深入分析信息科技教学设计在不同维度上的表现情况以及不同评估方式比较等提供有力支持。

（二）研究工具

教学设计评分标准包括结构、准确性、完整性、外观、创新性和交互性六个维度。考虑到在利用大语言模型进行评估时，格式因素不会产生影响，本研究去除了外观维度，同时结合信息科技教学设计的特点，对剩余五个维度进行了细化，建立了五个等级的评价标准。该量表在原始应用中即采取等权处理方式，本研究延续前人的思路，对信息科技教学设计评价的结构、准确性、完整性、创新性和交互性五个维度采用等权处理，每个维度的五个等级用于刻画教学设计在不同层次上的表现。

（三）评估方式与智能体设计

本研究涉及的评估方式均采用本地部署的Qwen-2.5：14B模型，具体评估方式分为以下三种：

①大模型直接评估。将完整的教学设计文档整体输入至大语言模型，通过结构化提示词要求模型对教学设计文本进行分析，依据预设的评分标准和规则，一次性完成五个维度的评分判定。这种方式模拟了传统基于单一模型的评估流程，能够快速得出评估结果。

②多智能体合作评估。设置五个独立的智能体，每个智能体专门负责评估教学设计的一个维度。智能体根据自身所负责的维度，深入分析教学设计文本中与该维度相关的内容，依据评分量表，输出该维度对应的评分等级。本研究基于AutoGen多智能体框架构建了多智能体教学设计评价系统，包含五个智能体，分别负责结构、准确性、完整性、创新性和交互性五个维度的评价。这些维度智能体均采用AssistantAgent类实现，每个智能体在系统提示词中嵌入相应的评分量表和解释要求，从而保证评分的针对性与一致性。此外，系统配置了一个用户代理，负责发起评价任务并收集结果。智能体间通过GroupChat机制进行协作，发言顺序由自定义的状态转移函数控制，保证五个维度依次完成评价。

③多智能体辩论评估。对于每个评分维度，分别设置一个积极智能体和一个消极智能体。积极智能体倾向于从正面角度看待教学设计，寻找教学设计的优点和亮点，给出较高的评分；而消极智能体则更关注教学设计中的不足之处，倾向于给出较低的评分。两个智能体在评估过程中相互辩论，积极智能体会努力说服消极智能体认可其对教学设计的积极评价，消极智能体也会试图让积极智能体意识到教学设计中存在的问题。通过这种辩论过程，双方不断调整自己的观点和评分，直到达成共识，得到该维度的最终评分。

（四）研究过程

本研究依次运用三种预设的评估模式对88份信息科技教学设计样本进行分析。每种评估模式均独立运行三次，通过重复实验的方式有效降低随机误差的影响。三位研究人员从88份样本中选取18份样本进行独立评价，结果显示评分一致性良好（ICC（3，1）=0.868）。在此基础上，三位研究人员，分别独立完成剩余教学设计样本的评估任务，为后续智能体评估方式的对比提供了较为可靠的参考基准。

四、研究结果

（一）三种评估方式内部比较

1.评估差异性分析

为检验同一评估方式在不同轮次评分结果之间是否存在显著差异，本研究采用Friedman检验对三轮评分结果进行比较，如表1所示（表1略）。表1显示，大模型直接评估、多智能体合作评估和多智能体辩论评估三种评估方式在不同轮次间的评分差异均未达到统计显著性水平（p＞0.05），这表明各评估方式在重复评分过程中未出现显著的系统性波动，整体评分结果较为稳定。

2.评估一致性分析

①完全一致比例：在多次评分过程中，所有评分结果完全相同的比例。例如，如果某个维度有60个教学设计在三次评分中完全一致，完全一致比例就是60÷88=68.2%。

②部分一致比例：在多次评分过程中，至少有两次评分结果相同的比例。例如，如果某个维度有80个教学设计在三次评分中至少有两次评分相同，那么部分一致比例就是80÷88=90.9%。

不同评估方式一致性分析结果如表2所示（表2略）。在三种评估方式中，完全一致比例整体较低，其中大模型直接评估在准确性维度的完全一致比例仅为13%，低于其在结构、创新性和交互性等维度的表现。这可能是因为大模型在一次性综合处理多个维度时，对准确性这类客观性强的维度判断标准更为敏感，导致评分在不同轮次中波动较大。多智能体合作评估在结构维度上能够较好地统一评分标准，完全一致比例高达67%，而在创新性和交互性维度表现较弱。多智能体辩论评估的完全一致比例在各维度间分布较为均衡，整体略低于其他两种方式，反映其辩论机制虽有助于多角度评估，但也增加了达成完全一致的难度。

与完全一致比例相比，部分一致比例整体较高，多数教学设计在至少两次评估轮次中能够达成一致，其中多智能体合作评估在结构和完整性维度表现尤为突出。多智能体辩论评估在准确性和完整性维度上能够有效收敛观点，减少评估差异。大模型直接评估在不同维度上的稳定性存在差异，结构维度表现最佳，但在完整性方面相对较弱，这可能是因为大模型在处理多维度时，内部逻辑的复杂性导致评分结果在不同轮次之间存在一定波动，难以达到较高的部分一致比例。

（二）人机评分比较

1.整体分析

本研究将大模型评估结果与人工评分进行相关分析，如表3所示（表3略），在三种评估方式、三个轮次以及两种样本类型的所有组合中，各评估方式与人工评分的相关系数均达到了统计学上的显著性水平（p<0.05），相关系数范围为0.197~0.500，表明三种评估方式能够在一定程度上反映出与人类专家相似的评估标准，为将其作为教学设计的辅助评估工具提供了初步的数据支撑。与规范性样本相比，三种评估方式在原始性样本中普遍表现出更高的相关性，这一现象在大模型直接评估中尤为突出：规范性样本经过标准化审核，在结构、完整性和准确性上差异性较小，这种特性可能压缩了评估模型的判别空间，使大模型难以像人类专家一样敏锐地捕捉差异，从而导致大模型直接评估与人工评分的相关性降低。原始性样本源自多样化的教学实践，未经打磨的样本为评估模型提供了更清晰的判别信号，模型评分与人工评分之间更容易产生一致的趋势。

不同的评估方式在面对不同特性的样本时，表现存在明显差异。大模型直接评估在原始性样本上表现最佳（相关系数约为0.48-0.50），在处理同质化的规范性样本时表现相对较弱（相关系数约为0.20-0.38）。两种多智能体评估模式的表现比较稳定，但在面对未经打磨的原始性样本时，这种复杂机制相较于直接评估并未展现出明显优势。多智能体间的交互推理机制可能更善于处理结构严谨、内容明确的样本，通过信息交换与论证，能够更好地实现对规范设计的评判。

在不同评估方式的多重比较中，本研究采用重复测量方差分析，以人工评分为基准，比较三种评估方式在三轮评分中的差异，结果如表4所示（表4略）。大模型直接评估表现出稳定的高估倾向，在三轮评估中，对两类教学设计的评分均显著高于人工评分（差值-0.79和-1.15），这表明单一模型评估由于缺乏多角度校验与批判性思考，难以精准把握人类专家所关注的创新性、交互性等复杂维度，导致其评分普遍偏向乐观。多智能体合作评估的有效性高度依赖样本特性，在规范性样本上，其评分与人工评分无显著差异，证明多智能体合作在评价标准化内容时能够有效模拟人类共识；然而在面对实践中的原始性样本时，却出现显著高估（差值-0.68），表明其合作机制在处理多样性、非结构化设计时存在不足。多智能体辩论评估呈现“双向偏差”现象，在规范性样本评估中表现出显著的严格性（差值0.34），深入挖掘设计中的不足，在原始性样本中呈现相反的宽松倾向（差值-0.61），辩论过程可能因缺乏明确的批判焦点而转向对有限亮点的强化关注。

2.具体维度的分数比较

为深入探讨各评估模式的特点，现以与人工评分相关性最高的轮次为例，通过比较每种评估方式在不同维度的平分均值，可以更全面地了解各评分方式在具体评估维度上的差异。

在规范性样本评估中（如图1所示）（图1略），大模型直接评估在各维度的评分均值均高于人工评分，多智能体合作评估的轮廓与人工评分最为接近，多智能体辩论评估则在创新性和互动性维度上低于人工基准，反映出不同评估方式的评分倾向差异。大语言模型直接评估倾向于给出较为积极的评价，普遍高于多智能体评估与人工基准；多智能体评估则展现出良好的校准作用。在原始性样本评估中，三种自动化评估方式在各维度上均高于人工基准，其中大模型直接评估的高估幅度最为突出，说明自动化评估普遍表现出对未经打磨样本的过度宽容。尽管评估机制的复杂化能提升严谨性，但自动化系统在处理整体质量欠佳的原始内容时仍面临本质性挑战，难以实现如人类专家般的价值甄别。

（三）评分效率比较

1.评分缺失值

为了比较不同评估方式的输出稳定性，本研究统计了各评估方式在三轮评估中未能成功输出有效评分的次数占比，如表5所示（表5略）。大模型直接评估缺失值比例较高（14.85%），这可能表明大语言模型在处理评估任务时，存在一定的理解和执行问题，且这些问题较为一致地分布在各个维度上，模型可能难以准确把握评估标准，从而导致大量缺失值的出现。

多智能体合作评估在数据完整性方面表现最好（0.15%），这得益于智能体明确的任务分工和协作。多智能体辩论评估的缺失值比例介于两者之间（3.79%），这可能主要源于智能体之间未能达成共识。这种共识缺失可能是因为辩论过程中的对主观性、争议性以及对评估标准的不同理解。例如，多智能体辩论评估在结构维度上有8.33%的缺失值，这可能是因为在辩论过程中，不同智能体对结构的评估标准存在分歧，或者某些智能体无法提供足够的证据来支持其观点，导致最终无法形成一致的评估结果，产生较多缺失值。

2.评分时间

从时间比较的数据来看（如表6所示）（表6略），三种评估方式在不同轮次的耗时情况存在显著差异，这些差异可以反映出不同评估方式的效率特点。大模型直接评估的耗时最少，这种快速评估的能力主要得益于大语言模型的预训练结构和强大的计算能力，能够在短时间内处理大量文本并输出评估结果。多智能体合作评估过程相对复杂，需要多个智能体之间进行协作和沟通，导致耗时较长。这种评估方式的优势在于能够提供更细致和多角度的分析，尤其适合复杂和多维度的评估任务。多智能体辩论评估的耗时最长，可能是因为辩论过程中需要进行大量的观点碰撞和论证。每个智能体都需要充分表达自己的观点，并对其他智能体的观点进行质疑和回应，这种复杂的交互过程需要更多的时间来完成。此外，辩论评估可能需要多次迭代和调整，最终的评估结果才能够充分反映各方的观点和论证。因此，多智能体辩论评估虽然能够提供深入的分析和批判性思考，但其耗时较长，适合需要深入探讨和详细论证的评估任务。

（四）可操作性比较

为科学衡量不同智能体评估模式生成建议的实际应用价值，本研究以与人工评分相关性最高的评估轮次为依据，构成总量为264份分析样本（88份教学设计×3种模式）。基于此，本研究以单条修改建议为分析单元，从分析样本中提取出由大语言模型直接评估、多智能体合作评估及多智能体辩论评估三种模式产生的全部改进建议，共计2743条。评估小组由资深一线教师与拥有实际教学经验的教育技术领域研究生构成，成员兼具教学实践与学科研究背景。评判时，小组成员从建议具体程度、资源可行性、时间匹配度、学生适应性、教师可执行性五个方面进行综合考量，对各项建议的可操作性进行独立评判。通过这种比较，能够更清晰地了解不同评估方式在实际应用中的可行性和有效性，为多智能体“生成—评估—迭代”系统的开发提供重要的参考依据。

根据表7（表7略）的评估结果，三种评估方式在建议可操作性上呈现较大差异。大模型直接评估生成的建议中高操作性建议的比例最低，多智能体合作评估与辩论评估均较大提升了高操作性建议的比例，同时降低了低操作性建议的占比。其中，多智能体辩论评估在高操作性建议方面的表现最优。这表明多智能体协作能生成更具体、可行、符合教学场景的改进建议，可能通过分工、辩论或知识互补减少了无效建议。

五、结论与启示

（一）研究结论

1.多智能体评估机制实现了更优的稳定性和人机一致效果，但仍面临严峻挑战

在本研究中，多智能体评估相较于大语言模型直接评估展现出显著优势，尤其是在评估的稳定性和人机一致性方面。两种多智能体评估方式能够在不同轮次中较好地协调评分标准，评分一致性比例分别达到91%和89%，这表明其评估过程具有较高的稳定性。同时，多智能体评估结果的缺失率更低，为评估结果的可靠性和完整性提供了有力保障。在人机一致方面，多智能体评估纠正了直接评估对高质量样本的宽松评分倾向：在规范性样本评估中，多智能体合作评估的分数与人工评分高度一致；辩论评估则展现出比人工评分更严格的批判性，消极智能体的质疑这有助于充分暴露教学设计存在的问题。尽管所有模型对原始样本仍存在评分过高的倾向，但多智能体评估的偏差程度更小，能更好地模拟人类专家的评判尺度。

多智能体评估机制在取得良好效果的同时，也面临着效率和普适性的挑战。多智能体辩论评估单轮耗时超过1000分钟，约为大模型直接评估的50倍，高昂的时间成本严重制约了其在实际教学场景中的应用价值。同时，多智能体呈现出情境依赖性的优势，在原始性教学设计样本评估中，大模型直接评估取得了最佳的相关性表现。这表明多智能体评估机制在效率优化、场景泛化等方面仍需实质性突破，当前仍难以完全替代更高效、更灵活的轻量级评估方案。

2.评估方式的选择是效率、一致性与样本适配性的权衡

评估方式的选择是一个多维度的权衡过程，不存在唯一最优解。综合来看，多智能体合作评估在数据完整性、耗时稳定性与建议可操作性上均表现出色，综合成本效益最高，适用于需要高质量、高可靠性评估结果的场景；大语言模型直接评估的主要优势在于耗时最短，三轮均值仅为23分钟，在初筛场景中具有较高的效率；多智能体辩论评估通过智能体之间的激烈讨论和观点碰撞，能够揭示其他评估模式中可能被忽视的细节和问题。然而，辩论评估的耗时显著增加，且缺失值波动较大，使用者需要根据评估过程中数据的完整性和观点碰撞的效果，灵活调整评估的持续时间，以实现成本与效益的平衡。此外，评估方式的有效性高度依赖于样本特性：对于规范性样本，多智能体合作评估已能逼近人工水准，然而面对质量参差不齐的原始样本评估任务，人类专家仍发挥着不可替代的作用。

3.智能体角色设计直接影响评估结果偏差

智能体角色设计在多智能体评估中起着至关重要的作用，它直接影响评估结果的偏差程度和一致性水平。在合作评估中，明确的角色分工使得智能体能够各司其职、协同完成评估任务。在需要标准化评估的场景中表现出色，能够提供高度一致的评估结果。辩论评估通过设计“积极”和“消极”两种智能体角色，形成对抗性的评估环境，这种相互质疑和论证的过程能够揭示出更多的细节和潜在问题，尤其适合处理具有争议性的评估维度。因此，选择合适的智能体角色设计应依据具体的评估目标来提升评估结果的质量和适用性。

（二）研究启示

1.构建“合作—辩论”混合评估系统优化人机协同

基于合作评估的高稳定性特征，可将其作为混合评估系统的核心模块，设置不同智能体分工合作处理常规维度，如结构和完整性，为评估结果提供坚实的基础。为应对评估中的争议维度，如创新性和交互性，可增设辩论模块，通过积极智能体和消极智能体的对抗，能够更全面地审视证据，形成更加稳定和全面的结论。将合作和辩论两种多智能体方式相结合，能够显著提高教学设计评估的质量和效率。由于教学设计评估具有一定的主观性，在评估过程中引入人类教师的参与是必要的。教师可以根据实际教学经验，适时提出反馈意见，从提高教学设计的可操作性和实际应用价值。

2.以高操作性建议驱动教学设计动态迭代

在教学设计的优化过程中，操作性强的建议是实现动态迭代的关键。传统的教学设计优化多依赖教师经验，缺乏系统性和科学性，而多智能体合作评估生成的高操作性建议则为这一过程提供了明确指导。多智能评估，特别是辩论评估模式，在提供具体改进建议方面具有显著优势。这些改进步骤可能包括调整教学内容、优化互动环节、增加分层任务等具体措施。为后续教学设计“生成—评估—迭代”闭环提供了可行路径。将高操作性的建议反向输入到教学设计的生成模块，能够引导教学设计生成智能体根据建议进行改进。例如，如果评估建议指出某一教学环节缺乏交互性，对应的智能体可以据此增加小组讨论或互动问答等环节。通过这种方式，教学设计能够根据评估结果进行针对性的优化，从而加速教学设计的迭代过程。

3.通过领域知识注入增强多智能体的专业性

针对教育设计评估需求，可通过注入领域知识与微调角色行为提升智能体专业性。例如，对于完整性评估智能体，可以注入与学科教学设计相关的领域知识，如课程标准、教学目标等，强化其对教学设计完整性的判断能力。对于辩论智能体，提供常见教学设计误区案例库是提升其质疑针对性的有效手段。通过分析这些案例，辩论智能体能够在评估过程中更敏锐地发现类似问题，并提出有效的质疑和改进建议。同时，收集人类教师补充的修改建议是不可或缺的环节。人类教师在实际教学中积累了丰富的经验，他们的反馈能够为智能体提供宝贵的参考，持续优化智能体的评估模型和算法，可以更贴近实际教学场景的需求。

六、结语

本研究通过系统对比多智能体评估与大模型直接评估的效能差异，发现多智能体不仅显著提升了评估的稳定性与人机一致性，更能通过角色分工与观点辩论生成高操作性建议，为教学设计自动化提供了方法论支撑。需要说明的是，本研究依托本地可部署模型展开，随着开源模型的演进，本地部署在数据安全方面具有比较明显的优势，但其语言能力与公网大模型仍存在一定差距。本研究的评估效果有赖于多智能体系统的精心设计，该评估方案未来仍有较大优化空间。后续将扩大样本量、结合云端实验、构建动态迭代系统以提升模式效能；同时开展用户体验与人机协作研究，分析教师反馈运用机制并规避AI评估潜在偏见，提升真实场景应用价值。

（本文参考文献略）

Who Understands Instructional Design Better? —A Comparative Study on Text Evaluation Modes of Large Language Models and Multi-Agents

XiaYana YangYefeng FengXiang

Abstract: With the rapid development of artificial intelligence technology, the automation and intelligence of instructional design have become an important developmental trend in the field of education. However, the core bottleneck restricting the automated iteration of instructional design lies in the lack of efficient and stable evaluation methods for instructional design texts that are compatible with large language models. Based on evaluation experiments under different modes, this paper compared the performance of three evaluation methods in assessing information technology instructional design texts, namely direct evaluation by large language models, multi-agent collaborative evaluation, and multi-agent debate evaluation. The results revealed that the multi-agent collaborative evaluation mode not only significantly improved evaluation stability and human-machine consistency, but also generated more actionable improvement suggestions through role division and viewpoint debates. This provided a solid methodological foundation for the automated iteration of instructional design and offered new ideas and directions for the future intelligent development of instructional design.

Key words: instructional design; automated evaluation; multi-agent collaboration; multi-agent debate

初审：普清筠

复审：孙振东

终审：蒋立松