现代教育评价往何处去——兼评第四代评价理论胡中锋李奕霏-西南大学西南民族教育与心理研究中心

现代教育评价往何处去——兼评第四代评价理论

作者：胡中锋,李奕霏

阅读数：374次

来源：《教育研究与实验》2025年第6期

摘要：教育评价改革深受第四代评价理论影响。基于建构与协商的第四代评价理论过度推崇自然主义哲学观，面临理论者与实践者的双重指责，陷入合理性与实践性的双重争议。现代教育评价需突破第四代评价理论的固有局限，保持警惕以破除评价理论的“一元论”桎梏，保持反思以增强方法论自觉，保持过程性关注以纾解评价困境。基于“第五代评价”理论的新进展，现代教育评价应走向整合，尤其是过程整合。

关键词：第四代评价理论；现代教育评价；量的评价；质的评价；整合型教育评价

1989年，古巴（Egon G. Guba）和林肯（Yvonna S. Lincoln）出版了《第四代评价》（Fourth Generation Evaluation，FGE）一书，试图定义一种全新且超越了纯粹的科学范畴的评价方法，提出第四代评价理论。FGE为教育评价提供了新视角、新路径和新方法，对我国也产生较大影响。当前许多评价改革都是以该理论为依据，但FGE本身也因固有缺陷而备受争议。这些批评的声音既有关于理论科学性与合理性的讨论，也包括对方法效用的争论。但总的来说还是迎合的多，反思的少。当前，我国正处于教育评价改革深化期，亟需先进的教育评价理念指导。本文通过对FGE的回顾与反思，对现代教育评价的使命与转型进行梳理，结合传统教育评价发展困境及教育评价理论的新进展，提出现代教育评价发展的整合路向。

一、第四代评价理论之特点与争议

（一）理论回顾：基于建构与协商

古巴和林肯将连续的评价范式划分为“代”，提出可将教育评价划分为测量、描述、判断和建构等不同时代，认为前三代教育评价理论存在“管理主义的倾向”“忽视价值的多元性”以及“过分依赖科学范式”等问题。“管理主义的倾向”主要是管理者通过金钱资助“控制”评价人员，这种不对等的关系使得诸多利益相关者无法在评价过程中维护自身合法利益、表达合理诉求。我们生活在一个多元价值的社会，存在着不同的政党和利益集团，人们会对教育评价活动是“谁做的”“为谁做的”产生怀疑，因此导致利益受害者极有可能对评价采取不合作的态度。“忽视价值多元性”的教育评价结果也无法被持有其他意见的人接受，即便结果是“客观的”“标准的”和“科学的”。“过分依赖科学范式”使得教育评价过于崇拜数据的力量，忘记实证其实也只是人类认识和评价事物的一种方法而已，而且即使是纯粹的自然科学研究，也不可能完全是价值无涉和价值中立的，“数据资料自己不会说话，在管理主义支配下，资料数据虽然是评价者用实证科学、数量化的方法技术获取的，但是这些数据资料却是评价者首先按照管理者规定的要求和范围，然后再用实证方法去提取的”。

FGE是以利益相关者的主张、焦虑和争议作为组织评价焦点决定所需信息的基础的一种评价形式，它主要用于建构主义调查范式的方法论。该理论将“评价”视作带有社会政治色彩的过程；共同合作的过程；教与学的过程；连续的、反复的、分歧突出的过程；不断有突发情况出现的过程；带有不可预料结果的过程；创造现实的过程。评价过程中的利益相关者通过响应式聚焦被赋予“在同一张桌子上发言的权利”，发表他们对所关注的问题、主张和问题的解释，这些解释被用来代表利益相关者形成的有意义的建构，是对自身环境的“理解”。FGE尊重价值多元，以谈判协调为核心动力，强调经由解释性辩证环节的协商整合，形成共同的、一致的看法，促使“一个共同的现实结构的出现”。FGE在评价模式、方法论和评价过程上与前三代教育评价理论均有所不同（表1）（表1略），主要有三个特点：第一是回应，即FGE的出发点；第二是共同建构，基于价值判断的共同建构是FGE的本质；第三是协商，协商被认为是共同建构的途径。

（二）现实反思：饱受合理性与实践性争议

1.对自然主义哲学观的过度推崇。FGE所依据的哲学理论基础是以现象学、解释学、日常语言分析及符号互动论等现代哲学为理论基础的“自然主义”，强调“自然环境”的作用。自然主义者在本体论上认为社会或行为的现实都是人的建构，在认识论上秉持“调查者与调查内容不能相互分离”的观点，强调正是由于它们的相互作用才产生出调查中所需要的数据。被评价者被置于严格控制的非自然环境、过分依赖科学范式而忽视质的研究、忽视价值多元性且管理主义倾向严重等违反了“自然主义”，基于“自然主义”的评价模式是一种新型的更能顺应人类本性的评价理念和模式。FGE所谓的“自然主义”并非主张以自然科学方法来解释世界的自然主义，而恰恰与之相反，古巴和林肯更愿意称之为“建构主义”。以此为雏形所提出的自然主义只能算是现代哲学的一个流派，难以为FGE提供坚实可靠的哲学理论基础。使用建构主义作为新的主流范式来解决本体论和认识论的问题，是FGE理论背后存在的一个驱动力局限。

FGE过分推崇自然主义研究范式。根据克隆巴赫（Cronbach）和苏佩斯（Suppes）的界定，那些与学术（discipline）研究有关的人使用的是科学典范（理性典范）。古巴和林肯则极力推崇使用自然主义探究法，声称自然主义探究方法可以避免理性典范的缺点，具有可以提供情况上的关联性与丰富的切入点、展现过程敏感性、有助于从证据中发展理论、提供了不同方式取代理性典范强调的客观性等优点，认为FGE是坚持自然主义范式的方法论的最好方法的主张。因此陷入了非此即彼的范式选择误区，试图通过营造科学与人文的对立以颠覆传统的科学研究范式，将量的研究批得一无是处并拒之门外。这种范式上的“极度推崇”滑向了方法论极端。古巴和林肯宣称，21世纪自然主义研究范式将会成为主要的研究范式，但30多年过去了，这不仅没有实现，而且还相行渐远；同时在西方还诞生了混合研究范式。可想而知，FGE也只是教育评价的一种模式，并非主流更谈不上最新的（第四代）教育评价模式。这是由其依赖的哲学理论所决定的。

2.第四代评价的误区。其一，古巴和林肯关于教育评价时代的划分缺乏根本逻辑。根据其划分，“测量时代”早在上世纪30年代就已停止。但测量时代停止了吗？实则不然，国际上诸多大型教育测量评价项目的兴起盛行表明测量直到现在仍在不断地发展壮大。“判断时代”截至上世纪70年代，而“建构时代”在1989年才正式提出，那么中间间隔的二十多年究竟属于什么时代？“对教育评价的历史作如此这般的‘四代’划分，并没有多大的道理”。而且这种划分也不具备科学性，“测量”“描述”“判断”“建构”来自不同范畴，不同属于一项划分标准维度。此外，教育评价学把泰勒的“八年研究”作为现代教育评价标志，主要以模式的“类”进行划分而非“代”的传承，这与古巴和林肯的划分方式迥然不同。

其二，FGE混淆了测量与评价的区别。教育评价不等同于教育测量，不能把教育测量作为教育评价的第一阶段。测量主要是用一个数量来表征被测事物的属性，而评价则是根据不同的价值观对被评事物进行判断。测量属于事实判断，评价属于价值判断。两者属于不同的研究领域和概念范畴，并不存在测量是评价的第一代的说法。古巴和林肯在论述测量时代时，也认为评价的出现是众多相关影响的建构和再建构发展的结果，测量（测试）及与之相关的因素更多地起到影响推动作用，故将教育测量与教育评价“第一代”画等号是欠妥的。

其三，FGE对“代”的谬用。如果用“代”对教育评价进行划分，那么后一代应该包含前一代的功能，或至少为部分包含，方可体现“代”的连续属性，而且后一代的功能要超越前一代，以显示不同“代”之间的迭代性。显然，古巴和林肯对前三代教育评价的划分既没有体现“代”的连续性，也没有说明其迭代性。目前看起来的前三代教育评价其实只是三种不同的评价类型，根本不存在代际传承，没有体现出高低层次之分。另外，如果是用“代”来界定，那么第四代应该是最先进的教育评价理论。但所谓的范式革命在第一代到第四代评价理论的嬗变过程中并未真正发生。FGE把量的评价拒之于门外，把质的评价推向极端，否定了过去的评价，这显然是错误的。

3.理论界与实践者的双重指责。有学者指出FGE参与式评估过程中在结构、社会、管理等方面存在现实障碍，认为该理论在方法中包含了诸如利益相关者在适应他人观点中的价值观变化、不会出现难以解决的根本冲突等相当幼稚的假设，存在评价者难以利益判断、难以深入参与了解社会背景和习俗、没有详细讨论参与式环境中需要有效管理的因素、对评价者的作用认识不到位等固有的理论缺陷，限制了该理论在实际评价过程中实现预期评价目标的可操作性，不太可能促进参与式实践。FGE还存在鉴定利益相关者困难、在确保利益相关者理解他人看法方面缺少具体的衡量指标和指导性操作、对利益相关者授权上也缺少操作性指导措施等多方面的问题。强调的“共识”也很难达成，因为理想的沟通环境取决于一套民主协商的制度和“程序公正”的原则，而这套制度和原则在现实的评价环境中却很难建立起来。

FGE的实践应用也极其复杂。有学者通过案例分析FGE在实践中面临的代表性问题。如何在一个有数千名受益人和数百工作人员的项目中，将所有利益相关方纳入评价？谁进行利益相关者的分析？谁会发现谁是利益相关者？是否所有的利益相关者团体都参与其中？显然，FGE难以正面且明确地回答诸如此类的问题（这是该方法存在的固有问题）。在具体实施中，FGE依然存在难以定义利益相关者以及提供教育和赋权的证据等局限。可见，FGE看似容易，操作起来却十分艰难，需要耗费评价者大量的时间和精力，对评价者的专业素质提出了非常高的要求，尤其是对评价规模比较大的学校来说，选择哪些利害关系人、构建怎样的诠释辩证循环圈都是很大的挑战。

基于上述回顾和反思，以自然主义为理论基础的FGE试图通过营造与理性主义理论的对立以突显理论先进性，但这种“形式二分”容易使其陷入循环论证的“阿喀琉斯之踵”而不自知，削弱了合理性和可靠性；FGE所推崇的自然探究式评价模式过于强调定性研究方法和质的评价，使得评价的科学性和人文性相互背离，加剧了评价过程的主观性和随意性风险；FGE的诞生背景距今已相去甚远，在愈加复杂的评价情境中，FGE的局限将更加明显，需要诞生新的理论以完成新陈代谢。

二、现代教育评价之使命与转型

新时代背景下，教育高质量发展亟需新的教育评价范式引领，应从评价理念重塑、评价方式整合、评价过程实施等方面探寻现代教育评价范式转型的可能。

（一）警惕与调和：现代教育评价需破除理论基础上的“一元论”桎梏

教育评价看似完成了从第一代到第四代的范式迭新，但也不过是从“量”向“质”的“钟摆式摇晃”，二元对立并未减弱。“说教育评价变了，其实，变了的，不过是冰山一角。评价理论即令有了进步，也不是革命”。长期以来，学界较为关注评价方式、评价技术等显性因素，而缺乏对评价底层逻辑的深入思考与探讨。当前教育评价改革进程中存在的阻滞问题，部分受限于改革实施的外部环境因素，另一部分则可能源自教育评价改革理论的适用性问题。任何理论既有优势，亦存在实践和解释上的局限。现代教育评价应警惕“一元论”观点，以前四代教育评价理论之争为切入点探寻解决之道。前四代教育评价始终围绕着科学与人文之争而展开，彼此之间相互争鸣。前者认为教育评价应采用客观方法以保证中立性和严谨性，强调客观数据和可量化的评价指标，体现评价的工具特性和基于数据的理论驱动；后者认为不存在完全理性，需考虑价值观因素影响，也不应将评价活动分割为可量化的部分，而应将其视为整体进行研究，“理性范式的研究结果的意义如此之小，以至于应用它们的尝试都会被认为是浪费”。单一逻辑将难以帮助在复杂的情境中作出正确的教育决策，现代教育评价应观照科学主义与人文主义矛盾，找寻调和空间，促使教育评价从理论分野走向范式整合。

（二）反思与融合：现代教育评价应增强方法论自觉

方法论既是一种以解决问题为目标的理论体系或系统，也是一种哲学解释。“哲学代表的是一种人所特有的对自身生存根基和生命意义的永不停息的反思和探究性活动，通过这种反思和探索，不断地提升人的自我意识和生存自觉”。现代教育评价应从方法反思和方法整合上重拾方法论自觉，反思是基本前提。反思的核心在于以思辨思维进行的“对思想的思想”，以思辨的方式面对世界和现实。“在人的实践中以及对这个实践的理解中”去“反思”全部理论问题，即需回归到教育评价实践场域中认识评价模式、方法及技术的适用性和局限性，以实时、动态或回顾的方式审视评价要素、过程和结果，再经由经验反思和范式凝练，指导评价活动开展。基于反思的方法论自觉是增强现代教育评价效能的重要推力。教育评价本身不能脱离教育活动而单独存在，教育评价亦不是最终的目的，而是促成教育目的的一种手段。反思提供判断和依据，并具有预见功能。缺乏反思的教育评价容易沦为“方法表演秀”而丧失实质价值。在情境复杂和要素多元的评价活动中，教育评价主体亦须经由反思进行要素决策，自觉整合多种评价范式积极应对。虽然也有学者已经提出了一些关于评价范式整合的观点，但还是形式上的整合而并未触及整合的核心，仍需予以更多探讨。

（三）过程与突破：现代教育评价需加强过程性关注

教育评价是为优化教育和教育决策提供依据的过程，评价主体将评价方案转化为评价行为的过程中总是充满了不确定因素。“在实现政策目标的过程中，方案确定的功能只占10%，而其余的90%取决于有效的执行。”预期评价目标能否达成，很大程度上亦有赖于评价过程。长期以来，评价过程中仍存在“四重四轻”问题：一是重鉴定，轻发展。我国的中小学校教育评价实践在评价“方向”上基本是“面向过去”的，特别注意评价对象在评价之前的表现，在本质上与注重导向和服务功能的发展性评价恰恰相反；二是重量化，轻绩效。现行中小学校教育评价指标体系都比较强调数量的规定，没有看到“量”后产生的“质”变，如办学指标使用的效率和效益、影响程度和绩效等对学生发展的作用；三是重统一，轻差异。除了北京、上海等部分发达地区在发展性教育评价理念的引导下对学校督导评价做了先行探索，其余大多数省市基本上还是不分层次、不分类别、不分性质地采用同一套评价方案；四是重管理倾向，轻平等协商。目前的中小学校教育评价大多为单向的、自上而下的行政性评价，带有验收和检查的性质，学校参与评价的积极性被抑制。这些亟待解决的实践问题均可归结为教育评价过程中多元性与整合性的缺失。

三、现代教育评价之发展路向

现代教育评价需警惕一元化评价理念，应基于方法论的反思以加强评价范式整合，合理关照评价过程的多元化和开放性。注重整合，尤其是过程性整合，应成为现代教育评价发展路向。其实早有学者提出了量的评价和质的评价整合的评价模式，只是并未引起注意。

（一）为何整合：教育评价传统困境与新近进展

1.整合的必要性：一是传统教育评价的发展困境。前三代教育评价中，测量时代和描述时代的教育评价实证化倾向明显：评价内容被分解为可测量、可操作的具体目标，评价过程就是目标测定过程；出现了许多新的标准化测验，测验是检测学生行为变化、获取行为数据的主要途径；评价技术的发展强化了实证倾向，强调评价手段的客观性。判断时代的人文化倾向虽有所萌芽，但仍注重使用测量手段为价值判断提供依据。二是传统教育评价各有局限。测量时代的教育评价企图通过测验实现对复杂评价活动的可控可测，只关注到了可以被量化的内容，却使得评价背离个体社会化经验，违背教育本质及目的。描述时代的教育评价虽看到了教育及人的复杂性，但仍以标准化测验作为观测手段，且仅关注预设性目标，对生成性目标评价不足，也未提供教育目标制定的判断标准。判断时代的教育评价注重对教育目标合理性的判断，但这一时期的教育评价多见于上级对下级的评价，放大了评价者的价值涉入和决策偏好，其他利益相关者的价值诉求易被忽略。建构时代的教育评价虽尝试修正，在评价方法上却又走向了质的极端而招致质疑。

上述问题为现代教育评价走向整合指明了必要性。一是单维度的传统教育评价已无法满足多维度的社会系统发展需求，以整合应对复杂教育情境、处理多元利益主体的评价诉求成为必然。二是传统教育评价之争源自评价范式差异，量的评价与质的评价本是两种各有优势、互为补充且风格各异的评价方式，而现有的教育评价模式尚未能提供整合二者的有效途径。三是传统教育评价体现出一种强调目标预设、方案预设、过程预设，甚至是评价结果预设的线性思维，缺乏应对非线性问题的防御能力，这需要现代教育评价走向整合以降低不稳定风险。

2.整合的可能性：“第五代评价”理论的出现。20世纪90年代，在西方国家出现了一种新的评价策略—基于理论的评价（Theory-based Evaluations）。基于理论的评价指“在概念化、设计、实施、解释和应用评估时明确整合和使用利益相关者、社会科学、某种组合或其他类型的理论的任何评估策略或方法”。该方法最大的优势在于通过构建“项目理论”以阐明评价项目为什么运转、如何运转等问题，为评价行动和评价预期目标或结果之间的因果关系提供理论上的解释，有助于打开评价运行“黑箱”。构建和分析程序理论也为解决复杂情境中的固有问题提供了解决方案，尤其是在评估复杂的干预时，理论的解释力有助于预测意外情况、理解反常现象和减少不确定性。基于理论的评价在应对复杂教育情境时有着天然优势，为教育评价提供了新路径和新范式，因而被视为“第五代评价”出现的标志。

被视为“第五代评价”的基于理论的评价是一种整合的范式。首先，该理论以主张整合的批判实在论为思想基础。批判实在论认为世界是分层的、复杂的，由经验域、实际域和真实域等三个由浅至深的领域构成，实证主义仅关注到经验域，在社会现实中很难找到像实验室那样的封闭系统，通过控制变量就可得到想要的、可重复的结果，但建构主义却又放弃了对“实在”的思考，因而批判实在论认为二者均有局限。批判实在论致力于调和传统实证主义与建构主义的二元对立，破解两者的困境，改变分别仅以经验和意义界定真实，尝试走出一条整合并超越的第三条道路。其次，方法中立的现实主义评价是其基本主张之一。现实主义评价秉持方法中立原则，认为定量和定性的资料收集方法均可以用于揭示因果潜在机制。定量方法有助于客观描述评价过程及成效，用于揭示数量上的趋势；定性方法可以对隐蔽的、难以测量的内容与特质进行深挖。现实主义评价强调多途径搜集评价资料是充分理解教育实践复杂性的前提。最后，整合的思想贯穿于该方法的实施过程之中。该方法的核心包括：理论建构；理论指导评价问题设计；理论指导评价设计、计划和执行；理论指导进行测量；因果关系描述与解释。其一，理论构建涉及整合。构建理论既能单独采用利益相关者途径或社会科学途径，也可以根据评价项目及所要回应问题的复杂程度，整合利益相关者途径和社会科学途径，以组合理论的形式阐明项目运行过程及因果机制。但即使是单独使用利益相关者或社会科学途径，也需涉及对利益相关者与政策制定者、管理者在主张、观点、想法和期望等方面的整合，以及整合社会科学现有理论知识构建项目理论。其二，设计评价问题需要整合。该方法强调不仅要通过问卷调查、访谈等方式收集量化数据和质性数据，还要整合各方所关心的问题，确保评价问题明确具体、可操作可回答。其三，回答评价问题注重整合。主要是指根据所构建的项目理论和评价问题，综合选用多种研究方法，以及根据不同的方法逻辑确定多种收集资料的评价方式，保证评价资料收集的完整性。理论驱动型评价通过运用系统的理论框架整合各种评价方法以及整合事实与价值，可以有效地规避方法导向型评价中各种方法之间的冲突和巧妙地克服传统评价活动中事实与价值是相分离的缺陷。

虽然学界关于第五代评价理论是否存在尚持不同观点，但基于理论的评价仍为范式转变提供了可能，为现代教育评价走向整合构建了范例。然而，该方法也因存在理论建构困难、易有信效度风险、实施难度大、依赖充足资源投入等问题而限制了进一步推广应用，仍需要探索更具有可操作性的现代教育评价范式与其形成有效补充。

（二）如何整合：一种基于过程性的整合路径

在此尝试提出一种更具操作性且简捷的现代教育评价整合路径—整合型教育评价（Integrated Education Evaluation，简称IEE）。IEE以辩证唯物主义的基本原理（如质量互变规律、对立统一规律）、系统论、科学人文主义等整合的哲学作为思想基础，旨在通过整合量的评价与质的评价以构建现代教育评价新模式。IEE注重评价的过程性整合—在评价全过程中都强调以整合的思想作为核心，根据评价活动开展需要采用多种评价理念、评价方法，也可称为“过程整合评价模式”。

1.过程整合：IEE的内涵与特点。IEE核心在于“整合”。“整合”兼具多重含义：其一，多种评价理论的整合。不同评价理论各有适用范围，整合的评价理论可以增强评价项目的效能与解释力度，提升应对复杂问题的能力；其二，多种评价方法的整合不是方法的简单相加，而是指在教育评价的全过程之中渗透这些评价取向的思想和方法；其三，评价目的比评价方法更重要，方法只是达成评价目的的工具，目的决定方法。有些评价活动运用量或质的评价能够达到评价效果，也就不一定要同时采用两种方法；有的评价活动不适合某种评价方法，强行使用也是错误的。整合是一种思想，并非任何评价都需要整合。有效的整合需以评价效率、评价理性及科学性为基础。

IEE倡导的是所有评价方法在所有的评价过程之中的整合，而不仅仅是量的评价加上质的评价。其主要特点体现为“三个整合”。一是强调全过程的每个环节都需要整合。所有的方法均可以也需要在评价全过程中整合。比如，评价问题确定、评价方案设计等环节将涉及调研、会谈、资料查阅，甚至是开展诊断性测验等相关工作；教育评价实施过程中需要根据不断涌现的问题随时调整评价方法或综合使用多种评价方法。二是强调所有方法均可整合。不仅量的评价与质的评价可以整合，而且量的评价之间、质的评价之间的各种方法也可以整合。比如，既使用观察法对评价对象进行观察，又记录评价对象某些行为、表述的出现频次，从不同侧面深化对评价对象的认识；使用三角互证法比较从不同立场、不同方法所获得的资料，测试和修正评价结论。三是强调思想的整合。最重要的思想包括：方法本身没有好坏之分，关键看评价活动适合采用哪些评价方法；任何单一的评价方法都有局限，无一例外；不同的评价方法具有互补性，使用多种方法可以扬长避短；评价方法与评价目的具有相互作用，无所谓的孰轻孰重之分。

2.整合程序：IEE的实施要点。从评价准备、评价实施、评价结果分析反馈等一般阶段阐述教育评价过程如何“整合”。

评价准备阶段的“整合”主要涉及评价目的确定和评价方案设计。评价目的确定需以广泛调查分析和综合应用多种评价材料收集方法为基础。以学校评价为例，可以整合量化评价法和质性评价法对学校管理人员、教师、学生，甚至是后勤人员开展问卷调查、访谈，多角度收集学校整体信息，评估问题及风险，了解不同利益群体的核心关切和发展诉求。评价者需依据评价理念梳理整合评价材料，对评价问题进行价值排序，从而确定学校评价目的是促进管理改进、提升教学质量还是划分等级。多种信息收集方法的整合使用有助于评价者获取足够背景资料建构问题全貌。评价活动目的的最终确定并不是靠演绎模式，而更多的可能是归纳模式，或者是这两种模式的整合。在评价方案设计环节，量的方法对于确保指标体系信效度虽至关重要，但评价者也会基于理解和经验等进行分析判断和价值取舍。评价内容确定、量化指标与质性指标占比及权重等，都是客观中体现着主观。评价标准构建也需要整合不同类型的评价标准。比如，评价学校教师队伍结构可以在参照标准上使用社会标准，在内容标准上使用素质标准。在此过程中，最重要的问题不是量的方法和质的方法能否同时使用，而是指标设计者关于量的指标和质的指标的价值思考，以及如何通过整合使指标体系和评价标准最大化满足评价需求。

评价实施阶段的“整合”主要涉及评价方法选择使用。评价方法选择与评价问题、评价目的、评价对象等要素并非一一对应，有时同一评价问题可以选择不同评价方法，同一评价方法也能服务于不同评价目的。对此，可将不同类型的评价方法视为一个可供多项选择的方法集合。例如评价学生学习能力时，既可以使用测验法评价学业表现，也可以使用问卷法评估学习效能感，还能通过档案袋评价法评价学生进步程度，又或者设计表现性任务评价知识综合运用能力等。这些量的评价方法和质的评价方法都能整合使用。评价方法整合需消除人为的“量”和“质”的标签影响。评价者不仅要对量化评价法和质性评价法在理论基础、价值取向、功能和标准等方面的异同了然于胸，还需要站在思维逻辑高度，对这些要素进行抽离和重组，实现“整体的功能大于各部分功能之和”。须强调的是，整合的结果并非形成具体且有固定形式的评价模式，而是从理性和逻辑上引导评价者通过方法整合来审视评价对象或内容的复杂性，消除方法间的二元对立。由此观之，整合型评价是对已有评价模式的反思和超越。

评价结果分析反馈阶段的“整合”涉及评价信息的处理分析和评价结果反馈。在分析资料时要注意使用三角互证法对有关结果进行分析。如果一项评价活动同时使用了量的评价和质的评价，那么除了要运用多种教育统计学方法对评价结果的统计量进行检验分析之外，还要注重使用解释学、建构主义、心理学、社会学等多种理论整理归纳资料，从无序中发现规律和价值。由此构建三角互证资料，共同为评价项目提供支撑。形成评价结论时也涉及方法和理论上的三角互证。评价者不仅要综合运用教育学、统计学、模糊数学的相关理论和方法，对量的结果（如统计数据）与质的结果（如描述性信息）进行整合处理，形成初步评价结论，还可以借鉴项目理论建构模式，从利益相关者理论、社会学科理论或者二者整合的途径去建构解释评价结果的理论框架，阐明评价产生的影响及其运行机制，帮助被评价对象更好地理解评价过程并改进。此外，通过整合的形式能提升评价结果反馈的有效性，如连续性文本与非连续性文本整合、静态文本与动态文本整合等。

四、结语

现代教育评价应走向整合，以整合型的教育评价范式应对日益复杂的教育评价活动，满足教育高质量发展的时代需求。教育评价各种范式的整合受许多因素的影响与制约，但若要真正实现整合，还需要做出更多努力。首先，评价者需要提高自身的评价方法素养。评价者要学习和使用各种评价方法，要避免在不了解的情况下对任何一种方法的随意使用或横加指责。如果评价者对各种评价方法都不太熟悉，何谈整合？其次，要创造出本土化的评价模式。各种评价方法整合的方式和途径是多种多样的，在教育评价本土化的过程中，需要的是问题创新和方法创新的双向互动，要创造出适合的本土化的评价方法。从这一角度而言，本文提出的IEE是一种有益的尝试。

（本文参考文献略）

Where Should Modern Educational Evaluation Go: Comment on the Fourth Generation Evaluation

HuZhongfeng LiYifei

Abstract: The reform of educational evaluation is deeply influenced by the fourth-generation evaluation. The fourth-generation evaluation based on construction and negotiation excessively praises the philosophy of naturalism, facing criticism from both theorists and practitioners, and getting entangled in dual controversies regarding rationality and practicality. Modern educational evaluation needs to break through the inherent limitations of the fourth-generation evaluation, maintain vigilance to break the shackles of monism of evaluation theory, maintain reflection to enhance methodological self-awareness, and maintain a focus on process to alleviate the evaluation dilemma. Based on the new developments of the “fifth-generation evaluation” theory, modern educational evaluation should move towards integration, especially process integration.

Key words: fourth-generation evaluation; modern educational evaluation; quantitative evaluation; qualitative evaluation; integrated education evaluation

初审：王悦桦

复审：孙振东

终审：蒋立松