无标题文档

新高考目标的测评路径探析

  发布时间:2020-01-13 15:17:03

来源:《中国教育学刊》2019年第11期  作者:李化侠 辛涛

 

摘 要:新高考的目标定位于科学地选拔人才、促进学生健康发展、维护社会公平。从测评的角度而言,测验的标准化、现代化是落实高考人才选拔目标的重要路径,完善标准参照测验、推动综合素质测评落地、加强基础教育质量监测制度是实现新高考健康育人目标的路径,完善测验流程、减少测验项目功能差异是实现新高考维护社会公平目标的路径。在使用测评技术推动新高考目标的同时,也应注意测评技术对实现高考目标的限度。

关键词:新高考;测评路径;综合素质评价;学业水平考试;基础教育质量监测

 

一、新高考的目标及测评方式

(一)新高考目标的由来

高考是教育领域具有政治意义和全局意义的重要工作,关系到国家的发展大计、千万学子的前途、社会的和谐稳定。[1]高考为我国培养了大量人才,改变了无数人的命运,牵动着千家万户的心,在推进阶层流动、社会公平、社会进步、文化提升和人才选拔方面起到了重要的积极作用。同时,人们对高考的作用也有不同看法,认为高考给学生带来了不利影响,导致应试教育的发生、阻碍素质教育的发展,有调查显示:26%的被调查者认为高考对学生的消极影响大于积极影响,70%的被调查者认为高考给中学生造成的压力非常大,32%认为比较大。[2]为了使高考能扬长避短,党和国家不断推进高考改革,改革开放40年来已进行了各个层面40次左右的改革。[3]

2014年9月《国务院关于深化考试招生制度改革的实施意见》发布,明确要以育人为本、完善规则、科学高效、统筹规划等为基本原则,建立中国特色现代教育考试招生制度,形成分类考试、综合评价、多元录取的考试招生模式,健全促进公平、科学选才、监督有力的体制机制,进而合理配置高等教育资源、促进入学机会公平和社会公正,优化人才标准和评价方式、科学选拔合适人才,引导基础教育深化改革,促进学生全面发展。[4]在该意见的指导下,新高考政策首先在上海、浙江实验,而后山东、江苏、北京等地发布实施了“3+3”模式。2019年4月,河北、辽宁、福建、江苏、湖北、湖南、广东、重庆8个省市在借鉴以往经验的基础上发布了“3+1+2”模式,该模式进一步明确提出新高考的指导思想和总体目标是有利于促进学生健康发展、科学选拔人才、维护社会公平。

(二)新高考的测评方式

与探索实验期的“3+3”模式相比“3+1+2”模式的统考科目依然包括语文、数学、英语3科,满分150分,采用原始分计分,不分文理科,但将选考科目分作了两类:首选科目和再选科目。首选科目即学生必须在物理和历史两科中选择1科,该科满分100分,采用原始分计分,目的是加强基础教育与高等教育间的链接,提升高等教育阶段学生的培养质量。采用原始成绩计分的原因在于使成绩具有可比性。再选科目是学生从思想政治、地理、化学、生物四科中选择2科,使用等级赋分转换后再将成绩计入高考总成绩,每门满分100分。采用等级赋分的原因在于尊重学生的学习兴趣,体现不同学科试题的难度差异。

应该说“3+1+2”模式能较好地均衡社会对人才的需求及学生兴趣特长的关系,在计分模式上也相对充分地考虑了考试的公平性,有利于学生发展和社会公平。然而,我们也看到,新方案只是对“两依据、一参考”中的“依据一:高考成绩”作出了详尽说明,而对“依据二:高中学业水平考试成绩”及“参考:综合素质评价”解释不足。

(三)新高考的测评技术探索

考试是一种测验方式。[1]新高考背景下,学者们对测评技术做了许多探讨,如高考综合改革方案[5]、高考改革政策公平性和技术相容性问题[6]、选考科目计分方式[7]、学业水平等级考试赋分方案的策略[8]、新高考中学业水平考试成绩转换[9]、新高考选考科目赋分的方案[10]、合成分数[11]等。然而,教育评价系统是人为系统“人为事物只要存在,就必须有功能、目的的定向,功能和目的发展了,结构也必须随之改变。在人为系统的发展中,新的目的和功能要求具有重要的先导作用和推动作用”[12]。新高考改革是复杂的、综合的,不仅涉及考试技术,也不仅是考试本身,仅就教育领域而言,就涉及政策体制、评价机制、人才观念、教育教学等各个方面[1],纠缠于某一技术细节是错误甚至有害的[5]。因而围绕高考目的进一步厘清各类测验的功能特点,是新高考顺利推进的重要保障。本研究试从新高考的目标出发,探寻实现新高考目标的测评路径。

二、测评技术对教育目标的支撑

测验目的不同,测验形式也不同,不同形式的测验关注的重点和解决的问题也有差异,这是教育评价的常识。教育评价具有反馈、导向、鉴定和激励功能[13],可分为相对评价、绝对评价、个体内差异评价三种方式[14]。下文从三种评价方式的内在特点分析适用的评价目的。

(一)相对评价方式与人才选拔的目的

相对评价是一种团体参照测验,是从被评价对象的团体/总体中选取一个或多个对象,制定评价标准,将团体的对象与评价标准进行比较,或者用某种方法把所有评价对象按先后顺序排列,了解个体在团体中的相对位置。这种评价方式便于比较,适应性强,应用面广,个体可以了解自己在团体中的优劣状况,被激发出竞争意识。先后排序的方式非常适用于定额选拔的情境。

但是,这种评价的结果仅仅能表示出被评价者的相对位置,不一定能表示出实际水平,因而有客观性不足的风险。另一个重要问题是易出现“水涨船高”现象,不管个人如何努力、进步多大,都用名次等相对位置来体现,容易使被评价者产生激烈竞争,诱发学生和家长产生“军备竞赛”的心理及行为,加重学生的学业负担、心理负担。这种评价方式还可能会挫伤部分排名靠后的学生的积极性,特别不利于他们的发展。

(二)绝对评价方式与人才培养质量

绝对评价是一种目标参照测验,是从评价对象团体/集体外选择一个“客观标准”将被评价对象与该标准进行比较,评价其达到标准的程度。这种评价方式创设了一个相对稳定的客观标准,使被评价者更加清晰“达标”“合格”的标准,因而心理压力较小,更利于朝向目标努力。测评结果相对更加客观、科学,被评价者可据此了解和把握自己的实际水平,明确与客观标准之间的差距,采取有效的行为,更好地发挥测评对学生培养规格和质量的作用。

但是,绝对标准的制定要高度关注,尽量做到客观、公正、合理,避免人为的主观性。同时,这种方法不易体现出个体在集体中的位置和进步程度,可能出现竞争气氛不足的问题。

(三)自我评价方式与个体进步

个体内差异评价是一种自我比较的评价,是把被评价对象的过去和现在进行比较,或者同一个问题的一个方面与其他方面进行比较。这种评价可以充分照顾到个性差异,比较被评价者的进步状况,但也存在按照个体自身的价值原则、没有统一标准,难以比较、无法令人信服的弊端。

从测验承担的主要功能来看,人才选拔较多地会对学生进行排序,根据名次录取,人才培养侧重于达到教育目标和人才培养规格,自我评价是促进个体自我了解、自我督促、自我提升的重要方式。不同形式的测验承担的主要功能有所不同,或者说,要实现测验的不同功能,应该选择怡当的测验方式。

三、实现高考新目标的测评路径

(一)实现人才选拔目标的测评路径

高考的主要目的是选拔。[1]这一目的使高考具备了高关联性、高复杂性、高影响性、高风险性的特征,因而特别需要技术支撑。邓小平提出的科学技术是第一生产力的论点特别适用于新高考人才选拔的情境,测评技术可以在很大程度上保障人才选拔的科学性、公平性。

1.测验标准化路径

测验的标准化指的是测验编制、实施、评分及分数解释的标准化,它包括很多具体的要求和指标。例如,明确规定考试的内容范围和命题依据、知识与能力的层次要求、试题的难度、题型及其比例、施测的过程、计分的方式、需要注意的问题、如何对原始分数进行转换、如何根据测验结果对考生作出适当的评价等各个方面。2018年浙江英语主观题赋分事件、“葛军”成为题难的网络代名词,都与测验的标准化程度不足有关。标准化测验的题目难度应该适中,大约50%的被试能够正确回答的题目是比较理想的,如果90%的被试都能答对一道题目,那么对于常模参照测验来说,这就不是一个好题目;同样,90%的考生都不能答对的题目也不是好题目,难度值在0.3-0.7比较合适。不仅如此,标准化测验还有一个重要指标一区分度,它指的是题目区分高水平学生和低水平学生的能力,在题目难度适中的情况下,题目的区分度应该高于0.3。[15]从选拔性考试的角度看,试题的难度必须有一定的梯度,以对不同水平的学生加以区分。从测验标准化的角度而言,高考不应该被公众舆论的“难度”绑架,但也要考虑试题的难度分布。

2.测验现代化路径

新高考使用选考科目,本意是增加学生的选择,然而在主要功能是选拔的情境下选科出现了问题,如物理选科人数过少。正是因为认识到了这些问题,考虑到物理、历史在学生发展中的重要作用,多个省市调整了策略,推出了“3+1+2”将物理、历史作为选考的必考科目。这种变化,实质上是从技术的角度改进测验的人才选拔功能。除了策略调整,现代化的测评技术有助于科学、公平地选拔人才。

首先,加强对项目反应理论的应用,这是选拔出高思维水平学生的现实需要。虽然项目反应理论的发展已有几十年的历史,但国内除了基础教育质量监测,高考、中考等大型重要考试还应用较少。现代测量技术的应用滞后,使得测试工具中试题难度与学生能力分离的困境难以解决,原始分数的简单相加无法区分高层次思维水平与低层次记忆水平的学生,测试中“贝多芬(背多分)”现象屡屡出现。项目反应理论将学生的能力和试题的难度放在同一个标尺上,解决了传统测量理论试题难度值随学生水平变化而变化的情况,学生的能力值不因试题难度的变化而变化,不会再出现试题难度大显得学生分数低、试题难度小显得学生能力水平高的问题。

其次,加强测验的等值研究与应用,这是英语一年两考及不同选考科目可比较的现实需要。英语一年两考后,两次测验的可比性成为公众关注的重要问题,2018年浙江高考赋分事件充分体现了测验等值的重要性。另外,不同学科的分数等值问题也十分引人注目。新高考方案实施初期,曾出现了物理选考人数少的现象,原因在于单科的物理成绩进行百分等级划分时仅仅依据了考生名次,而诸多名校又要求选考物理,成绩优秀的学生基于对自身的期望为报考名校而选考物理,强强竞争,造成了部分能力较高的学生物理成绩排名靠后[16],等级分数低于甚至严重低于原始分。而有一些学科由部分成绩一般甚至较差的学生共同选择,排序后分数也转换成与物理等级分数相同的分数,但这些等级分可能会远远低于原始分,造成选考不同学科的学生考分不公平。因而,科目选考背景下,加强不同科目分数的等值处理十分关键,这是科学、公平选拔人才的重要保障。

(二)实现人才健康发展的测评路径

新高考的第二个目标是人才培养。针对教育中存在的片面追求升学率现象,20世纪90年代,教育界提出了素质教育改革,发展学生综合素质评价、课堂教学改革评价、发展性学校评价,利用评价的功能来发挥学生发展、教师提高和改进教学实践的功能。但目前中小学评价与考试制度和全面推进素质教育的要求还不相适应。[17]新高考又一次明确提出有利于学生发展的原则,既是国家评价育人政策的历史延续,又是将考试评价与基础教育教学改革连接的积极尝试。在人才健康发展的理念下,落实发展性评价的测评理念、丰富标准参照测验、拓宽教育评价渠道十分必要。

1.倡导和使用发展性评价

在新的高考方案中,综合素质评价成为新高考录取的重要参考。相关解读认为“开展综合素质评价,有利于学生促进自我认识、自我完善,积极主动地发展;有利于把握学生的成长规律,从过于关注学生成绩向更加关注学生发展过程转变,切实转变教育观念和人才培养模式;有利于促进评价方式改革,改变以考试成绩为唯一标准评价学生的做法,为高等学校招生录取提供重要参考。”[18]然而,与高考的科目选择、每科计分方式的详细说明相比,学业水平考试的使用方法,开展学生综合素质评价的具体方式、综合素质测评结果的使用办法还不够具体,特别是人们普遍关注的“综合素质评价”,当前的方案及政策解读里还仅仅列出了五个测评的维度,未详细说明五个科目怎么考、比重占多少、怎么计算分数等问题。因而,综合素质测评的落地问题需要进一步探讨。

2.丰富和加大标准参照测验

学业水平考试是依据学生课程标准所进行的考试,目的是考查学生对学习目标的达成情况,学业水平考试不同于比较名次的相对评价,它以课程目标为参照标准,是避免恶性竞争、剧场效益、避强邻弱的重要方式和促进学生健康发展的重要手段。在主要依据“高考成绩、学业水平考试”的录取规定下,应当进一步加强学业水平考试,切实提高学生的综合素质,不能为了“减负”而注水。可以说,采用目标参照测验的形式、完善学业质量标准、加强学业水平管理,是健康育人、全面育人的重要方式。

3.借鉴和发展教育质量监测制度

有研究认为我国基础教育中的选拔性评价体系与发展性评价体系对立、教育改革与教育评价对立,应该为高考“减负”,减少高考承担的社会功能。从发展性评价的角度来看,我国的基础教育质量监测或可承担这一功能。2016年我国设立了国家教育质量监测曰,基础教育质量监测成为我国的一项基本制度和义务教育健康发展的“体检仪”与“指挥棒”[19],已经成为监督、改进教育质量,引导学生健康发展的重要制度。拓宽人才健康发展的评价渠道,将基础教育质量监测与高考制度作为提高人才培养质量、学生健康发展的两翼或许是可行之道。

(三)实现社会公平的测评路径

新高考的第三个目标是促进社会公平。教育公平是教育改革的价值追求,教育所承担的推动社会公平的作用,在于教育可以实现阶层流动。教育促进社会公平的价值取向,强调考生公平地享受公共教育资源,特别是公平、公正的高考机会。它在高考政策中的体现是:在正常情况下,考生在考试、计分和录取等环节应当被平等对待,参与招生的大学也应当对之平等对待,同时应当照顾弱者。[6]从测评的角度来看,标准化的测验流程、公平的测试题目是实现社会公平的重要途径。

1.进一步完善测验流程

设置科学完善的测验流程,是新高考改革顺利推进的基础性工作。高考作为一种教育测验形式,在理论上应该经过测试框架制定、试题开发、施测、评分、分数处理和应用几个环节。测验过程中,应特别注意使用标准化的过程收集学生的真实作答反应,如做好试题保密、考试纪律考纪严明等工作;在测验的评分环节,要对评分专家进行统一培训,制定正确、合理的赋分标准,确保答案准确无误、评分标准统一;在分数处理及应用环节,要解释分数处理所依据的理论、分数处理的具体方式、分数的应用情境等问题。这些环环相扣的测验流程,是测验公平的重要保障,测验流程不完备或者任何一个环节出现问题,都会影响测验的公平性。2018年浙江高考英语赋分事件,即与分数处理的不完善有关,后续应当吸取教训。

2.减少测验项目功能差异

测验的公平性问题是测验研发者、使用者乃至整个社会所普遍关注的一个非常重要而又异常复杂的问题。[20]例如,2015年女儿举报爸爸在高速公路上打电话、2017年共享单车等高考作文题被指忽视了农村孩子的感受,高考的“城市化倾向”明显。有研究显示,高考成绩的性别差异源于部分试题,对男女两性的高考成绩并不公平,特别是语数外三科作为考试必考科目,女生在语文、外语两门科目上具有优势,抹杀了男生的数学优势,造成“男孩危机”。[21]项目功能差异(differential item functioning,DIF)是教育测评领域关注测验公平性的技术,它能够通过统计手段科学、有效地检测出对不同群体的考生可能产生不公平对待的题目,从而确保测验对每个群组的考生都公平有效。要发挥高考推进社会公平的功能,必须进一步加强高考题目对不同群体的公平对待。

四、测评路径实现新高考目标的限度

以上从测评技术的角度分析了如何落实新高考的人才选拔、人才培养、社会公平目标,然而教育是个系统工程,教育问题背后是社会问题。当前社会普遍关注的教育公平、高考公平问题仅仅是诸多社会公平问题的冰山一角,只有在政治权利、经济权利与社会权利均有较为均衡的保障的前提下,教育公平才能有效推进和运行,若无前者的综合保障,寄希望于薄弱的教育公平之力去推动社会诸层面的公平,无异于螳臂当车。[22]只有从政策演进的角度深入分析新高考改革的必然性与合理性[23],进一步研究我国基础教育中的选拔性评价体系与发展性评价体系、教育改革与教育评价的关系[24],明晰我国高考的主要功能,才能破解“高考改革呼唤的新做法”与“学校实际运行的旧模式”、“高考改革育人导向”与“学生选择利益导向”、“高考改革系统设计”与“政策执行短期博弈”[25]之间的矛盾。新高考要真正发挥促进社会公平、阶层流动的目标,除了在测评技术上的改进,更应该有促进教育公平的政策措施,例如在农村、教育不发达地区投放名校的教育指标,增加高考人数较多省份的招生人数,使不发达地区的学生有接受高等教育的机会,高考竞争激烈省份的学生有更多接受优质高等教育的机会。

总体来看,新高考要顺利实现其目标定位,需要在测评技术上作出更多努力。但技术服务于目标,且未必能完全满足目标的要求,有些功能单靠测评技术是难以实现的,或者说只能有限度地实现。作为高度复杂、高度受重视、具有高利害功能的高考,或许需要对其功能定位进行再审视,并充分考虑可操作方式。

 

参考文献:

[1]于涵,韩宁,关丹丹.关于新高考改革背景下考试质量监测与评价工作的思考[J].中国高教研究,2018(10).

[2]樊本富,韩福山.关于我国高考制度改革的调查研究[J].教育与考试,2015(6).

[3]苏娜,魏晓宇.改革开放40年高考招生制度改革述评[J].全球教育展望,2018,47(7).

[4]钟秉林.高考招生制度改革的走向与挑战[N].光明日报,2014-09-08(006).

[5]杨志明,范晓玲,周楠.高考综合改革方案的测量学探讨[J].中国考试,2018(11).

[6]温忠麟.高考改革:政策公平性与技术相容性[J].全球教育展望,2014,43(2).

[7]温忠麟.新高考选考科目计分方式探讨[J].中国考试2017(12).

[8]杨志明.完善新高考学业水平等级考试赋分方案的三种策略[J].教育测量与评价,2018(12).

[9]臧铁军,杨君.新高考中学业水平考试成绩转换研究[J].教育研究,2017,38(12).

[10]于涵,韩宁,关丹丹,等.关于改进新高考选考科目赋分方案的若干思考[J].中国高教研究,2018(6).

[11]辛涛.国外大学入学考试分数合成方式及其启示[J].中国考试,2018(6).

[12]叶澜.教育发展研究论初探[M].上海:上海教育出版社,1999:200.

[13]朱德全.教育测量与评价[M].北京:高等教育出版社,2016:16-18.

[14]吴钢.现代教育评价教程[M].北京:北京大学出版社,2015:45.

[15]戴海琦.心理测量学[M].北京:高等教育出版社, 2015:69-70.

[16]潘昆峰,刘佳辰,何章立.新高考改革下高中生选考的 “理科萎缩”现象探究[J].中国教育学刊,2017(8).

[17]张向众.中国基础教育评价的积弊与更新[M].北京:教育科学出版社,2009:64.

[18]重庆市教育考试院.重庆市深化普通高等院校考试招 生综合改革政策咨询[EB/OL].(2019-04-23)[2019-07-03].http://www.cqksy.cn/site/infopub/ 2019/gg/index.html.

[19]教育部.我国首份《中国义务教育质量监测报告》发布[EB/OL].(2018-07-24)[2019-07-03].http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/s5987/201807/t20180724_343663.html.

[20]朱乙艺,韦小满.我国成就测验的项目功能差异研究述评[J].教育与考试,2012(1).

[21]邵志芳,庞维国.高考成绩性别差异研究的回顾与展望[J].华东师范大学学报(教育科学版),2016(1).

[22]刘云杉.教育公平能否实现“逆袭”[N].中国青年报,2014-01-14(002).

[23]项贤明.我国70年高考改革的回顾与反思[J].高等教育研究,2019,40(2).

[24]董泽芳,李木洲.关于高考改革取向的思考[J].中国考试,2017(10).

[25]周彬.新高考改革:经验、困境与出路[J].教育学报,2018,14(4).

 

责任编辑:李睿