光明日报社《考试》:新型教育评价技术破解教育评价改革难题
新型教育评价技术破解教育评价改革难题
张勇
中国教育主管部门推动教育评价改革的努力历时已久。从2001年《基础教育课程改革纲要(试行)》、2002年《教育部关于积极推进中小学评价与考试制度改革的通知》,到2013年的《教育部关于推进中小学教育质量综合评价改革的意见》,由社会专业机构参与教育评价的“第三方”模式的政策指向已经越来越清晰。然而,教育评价要改革成功、要想在中国走出一条第三方的“康庄大道”,仅有制度、政策的推动远远不够。考察第三方教育评价发展较为成熟的美国,其成功经验给予我们的重要启示是:专业机构的专业技术能被市场和国际所认可,才是教育评价改革成功及第三方教育评价之路得以“走得好、走得远”的关键保证和保障。因此,在当今的中国,教育评价技术的科学化、专业化,是推动教育评价改革、推广第三方教育评价亟待解决的首要问题。在笔者看来,无论是哪个第三方专业机构,其教育评价技术若想得到社会各方的认可和信任,并得到大范围推广,必须能妥善解决中国教育评价中存在的一系列问题,因此,必须要满足以下几个基本的前提条件:
第一,要符合国家提出的关于教育评价与考试改革的新要求。
无论是2002年《教育部关于积极推进中小学评价与考试制度改革的通知》,还是2013年《教育部关于推进中小学教育质量综合评价改革的意见》,都明确指出我国当前教育评价与考试中突出的问题是“评价内容上重考试分数忽视学生综合素质和个性发展,在评价方式上重最终结果忽视学校进步和努力程度,在评价结果使用上重甄别证明忽视诊断和改进”,因此严重阻碍学生的健康发展和教师的专业提升。针对这一问题,2013年教育部出台的文件特别强调要“更加注重发挥评价的引导、诊断、改进、激励等功能”。从上述两个文件中不难看出,历经十多年,我国教育评价与考试改革的主题基本未曾发生变化;这也意味着,教育评价与考试中的难题始终没有得到根本性的破解。因此,任何一项教育评价技术,若不能在“引导、诊断、改进和激励”功能上取得实质性的突破,就无法满足国家提出的关于评价与考试改革的要求,也必然无法为社会各方所认可和信任。
第二,要符合新课程改革的课程目标和标准要求。
我国新一轮的课程改革始于1999年,历经十余年的探索和实践,在2011年推出了教育改革的重要成果——课程标准(2011版)。以学科教育为例,学科教育的课程目标、标准和评价,是基于“三维目标”( 《基础教育课程改革纲要(试行)》)及“学科学习目标”(《教育部关于积极推进中小学评价与考试制度改革的通知》)。新版的课程标准,将以往的教学大纲中规定的“双基”课程目标调整为“知识与技能,过程与方法,情感态度和价值观”的三维课程目标,并依此形成和完善课程标准。同时,针对课程评价,2011版的课程标准中也明确指出课程评价应“全面落实课程目标”。根据泰勒的课程编制原理,教学的封闭循环系统是先有课程目标和标准,然后依据课程目标和标准组织并实施教学,最后采用评价来诊断和评估教学实践的成果在多大程度上实现了课程目标和标准,从而为教学实践的调整提供重要的参考信息。教育评价的科学规律应该是教学服从于课程目标、评价与课程目标标准相匹配,才能使教育的结果向着课程目标、标准所引导的方向发生。道理似乎很简单,但是我国现行的考试与评价,由于种种原因(主要是由于体制和技术落后问题),评价目标依旧是“双基”课程目标,评价标准实质仍是“双向”细目,评价目标、标准与新课程目标、标准严重脱节。加上评价技术和方法落后,评价手段单一,从而导致国家所倡导的素质教育在实践中成为“镜中之花,“水中之月”。
除了学科教育的这种评价现状外,基于“基础性发展目标”的“综合素质评价”(也称“基础素质评价”),以及基于学业评价和综合素质评价及人才培养目标的“综合评价”,在我国目前基本处于空白。根据《基础教育课程改革纲要(试行)》与《教育部关于积极推进中小学评价与考试制度改革的通知》等文件,2010年教育部发布了《综合实践活动课程指导纲要(2010)》、《综合实践活动课程标准(2010)》,2013年发布了《教育部关于推进中小学教育质量综合评价改革的意见》,并给出了《中小学教育质量综合评价指标框架(试行)》,明确提出了基于“基础性发展目标”的“综合素质评价”,以及基于学业评价和综合素质评价及人才培养目标的“综合评价”。 综合实践活动课程、综合素质评价以及综合评价的提出,对我国教育评价提出了更新、更高的要求。
课程改革走到今天,许多学者都纷纷指出,现有的评价目标、标准、理论、技术、方法等若不能有实质性的改变,课程改革的“瓶颈”将无法突破,以至于全国政协副秘书长、民进中央副主席、中国教育学会副会长、中国新教育实验发起人、博士生导师朱永新教授说“庆父不死,鲁难未已;评价不改,教育难兴”。因此,新型的教育评价技术必须要解决评价目标、标准、内容、理论、方法等,与新课程目标和标准相匹配的问题。
第三,要能与国外、国际学业成绩评估接轨。
我国新一轮的教育改革发生的背景是全球化、知识经济以及信息化时代的到来导致教育的国际竞争越演越烈。我国教育与国际接轨已是毋庸置疑,教育改革的目的是“树德立人”,以及人才培养能适应未来的国际竞争,作为“教育实施、教育评价、教育咨询”这个教育自循环系统中一个重要的环节,教育评价也必然要与国际接轨。
当前,国际上影响较大的教育评价项目主要有两个,分别是国际经济合作与发展组织(OECD)主持的国际学生评价项目(简称PISA),以及国际教育成就评价协会(IEA)主持的第三次国际数学和科学教育的再研究(简称TIMSS-R)。这两个国际学业成就评估项目的参与国家和地区都超过了40个以上,评估结果也成为各个参与国制定教育政策、推进教育改革的重要参考。此外,也有越来越多的国内学者在关注和研究美国国内唯一的国家基础教育质量监测和评价体系——“全国教育进展评价(简称NAEP)”。这些评估项目的共同特点是有明确的评估理念,有多元、多维的评估指标。尤其是NAEP项目,还为每一位学生提供项目、多指标的教育报告卡,来展示该学生“知道什么”和“能做什么”。
随着中国中高考改革的推进,中国与其他国家之间考试以及评价成绩,进行对接、异质比较、等值转换等的问题也会日益突出。中国教育评价若不能从这些国外、国际评估项目中学习和借鉴先进的理念和经验,发展出既满足本土需求,又能与国际接轨的理念、技术和方法,并能有效进行成绩之间的异质比较或等值转换,中国教育仍会将因为无法有效可靠的接轨,而处于被动局面甚至“闭关锁国”状态,中国的教育评价改革难以实现,教育评价第三方之路也会行将不远。
如上所述,在中国教育“深化教育领域综合改革”之下,只有革新教育评价技术,才能破解中国教育评价改革难题。
历时10余年,由国内民间专业机构公众青少年素质能力研究中心、公众教育研究院、公众考试研究院,研发的ACTS学业评价技术、ICTS综合素质评价技术和TAST考试技术,正是满足上述条件的新型教育评价技术。
ACTS学业评价技术,是针对“学科学习目标”的学业评价技术;ICTS综合素质评价技术,是针对“基础性发展目标”的综合素质评价技术;TAST考试技术,是针对人才培养目标的评估与选拔技术。
限于篇幅,仅就ACTS学业评价技术为例做一下说明和介绍。 ACTS是英文全称Ability and Competence Test System的首字母缩写,中文名称为“学业素质与能力评价系统”。该评价系统的核心技术即ACTS学业评价技术。ACTS学业评价技术以教育目标分类学、认知建构理论、多元智能理论等国际应用广泛的教育理论为基础,借鉴国际最新的测量评价发展趋势,通过构建一个以“知识、技能、能力”为显性维度,以“方法、过程、策略”以及“情感、价值、态度”为隐性维度的三维多元多层测量评价技术模型,以多元、分项、多维的方式来测量、评价、诊断和甄别学生在“三维目标”和“学科学习目标”上所取得的成绩、存在的问题和原因以及未来发展的潜力,从根本上解决了当前学科教育评价不能诊断、不能反映课程目标和标准,以及评价不与国际接轨的问题。
同传统评价相比较,ACTS学业(素质)评价技术无论是在理论与技术模型上,还是在试题的编制、赋分、分析、成绩报告与解释等上,都有着本质的突破和明显的优势,具体表现在以下方面:
1. 在有机整合国际知名教育理论以及教育学、心理学等学科的最新研究基础上,建立了多元、多维的评价技术模型,使学业诊断和甄别有据可依。
目前中国教育评价与考试所应用的理论,实质仍以美国40、50年代盛行的泰勒评价理论为主,未能将教育学、心理学的最新理论和研究成果应用起来。而当今世界的教育评价和考试,已经进入了以“教育目标分类学”,“多元智能”,“认知建构”等理论为基础,以“认知诊断”等方法为主的时代。尤其是布鲁姆(Benjamin Bloom)提出的“教育目标分类学”明确指出,教育评价与考试应围绕“知识、技能、能力”(认知领域)、“过程、方法、策略”(心智运动领域)、“情感、价值、态度”(情意领域)三维目标展开;多元智能理论的提出,对传统的以“刺激-反应”为模式的智力测验技术和方式提出了挑战,同时也对以这种智力测验为核心和基础的学业评价技术和模式提出了革命性的要求;而认知心理学的发展使得对学生学习中发生的思维过程和机制的诊断成为可能。ACTS学业评价技术将这些理论、技术和研究发现有机整合起来,建立了一个以“知识、技能、能力”为显性维度,以“方法、过程、策略”以及“情感、价值、态度”为隐性维度的三维多元多层测量评价技术模型。评价结果由于有坚实的理论基础和科学的依据,不但科学可靠,也解决了学业评价上的关键问题——强大的诊断和甄别功能。
2. 在试题赋分、计分和统计分析上,依据认知与思维等发生过程,采用对知识、技能和能力测量点,分别赋分的结构化方式,形成了以“知识、技能、能力”为显性分数结构,以“方法、过程、策略”以及“情感、价值、态度”为隐形分数结构的多元三维分数结构,为诊断和甄别提供丰富的信息。
我国现行的教育评价所使用的测量方法,是以考察知识点为主、以题型作为赋分权重,以加总答对题目之分值为测量结果。这种测量方法存在的弊端是:
第一,同一题型赋分相同的假设,是相同题型的题目——考察的知识、技能和能力,以及认知与思维等发生过程也完全相同。任何一位有教育和考试经验的人都知道,这种假设在现实中完全不成立,依据这种假设进行测量,存在致命的缺陷和失误。比如,会导致在基础技能上有良好表现的学生,和在高级技能上有良好表现的学生会获得相同的分数,弱能力学生与强能力学生会获得相同的分数等问题,评价的信度和效度因此受到严重干扰;
第二,任何一道试题的应答情况,反映的都是学生综合运用知识、技能和能力的结果,反应学生不同的认知和思维等发生过程。每道试题仅依据题型和知识点给予一个分数,则无法区分“知识、技能、能力”这三者在学生应答问题中的不同贡献,所得的数据笼统、含糊并意义不明、无针对性;更无法反应学生不同的认知和思维等发生过程,及其形成的机制和原因,诊断也就无从谈起。
科学的测量方法是要依据认知与思维等发生过程,将这三者做以分离,并依据各自的特质和贡献分别赋分,从而得出每一个要素的分数,三者之间的分布形态与结构,才能为诊断提供充分的依据。这就如同要判断各种要素对种子成长的影响是什么,就要把所有影响因素、及因素影响过程和结构一一加以控制,逐项检验,最终才能得出客观、准确、有效、可靠和可信的结论一样。 ACTS学业评价技术在理论和实践上解决了这些问题,为使用者进行诊断和甄别提供了异常丰富的、可靠有效的数据挖掘资源。
3. 在成绩报告方面,ACTS学业评价技术提供的多元、多维、多重比较,面向不同群体的数据报告,为教育咨询提供了可靠、可信、有效的科学工具,也为教研、教学、教管等提供了可靠有效的科学平台和工具;并为教师专业发展提供的科学的操作平台。
教育评价的结果作用于教学实践活动离不开教育咨询。教育咨询在西方教育发达国家已经有半个多世纪的发展历史。日本、芬兰等国出台政策来推行教育咨询,而美国则发展出了教育咨询的国家标准。然而在我国,科学的教育咨询是一项空白。虽然教师、教研、教管人员在日常工作中或多或少都做着一些类似的工作,但缺乏明确的定位、系统训练和科学工具,使得这些咨询工作完全依赖于咨询者个人的责任心、现有的知识储备以及主观的经验。ACTS学业评价技术可以为学生、教师、学校、学区和区域等不同群体提供针对性的数据报告。每种每份报告都包含上百个数据,且采用了迄今为止教育测量与评价中所有的比较和评价方法:与标准比,与常模比,与群体比,与自己比。这些报告为教育咨询——包括面向学生的学业咨询、面向教师的授业咨询、面向学校的管理咨询和学区、区域的决策咨询等,提供了科学的、可靠有效的、可视化的咨询工具和操作平台。
咨询者若要熟练解读这些报告,必须要系统学习与学生及教师的成长、成绩、成才相关的各种理论和方法,教师专业发展的培训等也因此而有了明确的目标以及可遵循的设计路线。
以上所述仅仅只是ACTS学业评价技术的一些主要特质和优势,其他如试题命制、结构化组卷、考前试卷分析工具、考后统计分析等,不仅为科学编制试卷提供了重要工具和参考,也为实现不同考试之间异质比较、等值转换等,提供了科学的工具和平台,限于篇幅,不一一详细说明。
ACTS学业评价技术的各种功能也将随着使用范围的不断扩大,随着不同层面使用群体的不断增加而渐渐被应用起来来。自2007年开始实用推广以来,该技术与遍布在全国20多个省份的4000多所优质公立学校达成合作,获得了上百万的学生数据,是国内鲜有的有大规模实证数据支持的新型学业评价技术。
中国教育评价与考试改革如今已经进入了“深水区”,若再不能取得实质性的突破,则将直接影响我国的教育改革与发展。体制方面,走第三方教育评价的道路已经是必然的趋势,社会各方就此问题的认识达成一致不是什么难题,因此不会构成改革的障碍。而教育评价与考试技术上的突破,则将成为改革的重点。ACTS学业评价技术、ICTS综合素质评价技术和TAST考试技术,在多年研发和积累的基础上,已经率先取得了一些成就,相信随着第三方教育评价在中国的推广和实施,在市场机制的引导下,会有越来越多的专业机构将研发满足改革要求的教育评价与考试技术作为发展的重点,进而推动我国教育评价与考试整体水平的提升,缩小我国与西方国家之间的差距。
本文来源:光明日报社《考试》
作者:张勇,北京市公众教育科学研究院院长、中关村教育评价创新研究会执行会长兼学术委员会主任、北京时代公众教育科技股份有限公司董事长、中国教育学会中小学教育质量综合评价办公室副主任、中华教育改进社副理事长、全国第三方教育评价联谊会副主席、学术委员会委员