中小学语文学业质量评价研究_动视

中小学语文学业质量评价研究

2025-09-24 11:11:19 责编:小OO

“中小学语文学业质量评价研究”项目介绍

北京教科院基教研中心李英杰

新一轮课程改革开展以后，取消了小学升初中的统一考试，淡化了评价考试的甄别与选拔功能。但是，课程改革的效果如何，学生的学习质量是否有所提高，需要通过有效的学业质量评价来反映；课程改革中还存在哪些问题，如何改进课堂教学，也需要有效的学业质量评价来发现。因此，各地应运而生了很多针对学生学业质量的评价项目。

但是，新课程的语文课程标准既说明了“课程性质与地位、课程的基本理念、课程标准的设计思路”，又规定了课程的核心目标（总目标和阶段目标），还提出了最重要的实施建议（教科书编写建议、课程资源的开发与利用、教学建议和评价建议），可以说它是一个具有整体性的上位文件。课程标准对于学生的语文素养以及各个年段学生应达到的语文学习水平都没有十分明确的、行为化的描述。这给语文学业质量的研究带来了一定的难度。虽然很多评价项目对此进行了研究，但截至2003年，并没有取得突破性的进展。

在这样一个大环境下，教育部基础教育课程教材发展中心于2003年组织成立了“建立中小学生学业质量分析、反馈与指导系统”语文项目组。项目组通过编制基于国家课程标准的学生学业质量评价工具，对中小学生的语文学业能力进行测试，测查学生正确理解和运用祖国语文的能力，反映学生的语文素养水平；并为改进学校语文教学、提高语文教育质量提供参照；为进一步改进语文课程设计提供必要的依据。

一、语文学业质量测试框架的建立

怎么建立有效的测试框架？我们的研究思路是充分挖掘我国多年来语文教育和评价的经验，基于语文教育的理论成果，通过对语文课程标准的细化和行为化等具体分析，形成语文学业质量的测试框架。

在这个研究思路下，我们首先分析了近20年语文教学和测试的研究经验和问题；然后对国际大型测试项目，如NAEP、PISA、PIRLs等，以及、新加坡的同类测试取得的经验进行了分析和归纳；在此基础上，又对语文课程标准的内容进行了细化和行为化形成语文学业测试的基本框架。对于初步形成的测试框架，我们又结合现行的中小学教材以及不同年龄段学生的学习实际进行了适当地调整，形成最终的测试框架。

由标准参照测试的性质决定，对语文课程标准的细化和行为化是测试框架建立过程中最为关键的环节。下面本文将以小学三年级识字写字测试框架的建立说明这一过程。

（一）课程标准中的相关规定

总目标中的相关规定：

学会汉语拼音。能说普通话。认识字3500个左右常用汉字。能正确工整地书写汉字，并有一定的速度。

阶段目标中的相关规定：

第一学段：学会汉语拼音。能读准声母、韵母、声调和整体认读音节。能准确地拼读音节，正确书写声母、韵母和音节。认识大写字母，熟记《汉语拼音字母表》。能借助汉语拼音认读汉字。认识常用汉字600～1800个，其中800～1000个会写。掌握汉字的基本笔画和常用的偏旁部首，能按笔顺规则用硬笔写字，注意间架结构。初步感受汉字的形体美。养成正确的写字姿势和良好的写字习惯，书写规范、端正、整洁。能用音序和部首检字法查字典，学习识字。

第二学段：累计认识常用汉字2500个，其中2000个左右会写。会使用字典、词典，有初步的识字能力。

从这些目标中我们可以看出，并不是所有的目标都能够转变为外显的行为，也并不是所有可以转变为外显行为的目标都可以在纸笔测试中进行考查。比如，“初步感受汉字的形体美”这一目标是不容易转化为外显的形为的；“会使用字典、词典”也是不容易在纸笔测验，特别是大规模的纸笔测验中实现的。有一些目标是可以合并的，还有一些目标是可以进一步细化的。比如“能借助汉语拼音认读汉字”的前提就是“学会汉语拼音”，因此在两者是可以合并考查的；而“累计认识常用汉字2500个，其中2000个左右会写”这条目标中，“认识”的标准是什么？读准字音、理解字义？这是需要进一步细化为可检测的行为化目标的。

通过对这些目标进行的分析，可以得出如下结论：识字写字部分可以分为识字的要求和写字的要求。识字方面，主要的要求是读准字音、认清字形、理解汉字（词）的基本意义和语境意义，其中汉语拼音的考查融入读准字音的考察中。写字方面，主要的要求是把字写得正确、端正、整洁。由于写字可以放在作文中一并考查，所以识字写字部分主要考查学生识字的能力。

（二）测试目标的确立

明确了要考查的语文能力以后，我们就要分析影响各能力发展的因素，以确立测试点。我们以“读准字音”为例来说明测试目标的确立。

所谓“读准字音”就是要正确掌握所学汉字的读音，落实到纸笔测验中就是要正确识别汉字的拼音。影响这一活动的因素主要包括以下几个方面：首先，汉字是以义为核心的，形-意联系十分紧密，而音相对，所以容易由形而声、由义而声。其次，汉字读音的可变性比较高，受时代、地域的影响也比较大。其中最典型的就是方言。第三，汉字的读音是由声母、韵母和声调三部分组成的，这也增加了读准字音的难度。最后，由汉语拼音的工具性决定，对汉语拼音的掌握程度也会影响纸笔测验中对汉字读音的正确识别。

根据对“读准字音”影响因素的分析，我们把“读准字音”这一考查点进一步细化为：多音字、常见误读和方言。其中多音字主要考查根据不同的意义选择恰当的读音；常见误读主要考查受字形相近、字音相近、形声字、生活习惯等影响而出现的误读；方言的考查结合测试的地区，选择受地域影响的典型读音。根据课程标准的要求，不考查汉语拼音的拼写错误。

由于方言的复杂性，我们又进行了进一步的分析。将各地的方言归结为声母和韵母两个方面。由声母造成的方言包括：舌尖前音和舌尖后音不分，如资-知、丝-诗；ｎ和ｌ、ｆ和ｈ不分：如花生-发生，工会-公费；送气声母和不送气声母，如肚子-兔子。由韵母造成的方言包括：分辨ｉ和ǖ，如意见－预见，通信－通讯；分辨ｏ和ｅ，如破格、唱歌、和平等。

（三）“读准字音”测试结构的最终确定：

根据对课程标准及影响“读准字音”相关因素的分析结果，结合学生的学习实际，我们确定了最终的“读准字音”测试结构：

二、语文测试工具的研制流程

在语文测试工具的研制过程中，我们以《全日制义务教育语文课程标准（实验稿）》为基本依据，以SOLO分类理论为指导，并在可能的范围内将其运用到测试题目的设计中。

（一）根据测试框架编制双向细目表

要进行一项长期、稳定的学业评价项目，仅仅有测试框架是远远不够的，还应有对每道测试题目的具体描述和蓝图设计。因此，要根据测试框架设计双向细目表，这是测验的编制提纲，也是保证测验题目具有代表性的手段之一。

双向细目表是一个二维表格。以下图为例，表格的每一行代表了一道具体的测试题目，表格的每一列都是对题目属性的具体描述，包括：每个测试领域的题量、分值；每个考查能力点的题量、分值；每道题目考查能力的具体描述；每道题目的类型、题目属性、预估难度、答案和满分。

双向细目表有助于我们把反映不同内容、不同能力水平的题目组成一个有机的整体，以便全面准确地反映学生语文学习的结果。一个详细的双向细目表是好的评价项目的前提和保证。

（二）筛选测试材料

对于测试材料的选择要遵循的原则，本文将以小学三年级阅读材料的选择来说明：

首先，测试材料要提供一个尽可能接近学生日常学习活动的具体情境，以使学生的能力能够在具体的、规定性的活动中得以尽可能的展现。对于三年级的学生来说，我们可以选择一篇关于小动物的说明文，可以选择一篇短小的童话故事，也可以选择一篇写日常生活小事的短文。但是如果我们选择一篇专业术语很多的生物学说明文，或者写一个学生如何备战高考的短文显然就是不合适的。

其次，测试材料要符合学生的经验水平。针对三年级学生学习的实际情况，选择的测试材料应在500-800字左右，避免测试材料过长影响学生阅读；测试材料的语言应简洁、明了，避免过多专业性、文学性的语言。

第三，测试材料要有利于设计测试活动。这也就是我们平常所说的文章要有留白的地方，要有出题点。如果文章把所有问题都说尽了，也就失去了测试的意义。

第四，测试材料要避免各种的不公平，如偏向于某一性别、某一区域的社会群体等。对于一篇关于足球的文章，男生肯定比女生有优势；一篇关于超级市场的文章，城市学生肯定比农村学生更有优势。

最后，为实现测试的目标，测试材料必须进行必要的修改。在这一步，可以让被试先试读，根据学生阅读后的感受，调整测试材料。

（三）初步编制试题

在试题的编制过程中，要始终强调目标意识，根据测试的目标编制题目，以保证每道题目都能够真正地测试预期的能力点。另外，命制出的题目数量要3

倍于正式测试需要的题目，以便根据预测数据选择理想的题目。

在本项目阅读试题的编制过程中，考虑到三年级学生语言发展的特殊性（书面语言发展落后于思维的发展），我们选择了选择题的考查形式，并利用solo 理论对选择题进行了重新改造。经过改造的选择题可以较好地测查学生的阅读水平。

所谓solo，英文全称是Structure of the Observed Learning Outcome，意思是可观测的学习结果的结构。1982年由大学教育心理学教授Biggs，John B.和Collis，Kevin F.提出。它吸取了皮亚杰认知发展理论中的合理因素，同时对皮亚杰的理论进行了修正和发展，从关注儿童认知发展的阶段，转向关注儿童对问题的反应中所表现出来的思维结构。

比格斯等人认为，皮亚杰的认知发展理论是对总体认知结构发展的阶段划分，但是总体认知结构是一个纯理论性的概念，是不可以直接检测的，比格斯称之为“假设的认知结构”。为了能够直接检测学生的认知发展水平，在皮亚杰认知发展阶段论的基础上，比格斯提出，在总体认知结构发展的每一个阶段，都还会有几个不同的水平。这些水平可以通过学生在回答某个具体问题时所表现出来的思维结构的复杂性来体现，它是可以直接检测的，比格斯称之为“可观测的学习结果的结构”，这种根据学生在问题回答中思维结构的复杂性，来判断学生认知发展水平的评价方法就称为SOLO学习结果分类评价法。

solo分类方法对学生能力水平的描述分为前结构、单一结构、多元结构、关联结构和拓展结构。前结构（pre-structure）指学生没有形成对问题的理解，找不出任何解决问题的办法，回答问题逻辑混乱,或同义反复。单一结构

（uni-structure）指学生回答问题时，只能联系单一因素，只关注题干中的相关内容，找到一个线索就立即跳到结论上去。多元结构（multi-structure）指学生找到越来越多的、正确的相关特征，回答问题时，能联系与事件相关的多个因素，但不能将它们有机整合。关联结构（relational）指学生能够整合各个因素，了解各因素之间的内在关系，使其成为一个有机整体。能够回答或解决较为复杂的具体问题。拓展结构（extended abstract）指学生能够归纳问题并进行抽象概括，结论具有开放性且更抽象，能拓展问题本身的意义。这代表着一种更高层次的学习能力, 这一层次的学生表现出更强的钻研和创造意识。

我们在编制客观题和主观题的评分标准时，力求运用SOLO分类的思想，以更好地反映学生的认知发展水平和语文素养。比如，一道考查整体感知的题目“这个故事讲的道理是什么”，我们一改过去选择题非对即错的做法，将选择题的四个选项分别设计为代表学生四种思维水平的表述：“不应骄傲，要谦虚。”是短文中没有涉及到的道理，选择这个选项的学生对短文的理解是完全错误的。“书再多，没有读，也不是学问家。”这是原文中老教授说出的道理，选择这个选项的学生只是抓住了原文的原话，他们对短文的理解是单一的。“自己不会就是不会，要诚实。”这是联系短文后半部分的内容得出的结论，选择这个选项的学生对短文的理解处于多元水平。“不要只追求表面的东西，要有真才实学。”这是短文真正要告诉读者的道理，选择这个选项的学生要联系全篇才能得出这个结论，他们对短文得理解处于关联水平。

当然，像这样一道选择题的命制并不完全是命题者主观经验的结果，而是经过一系列的研究的。首先，命题人员要根据经验命制主观题“这个故事讲的道理是什么”。其次，要对学生进行“口语报告”。也就是要让学生试做这道题，边做边说出他的思维过程，专业人员记录这一过程并在必要的时候进行追问。第三步是对学生的“口语报告”进行分析，了解学生可能达到的最高水平和最低水平。最后才能根据学生的实际编制选择题的选项。

（四）根据测试结果调整、修改试题对于初步编制的试题，项目组要分别进行一次小规模和一次较大规模的预测试，对测试的数据进行分析，根据分析的结果调整、修改试题。仍然以上面的题目为例。

下面是这道题目预测的结果：

经典测验理论结果

项目信息曲线和项目特征曲线

通过此题的数据我们可以看出：选择单一水平D选项的人数达到了56%，而此项对应的点二列相关值为0.07，高于多元水平选项C所对应的点二列值，也就是说，高水平学生反而更多地选择了低水平选项D，由此导致了此题的区分度和信息量均比较低。反观我们的题目，发现C、D两个选项所代表的思维水平并没有本质的差别，由此，我们想到了重新研究学生的口语报告内容，命制恰当选项。

以下是学生口语报告的一部分内容：

分析学生的口语报告，我们可以看出：除“学生2”外，其他学生的理解都没有偏离文本的主旨。因此，我们把“学生2”的理解作为了“前结构水平”的选项。“学生3”的回答只抓住了非关键性细节，以偏概全，没有真正把握文章的主旨，比“学生4”的回答更“单一”，因此，被作为“单一水平”的典型选项。“学生1”的回答最初有点儿偏，但在他后来的发言中谈到了文中校长对阿布说的一句话“书再多不读也没有用”，而后又进行了推论，表明了自己的理解“要多读书才能长学问”，“学生1”能够在信息间建立一定的联系，处于“多元水平”。“学生5”和“学生6”的回答抓住了问题的实质，认为“不能只追求虚假的样子（徒有虚表），要有真才实学”，对文中的信息进行了综合加工，形成了准确、充分的理解，处于“关联水平”。

经过修改以后，这道题改为：A不应骄傲，要谦虚。（前结构）B只有认真读书才能有学问。（多元）C不要只追求表面的东西，要有真才实学。（关联）D对一传十、十传百的事情，不要轻易相信。（单一）

经过再一次的测试，题目的数据为：

（五）组卷

选择数据情况符合测试要求以及修改过的试题，按命题框架和双向细目重新组成正测卷和备用卷。

（六）聘请专家对试卷的题量、难度进行评估

试卷初步确定后，项目组聘请各方面的专家，包括有经验的中小学教师、语文教育研究这、专业命题评价机构，对试卷的题量、难度等进行评估，根据评估结果作适当调整。

（七）正式排版、反复校对，确认可以进入测试程序

三、反思

“中小学语文学业质量评价”项目已经开展了五年了，项目组的参与人员始终按照上面介绍的流程和框架对学生的语文能力进行测评。可以说，通过这五年的研究，我们在如何有效地测查学生的语文学业质量，如何更有效地开发选择题，如何有效地控制评分者的误差等问题上都取得了一些成绩。

但是，随着项目的不断深入，也呈现出一些需要进一步研究的问题。比如，如何将学生的语文能力与他们外显的行为建立科学的联系？如何有效地考察学生听和说的能力等。

总之，学生的语文素养对学生的终身发展具有至关重要的作用，好的语文能力评价体系能够促进学生语文素养的形成和发展。希望通过本文抛砖引玉，引发更多的教育研究者在语文能力评价问题上进行深入研究。下载本文

显示全文

全部频道