数据帝|啥专业是坑,高分考生选了啥:高考专业分数线的博弈

chenqin

2015-06-28 20:11 来源:澎湃新闻

字号
       高考结束,招生开始,现在是考生们选择学校、专业以及填写志愿的日子。选了好专业,生怕不上线;选了稳妥专业,又怕浪费分数。这填写志愿,在专业和分数之间,少不了一番纠结。
       正是这一番纠结,使得分数线这个数据显得尤其有意思。
       填志愿就像是一种特殊的拍卖,主要特殊在两点:
       1、每个出价人不仅不知道其他所有人的出价分布,有时连自己的出价都搞不清(虽然近年来绝大部分地区都改为出分后填志愿的方式,但仍然有考前填志愿的某直辖市)。
       2、出价人对标的物知之甚少。填志愿时你所知道的最真实的信息,竟然只有这个标的物在过去的成交价格,也就是过去数年的分数线,至于这个学校这个专业到底怎么样,是不是适合考生前去就读,未来前景如何,都并无十足把握。
       在这些因素的影响下,同一个学校、同一个专业的分数线一方面会表现出高度的连续性,去年比一本线高出100分的专业,今年不太可能会比一本线低100分。但另一方面,人们又会对不同的学校和专业产生“大小年”的先验判断,即一个专业的分数线如果今年特别高,明年就会没人敢报,于是可能就会低一些。最后,由于很大程度上选择专业相当于选择未来职业道路,我们会发现,一些专业在一些年份很受欢迎,而在另一些年份变得不再受欢迎。
       今天我们可以使用一个独特的分数线数据库来完成这项考察工作。我收集了中国所有985、211学校(共112所,实际上由于军事院校的分数线难以搜集,所以仅有108所学校)从2005年至2014年在各省、各专业的理科分数线数据,包括最高分、最低分与平均分,共有564399条数据,相当于每所学校每年在每个省招生17个专业。
       很可惜,这个数据库中暂时没有每个专业的计划招生人数和实际招生人数,也不包括文科考生的分数线,但当前的数据量已经足够我们进行有趣的分析了。
       一、高分学生喜欢哪些学校?
       我们首先将每个年度每个省的专业平均分排序,将平均分排名在该省当年前5%的专业抽出,将它们定义为每个年度的「前5%高分专业」。用一个学校的「前5%高分专业」的数量除以该校在每个省投放的专业总数,可以得到每一个学校的「前5%专业占比」。在一个学校内部招生专业人数大致相等的假设下,我们可以近似将「前5%专业占比」理解为「前5%学生占比」。当然要注意到,这个「前5%学生占比」指的是考取了985或211大学的考生的前5%,即50多万高分考生的前5%,而不是近1000万高考报名总人数的前5%。
       上表显示了不同学校在两个时间段的「前5%学生占比」。一个很明显的趋势是,在平行志愿下,高分考生由于志愿没有填好而去了一个一般的学校的概率越来越低,这导致高分学生向优秀学校集中的趋势正在提高。
       清华和北大的「前5%学生占比」原本就已很高,变动不大。但华东五校(复旦、交大、浙大、中科大、南大)加上人民大学的「前5%学生占比」就从35.1%至71.8%提高至74.3%至84.4%之间。同时,我们也可以看到在这五年间上升势头最快的两所大学——上海财经大学与中央财经大学,它们的「前5%学生占比」都由原本的不足10%增加至30%左右。在2014年,上海财经大学和中央财经大学的「前5%学生占比」都超过了三分之一。
       将5%的比例缩小到1%,能算出一个能体现出最高分学生集中度的指标——「前1%学生占比」,见下表:
 
       
       从上表可以发现,北京三校(清北人)与上海二校(复旦交大)这5所学校的「前1%学生占比」在这五年间变得越来越高,而其他学校的「前1%学生占比」降低了。这张表与上表其实表达了相同的趋势——好学校的掐尖非常成功,其他学校能招到的高分考生减少,原本次好学校用最好的专业来吸引最高分考生的手段已经不再起作用了。
       当然,我还可以把前1%的比例缩小到5‰甚至是1‰,但鉴于某两校针对招生一事已经剑拔弩张,我就不火上浇油了。
       
       二、考生青睐哪些专业?
       一个学生如果已经拥有前5%的高考分数,他就有很高的概率能进入第一张表的十几所高校中。在这些高校中,他会选择什么专业呢?
       为了排除排名靠前学校的影响,我们首先计算每个专业在每个学校内部的排序,之后保留总排序在前5%的专业,再去掉一些只有少部分高校会开设的专业,最后计算每种专业的校内排序平均值(如果不计算校内排序的平均值,那么专业的排序就会完全反映出清华北大的专业结构),可以得到下表(点开看大图):
       可以看到,金融和会计稳稳占据了前5%考生的选择前两名。理科试验班的排名从2005年的第一名开始逐年下降,最终稳定在7-8名左右。生物科学在2005年时曾处于第4名的位置上,然而在2006年排名第9之后,就再也没有出现在前十名。出现类似下降情况的还有国际经济与贸易专业。
       令人稍微有些惊讶的是,在医生的处境日益艰难的今天,临床医学专业反而在2013与2014年进入了前5%考生的前十名选择中。
       考虑所有考生所有专业的情况,可以计算出每一个专业的平均校内排序水平。我选取了25个招生最多的专业,做出下图。每一张小图的横轴表示年份,纵轴表示该年份中这个专业在每个学校内部的平均排序情况。        
       
       从总体排序里可以看到很多有趣的内容,比如:
       1、金融学始终排在接近1的位置,即几乎在每个学校金融学都排名第一;
       2、数学专业、理科试验班等原本排名较高,但近来排名有所下降;
       3、生物科学的下降更是显著,原本分数只低于16%的专业,2014年时分数低于44%的专业。
       4、计算机专业走了一个深V,逆势反弹,在2010年之后重新成为最受欢迎的专业。
       5、能源动力和工程学专业的排序快速上升。
       如果不同的专业会在很大程度上影响学生的未来职业,又如果考生会充分考虑到这样的影响,那么这些不同专业的走势则反映中国不同专业的劳动力情况:到底是供大于求还是供不应求。例如,生物和数理基础专业的排位下降,工程类、能源动力类专业的排位上升,都能体现中国经济和劳动力市场的某些侧面。
       三、大年和小年存在吗?
       所谓大年和小年,就是在去除高考分数本身的涨落之后,一个专业今年的排序偏高可能导致下一年的考生不敢填报而排序偏低。将每个学校每个专业进行排序,并且将相邻两年的排序情况画一个散点图:
       
       图中横轴为某专业的去年排序,纵轴为某专业的今年排序,排序在0-1之间,越接近1表示排名越高。首先可以看到,相邻两年同一个学校同一个专业排序的高度相关性。但同时也可以注意到,这样的相关性对不同排序的专业似乎有一些不同。将上图的两个红色方框分别作图:
       从右图可知,如果一个专业去年的分数线在中等水平,我们将无法在一个较小的区间内断言该专业今年的排序位置;但由左图可知,去年排位较高的专业,今年也几乎不会变动多少位置。为了检验大年和小年的存在,我们简单地做一个回归:
       
       如果我们以每个专业在这10年的平均值作为一个该专业的「正常排序」,那么如果该专业在去年的排序比这个「正常排序」高1%,今年的期望排序就会比「正常排序」高α%。
       如果大小年情况存在,那么α应当小于零;如果大小年情况非常明显,那么α应当接近-1左右甚至更小。按照5%一个区间,我们对不同分数段的专业计算20次α,结果如下:
        
       其中纵轴是前面所要计算的α,蓝色区间是5%置信区间,横轴为专业分位点。可以看到:
       1、分数最低的专业的大小年现象为-0.2左右;
       2、中等专业的大小年现象高达-0.35以上。也就是说,如果去年是某中等专业大年的话,其排序偏高的情况会在今年以反方向三分之一左右的幅度体现出来,变成一个明显的小年。
       3、最高5%专业几乎不存在大小年现象,两年间的排序几乎没有关系,去年偏高于平均值的高分专业,今年有可能偏低,但幅度会非常小,随机因素为主。
       要记住的是,这条规律建立在对每个专业以往分数线的充分研究上,才能算出某个专业到底是偏高还是偏低了。而且,如果人人都会对分数线有如此深入的研究,都明白大小年现象存在时,大小年反而就应该消失了。
       结语
       高考分数线对大多数考生来说,仍然意味着「一考定终身」的功能。它是人们高度复杂的博弈的一项结果,存在一些可以摸清的规律;它本身的变动也可以反映一些隐藏于数据之下的社会经济状况。
       希望以上几点粗浅分析能为填写志愿的家长们提供一些简单的参考。同时,也欢迎告诉我,你们对高考分数线数据的有趣想法。
       (作者注:未经允许一律不得转载,否则将出动维权使者)
责任编辑:王昀澎湃新闻报料:4009-20-4009   澎湃新闻,未经授权不得转载
关键词 >> 高考,招生,专业,分数线,博弈

继续阅读

评论(84)

热新闻

澎湃新闻APP下载

客户端下载

热话题

热门推荐

关于澎湃 在澎湃工作 联系我们 版权声明 澎湃广告 友情链接