当前位置: 首页 > 买入攻略 >吃早饭越多、洗澡越规律,成绩越好?大数据分析大学生成绩背后的诱因

吃早饭越多、洗澡越规律,成绩越好?大数据分析大学生成绩背后的诱因

2023-05-18 23:00:13


通过大数据研究,学霸也是有规律可循的。DC堡主周涛通过学生“画像”数据与实际行为的关联性,“计算”出了每名学生的学习、生活状态。学生的数据包括进出寝室时间、进出图书馆次数、借阅图书数、打水次数等,从这些看似关联不大的数据背后,似乎可以看出一些规律从而做出较为精准的预测。




在寝室待得越久,成绩越差?


大家一下子就能想到的与学生成绩有关的数据,包括学生历年的考试成绩、选课记录、教材与参考书的图书馆借阅记录,等等。这些数据固然有用,但是要做精确的成绩预测,并且同时发现学习行为的一场,还远远不够。




上图是我们分析宿舍的门禁记录之后,得到两位典型的学生在寝室的时间段,其中上图是一位专业成绩第一名的学生,下图是一位专业成绩最后一名的学生。我们可以看到,成绩好的学生作息时间非常有规律,一般都是早上8点过一点出寝室,中午回来睡一个午觉,下午两点左右再次离开寝室,晚上10点半左右回寝室。


成绩差的学生作息时间也非常“规律”,除了有一天可能出去通宵上网未归外,他们早上基本不出寝室,仅仅是中午出去一下,恐怕是饿得受不了,所有出去补给些能量。这些直观的差异都可以转化为定量化的特征,从而帮助我们对学生未来成绩进行预测,例如可以按照每半个小时里面学生在寝室时间是否超过15分钟将24小时的门禁记录转化为48个二元特征量。




在这种情况下,早上10点到10点半在寝室,又或者凌晨3点到3点半不在寝室,都可能成为暗示成绩不佳的特征。实际上,我们的分析显示,在寝室待的时间越长,平均而言成绩越差。

 

类似的,对成绩好坏有区分作用的数据还有很多。某专业有80多名学生,我们观察了专业成绩前5%和后5%的各四名学生进出图书馆的次数。数据显示,专业成绩前5%的4名学生,在一个学期开始的2个多月中,进入图书馆的次数从高到低分别是161次、120次、91次、和81次,平均113.5次。与之相对比,专业成绩后5%的4名学生,在这段时间内进入图书馆的次数从高到低分别是41次、27次、13次和1次,平均为20.5次。两者竟相差了5倍多!

 



打水越多,成绩越好?

 

有趣的是,图书馆门禁和宿舍门禁数据,还没有覆盖所有成绩关联最强的数据项,目前我们发现的最强关联的数据之一,是在教学楼打水的次数。这个数据是近两年才有的,来源于一个很偶然的机会。


电子科技大学教学楼开水机前经常有很多同学排队打开水,特别是在课间休息的时候。有些排在队伍前面的同学不太节约,用开水洗杯子,一则是浪费水,二是后面的同学排了很久队,到前面一看,开水没了,就容易产生矛盾。于是校方就在就在饮水机上安装了刷学生卡的设备,打开水每500ml需要一分钱,而且一张卡在一段时间内打水的次数是有限的——总之不浪费肯定够喝。


这个一分钱不是为了挣钱,二十学生卡一次有效消费最低需要1分钱。我们发现,打水少的学生成绩有好有坏,因为有的同学不爱喝水,或者自己带水,又或者习惯喝冷水。但是打水多的学生成绩基本上都不错,平均而言,打水越多,成绩越好。这个打水次数,现在不仅成为我们预测学生成绩的重要特征之一,而且能够用来发现学生学业的异常行为。例如一个学生以前打水很多,突然这学期很少打水甚至不打水了,就是个危险的信号。

 

我们从数据中找出了这样一些突出的例子,一部分是因为某些竞赛(电子竞技比赛、机器人比赛、ACM程序设计大赛……)而暂时集中训练,还有就是出现了打游戏逃课的问题。尽管这方面的研究和应用,会带来一些隐私方面的担忧(我们已经通过技术手段能够保证技术人员没有机会触碰到真实身份信息),但对学生的学业问题的早期观察甚至预警,对学生而言往往能带来关系其一生发展的关键性帮助。

 



对于成绩预测这个具体问题而言,进出寝室的记录、教学楼打水的次数等,似乎是没有直接关系的数据。但是通过这些看起来无关的数据,我们却可以更好地解决我们的问题。有些读者会问,这些数据和结果之间的因果关系很清楚啊,作者也讲得很清楚啊,怎么能算作无关数据呢?


那是因为我们已经对大量的数据特征与待预测对象进行了关联分析,得到结果之后我们再去思考背后的因果关系,所以呈现给各位读者的,已经是分析之后的结果了。在进行分析之前,其实我们也没有想到打水记录与成绩之间有那么强的关联!对于很多社会科学的研究而言,人们在看到已有的研究成果的时候,总会觉得这些成果是显而易见的,其实在没有得到这些结果的时候,大家不一定能想到这种关联。

 



吃早饭越多、洗澡越规律,成绩越好?


我再举两个和学业看起来关系更远的例子。我们发现,吃早饭次数越多的学生,平均而言成绩越好。




如图所示,学生在学校吃早餐的次数随着年级的提高,越来越少,可以推测高年级的学生要比低年级学生生活更没有规律,也许也更懒。更重要的是,成绩排名靠前的学生,吃早餐的次数明显多于成绩排名靠后的血红色呢个;成绩越好的人专业排名也越靠前(排名0.1是指在100个人中排名第10位),反过来也一样,吃早餐多的学生,平均成绩更高。


这个指标也是目前我们发现与成绩关联最强的指标之一,但是在分析之前,我们并没有想到这样的关联。我们还注意到,洗澡时间越有规律的同学,平均成绩越好。实际上,从洗澡、洗衣服、进出寝室时间等显示出来的生活规律性与成绩的关联强度几乎等同于努力程度。如何从纷繁复杂的数据中挖掘关联,甚至指引我们找寻因果关系呢?

 


 

从食堂打卡记录中“定位”孤独人群


教育大数据研究所有一位创始人,是有着近10年学工部部长工作经历的吕红胤女士。红胤告诉我,一所招生规模中等的综合性大学,平均每年都会有1-2名学生死亡,而这些者中的相当一部分都有抑郁症或者较严重的抑郁倾向。


者固然是极端,但是抑郁症在大学生中已经成为一个显性问题,很多大学生因此受到了精神上的巨大折磨,在学业、感情和走进社会后的工作中,因为心理疾患而辜负了仅此一次的最美青春。红胤告诉我们,根据她多年的经验,很多抑郁症的学生,在大学中很少参加集体活动,很少能交到朋友,或者自己压根就不去交朋友。




还有一些患有其他心理疾病的学生,,他们终日处于恐惧焦虑中,希望交到朋友,但是因为自己言谈举止比较怪异,往往交不到亲密的朋友。于是我们和心理健康中心合作,希望能够找到这些“不积极参加集体活动,在校园里也没什么朋友”的学生,重点预防这些学生可能出现的心理问题。

 

我们先从食堂吃饭打卡的记录入手,一对好友相约一起吃饭,不管是不是情侣,经常会同排一个队伍并且前后刷卡。以午餐为例,在我们的数据记录中,每天有超过两万名学生到食堂吃午餐。


这就意味着一个同学甲喝另一个同学乙在前后连续刷卡的可能性大约只有万分之一。如果把前后连续在食堂同一个刷卡机器上刷卡定义为“不期而遇”的话,即便一个月吃满60顿中餐和晚餐,两位陌生的同学有过“不期而遇”的概率不超过0.6%;如果考虑到一个同学吃午餐和晚餐的总次数到不了60次,并且有些同学总是和自己的情侣或者死党相约而行,两位陌生同学有过一次或以上不期而遇的概率还不到0.3%,两位陌生同学有过两次或以上不期而遇的概率还不到十万分之一。




有的读者会说,尽管好友一起到食堂,有时候也会排不同的队伍,而一对情侣到食堂,男孩很可能会请女孩吃饭,只体现为一张卡的刷卡记录。但不管怎样,这些好友和情侣之间产生“不期而遇”的概率,是远远超过陌生人的。


另外,情侣们在电子科大经常会一起去图书馆上自习,死党闺蜜们一起回寝室,闺蜜们还特别喜欢一起结伴洗澡,结合图书馆和寝室的进出记录,以及一些特定消费场所的消费记录(如浴室、露天体育场喝体育馆的超市),我们就能够很好地判断一位同学身边有没有经常一起活动的若干好友,是不是经常参加一些户外体育运动。




而那些“孑然一身”“形单影只”的学生,就是校园心里疾病的高发群体。事实上,我们在电子科大找出了最孤独的800多人,他们没有一个亲密好朋友,也不积极参加各种社团活动,这些人有过心理诊疗纪律的概率比一般学生高19倍。


校园大数据的一体化平台,其建设的宗旨是为了更好地辅助教育,但不仅仅由诸如考试成绩、竞赛成绩、选课记录、图书馆借阅记录、视频课程点击记录等教育直接相关的数据组成。夏虎多次说到,发挥数据的外部性是教育大数据的精髓,因为学生的行为数据里面蕴藏着大量有价值的信息,而且针对行为数据的分析是实时的,能够抓住学生的当前的异常问题,避免“亡羊补牢,为时已晚”的悲剧。

 

当然,校园大数据平台要以学生发展为宗旨,不能成为监视学生的“老大哥的眼睛”,让《1984》的预言在中国的高校上演——而这一点,虽然并不容易,但在技术上可以做到的。




节选自

《为大数据而生》

周涛  著






友情链接

Copyright © 2023 All Rights Reserved 版权所有 上海股票分析平台