京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据计算你和学霸的距离
在成都最冷的20天里还能坚持早起吃早餐;总是在晚上10点到11点之间洗澡;在教学楼打水近80次……正值开学季,电子科技大学教育大数据研究所的数据显示,普通的你,和学霸之间,恐怕就差了这些“微不足道”的行为。
这个颇有意思的发现,来源于覆盖了电子科大两万余名本科生的大数据系统——“学生画像”,其将每名学生几乎所有的在校活动轨迹与成绩之间建立了关联。利用这些数据,不仅能预算出学生的学习状况,研究者还希望依此引导他们更好地规划各自的学业和就业方向。
学霸的生活轨迹
传统教育认为,学生有规律的生活,是学生提高成绩的重要保证。
“普遍情况下,良好的行为习惯与学习成绩是呈正相关的,这基本是得到公认的。”21世纪教育研究院副院长熊丙奇表示,这些行为习惯,有的与成绩变动直接相关,例如学生按时上下课,常去图书馆等;还有一些与成绩的变动是间接相关的,比如养成早起的习惯,经常洗衣服,有规律的打水等。“虽然不直接作用于学生的学习,但是,好的生活习惯,反映的是学生积极的状态,说明学生自我管理的能力较强。那么,这些学生用在学习上的时间也相对有保证,也就势必会对学习成绩产生影响。”
不过,必须承认,这个被普遍接受的结论很难被定量描述。“如果我们能定量地证明已有的依据,并提出科学的可参照的建议,这项研究就是有价值的。”电子科技大学教育大数据研究所副所长连德富这样解释这项研究的初衷。
如今,研究团队已经花了一年多的时间记录学生的校内行为,包括吃饭、购物、打水、进出图书馆、借阅图书、宿舍门禁、洗澡、使用洗衣机、乘坐公交等。结果发现,学霸有着与一般学生完全不同的学习生活轨迹。
以某专业排名第3的学生为例,她几乎每天固定在8点、12点、14点三个时间点出门,留在宿舍的总时长低于专业平均水平。而该专业成绩排名第61的小石每天进出宿舍的时间很随机,而且通常每次外出的时长不超过2小时,“宅指数”明显高于专业平均水平。
此外,成绩最好的学生吃早餐次数在110次,成绩最差的学生吃早餐次数仅为60次。9点前出现在食堂吃早餐的同学,成绩相对更好。成绩较好的学生集中在晚上10到11点之间洗澡,而成绩较差的学生,洗澡时间无明显规律。
除作息规律以外,进出图书馆次数也是重要指标。第一学期,成绩最好的学生进入图书馆的次数为55次,成绩最差的学生进入图书馆的次数为35次;到了第四学期,成绩最好的学生进入图书馆的次数为61次,成绩最差的学生进入图书馆的次数为18次。
同样的情况还存在于教学楼。学生去教学楼饮水机上打水次数越多,就说明学生长期在教学楼里活动。第三学期的数据显示,成绩最好的学生在教学楼打水近80次,成绩最差的学生在教学楼打水不到10次。
尤其让连德富印象深刻的是,不同成绩的学生在借阅图书的种类上也有明显的区别。他发现,《蝴蝶公墓》《变态心理学》等带有悬疑色彩的图书,借阅者的成绩普遍不理想。
过去,要想清楚地知道不同成绩水平的学生群体与他们的行为特征之间一一的对应关系是非常困难的,但有了大数据的帮助,一切变得简单起来。
“学生画像”还能做什么
仅仅根据学生行为习惯的数据统计,就可以制定出学霸路线吗?
要想精确刻画一个人需要用无数的数据,但连德富认为,校园就是一个拥有丰富数据的很小的社会系统,只要这些数据能与目标联系起来,就有一定的指示作用。
事实上,“学生画像”的首要功能,就是算出每名学生的学习、生活状态,并设计出一系列辅助他们更好规划各自学业的功能模块。目前已经实现的是挂科预警。
据了解,研究团队设计了一个针对挂科率的公式,即过去的学习基础+一段时期内的努力程度。学习基础是根据已考科目成绩、已考与将考科目之间的关联性计算得出的,而努力程度则主要依据教学楼打水频率、进出图书馆的时间与次数等。
如果有学生正处于挂科率高风险的边缘,系统就会自动向负责该名学生的辅导员发送预警信息。而在过去,只有当学生已经出现挂科的情况,辅导员才能得知,即便如此,事后也很难分析学生挂科的具体原因。
“目前,教育大数据暂时的定位还是辅助传统教育,管理、引导学生。”连德富表示。
除了关注学生成绩,他相信,现在的校园里依然充满了像当初的自己那样对未来迷茫的人。“我们都曾迷茫过,不知道自己喜欢什么,可以做什么。”
如何利用“学生画像”帮助学生找到适合自己的路,是研究团队正在努力的方向。目前,数据库不仅有现有学生的行为轨迹,还有已经毕业的学长们的行为轨迹。连德富告诉《中国科学报》记者,最终选择考研、出国或者创业的学生,在生活、学习方式上是存在一些差异的。
比如,打算出国的学生在选修课程、借阅图书时都会偏向语言方面的内容,而偏好创业的学生则与一项很有意思的数据产生关联。由于电子科大在成都郊区,学生进市区需要乘坐一趟班车,有的学生去市区的频率明显要高于其他同学,这也意味着他们的社交行为可能更为丰富。
“学生画像”可以将现有学生的行为轨迹与已经毕业的学长们的行为轨迹进行比对,如果在选课、借阅图书、参加社团活动等方面的轨迹与某类去向的毕业学生比较相似,学校就可以提供相关方面的建议、指导。
对此,21世纪教育研究院副院长熊丙奇也表示,传统的大学教育对学生的管理是比较松散的,因此,通过对学生生活、学习的数据分析,掌握学生的目标动向,有助于学校对学生进行合理的引导,无论是学习还是参与社会活动,都能够有的放矢地帮助学生作进一步规划。
中科院心理所研究员尹文刚则将关注点瞄准了当下大学生的心理健康问题。
“学生从高压的中学时期,进入完全需要自我管理的大学生活,一时间无法适应,容易出现心理问题。一旦受挫,通常选择回避的态度,甚至会出现抑郁的情况,更严重的可能危及生命。”尹文刚直言,近年来,大学生频繁曝出跳楼、伤害同学事件,都与心理健康密切相关。
他认为,通过教育大数据,可以及时掌握学生的行为习惯特征,一旦发生明显异常,比如长期独处、很少参与公共生活等情况,学校就可以适当关注学生的心理健康问题,采取相应对策。
研究团队正在挖掘“学生画像”在关注学生心理健康方面的作用。他们可以根据学生的行为习惯来量化“孤独”。
性格孤僻、有强烈的孤独感,往往被认为是抑郁易感人群具有的一些共性特征。他们发现,学校最孤独的一群人出现心理问题的概率比普通人高一个数量级。因此,研究团队正在设计算法,依据“30天内,两个素不相识的人,有两次或两次以上前后脚打水、打饭、进公寓、进出图书馆或坐公交车经历的概率,不超过十二万分之一”的结论,可算出每名学生的“在校朋友圈”,以此量化学生孤独的程度。
在尹文刚看来,预知大学生的行为习惯所隐含的心理问题,特别是关注学生的变化,对于开展学生工作是非常有帮助的。
从这些角度看,大数据在教育领域的应用是有一定价值的。
如何保护学生隐私
打水刷卡、进图书馆刷卡、进宿舍房间刷卡……在校园逐步实施一卡通的时代,学生大数据已经变得易得而且可控。学校一方面依靠大数据加强对学生的管理,一方面也要照顾到学生的隐私,尊重学生的行为习惯。因此,如何合理使用大数据,同时又保护学生隐私,就成为了一个重要的问题。
“如果让学生感觉生活在学校的监控下,那么即使学校的出发点是好的,希望能够对学生的行为及心理进行合理引导,这种举措也无疑会让学生反感。”熊丙奇特别提示学校在运用大数据的时候,要考虑到学生的隐私及习惯。
对此,连德富表示,“学生画像”在保护数据隐私方面是非常谨慎的。
“设计系统功能时,很重要的一方面是数据PK。”连德富介绍说,希望每名学生除了能在系统上看到自己的“画像”外,还能看到自己与同专业同学比较后的相对优势和劣势。“但是,比较的根本目的是找到学习的模板,而不是与具体的某个个体比高下。”
因此,在申请PK时,系统是存在强权限管理的。发起比对的学生必须经过对方的允许,才能看到对方的画像。但是连德富透露,由于该功能涉及的数据隐私比较敏感,目前并没有向学生端开放。
而已有的面向辅导员的端口,所涉及的数据经过严格的加密处理,系统不保存学生的真实姓名及学号,只有出现重要预警信息,才会自动给相应的辅导员进行短信推送。这意味着,任何一个技术人员都看不到学生个人的信息,而辅导员最多能够掌握自己负责学生可能出现的重大问题。
连德富坚持认为,教育大数据不会刻意强调每个个体的情况,而是反映学生整体的生活、学习状况,以及时预测预警学生的异常状况,从而为学校的决策提供数据支撑。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11