科大学子在数据挖掘赛获佳绩

立即捐赠中国科大一小时工资!

《新创基金会2010年年报》电子版(点击可浏览)

图为我校统计与金融系(17系)胡太忠教授(左一)、计算机学院陈恩红教授(左二),及陈老师的博士生宝腾飞(右二)参加颁奖仪式

图为宝腾飞在复赛中进行答辩

 

5月8日上午,首届全国大学生数据挖掘邀请赛 复赛答辩环节在中国科学技术大学东校区管理科研楼1018室举行,从参加初赛的300多支队伍中脱颖而出,来自中国科学技术大学、北京大学、浙江大学、复旦大学等全国多所著名高校和中国科学院自动化所的16支参赛队伍参加了本次答辩。最终,由我校计算机学院语义计算与数据挖掘实验室负责人陈恩红教授指导,以宝腾飞、向彪,刘淇三位博士生为主力的RecSys1队获得了研究生组第一名的优异成绩,同时,该实验室的徐童、曽广翔等研究生同学所组成的数据掘金队,以及解浚源等同学组成的LightSpeed队分获研究生组和本科生组第三名。此外,来自我校少年班和管理学院的同学还获得了本科生组第六、七名。至此,历时五周的首届全国大学生数据挖掘邀请赛正式落下帷幕。我校以一项一等奖,两项三等奖,两项入围奖的成绩,名列各参赛高校之首。

研究生组排名

本科生组排名

关于数据挖掘邀请赛

首届全国大学生数据挖掘邀请赛由中国科学技术大学管理学院、中国人民大学统计学院和统计之都(COS)网站联合举办,交友网站“世纪佳缘”暨上海花千树信息科技有限公司赞助并提供技术支持。该项赛事是国内首个关于数据挖掘技术的全国性竞赛,体现了互联网领域新的技术热点和应用需求。同时,该项赛事也为来自不同学校、不同学科背景的同学提供了一个交流的平台。

本次比赛分设研究生组合本科生组,共有来自中国科学技术大学、北京大学、浙江大学、清华大学、复旦大学等全国数十所知名学府和研究院所的300多支队伍参加了比赛,有效提交达240多支队伍。参赛人数众多,影响范围广泛。

本次比赛的主题为大型交友网站的个性化推荐系统,要求通过构造有效的统计评分模型,评估特定会员的受欢迎程度,并预测用户在面对被推荐会员时可能的浏览行为。算法预测结果以特定用户待选会员集评分结果前十名的实际浏览行为进行评估,即NDCG@10。由于本次比赛的数据存在稀疏性及冷启动问题,给各参赛队的数据处理和算法设计工作带来了较大的困难,这也是现有推荐算法所面临的主要难点,体现了本项赛事与实际应用紧密结合的特点。

面对强者云集、竞争激烈的比赛氛围,中国科学技术大学学生体现出了积极的比赛风貌和扎实的实战技能。虽然在比赛的五个星期内排名更迭频繁,但我校的多支参赛队一直保持在排行榜的前列,其中RecSys1队更是曾实现连续近两周处于研究生组排行榜首位。针对稀疏数据和冷启动的数据特性,来自语义计算与数据挖掘实验室的同学们尝试了包括基于最近邻的协同过滤算法、PageRank排序算法、E-Greedy排序算法、关联规则挖掘在内的多种经典算法,最后,在RankSVM和Bayesian Regression Tree等算法的基础上引进了简单投票算法,有效地提升了预测结果,在提交结束时的40%验证数据集上排名研究生组第二名,最后更是凭借着算法优秀的稳定性和精确性,在完整的测试数据集上成功超越了对手,最终摘取桂冠。

关于语义计算与数据挖掘实验室

近年来,语义计算与数据挖掘实验室在承担4项国家基金面上项目,并与清华大学等单位合作开展多个重点基金项目和国家863计划项目等应用基础研究工作的同时,也积极拓展应用领域,与国内外知名企业,如阿里巴巴、诺基亚中国研究院、微软亚洲研究院等构建了长期密切的合作关系,通过联合研发及实习生项目,培养了一批优秀的研究生。2010-2011学年,继吴巍炜获得“微软学者奖”,使该实验室连续两年获得这一面向亚太地区最优秀的计算机及相关专业的杰出学生的奖项之后,曹欢欢又获得2010年度“中国计算机学会优秀博士论文奖”,成为我校计算机学院首位获此殊荣的博士研究生。

实验室还特别注重国际学术合作,与多位国际知名学者,尤其是科大校友建立了密切的学术交流关系。跟数据挖掘领域的国际知名学者、罗格斯大学熊辉教授(9010校友,2011年暑期将在科大开设、由国家自然科学基金委资助的“龙星计划”课程授课教师。熊辉教授在罗格斯大学的数据挖掘实验组,培养了多名科大毕业生,其中周文君博士(0015校友)在这次竞赛中给予了很多建议;周文君已获美国田纳西大学助理教授职位。)建立了长期的密切合作关系,双方还共同指导和培养了多名研究生,此次数据挖掘邀请赛的参赛队员刘淇同学正在熊辉研究组进行国家留学基金委的联合培养。在熊辉等国内外学者的指导和帮助下,在近三年的KDD、SIGIR、WWW、ICDM、CIKM等数据挖掘领域的国际顶级会议,该实验室学生共发表高水平学术论文10余篇,取得了骄人的研究成果。其中,在数据挖掘的国际顶级会议KDD2008上的论文获最佳应用论文奖,这是大陆高校首次获此殊荣。需要指出的是,实验室一直得到包括科大研究生院在内的各方大力支持,多位研究生在获得过研究生创新计划资助参加了高水平国际学术会议,开拓了学术视野。

通过此次数据挖掘邀请赛,既体现了我校计算机学院,尤其是语义计算与数据挖掘实验室在机器学习与人工智能领域的深厚积累,也体现出了学子们较好的算法基础和过人的应用能力,是长期优良学风和研究底蕴的综合展现。毋庸置疑,此次比赛更是科大校友的一次可喜可贺的胜利,正是因为有一批像熊辉教授这样一直默默支持母校发展的优秀校友,才造就了我们今日的成绩与辉煌。

关于个性化推荐

目前,个性化推荐系统已广泛应用于亚马逊、eBay、Yahoo、阿里巴巴等多家电子商务网站和门户平台。随着数据挖掘技术的发展,将为在线服务商提供更有效的推荐算法,为用户提供个性化的决策支持和信息服务,帮助用户走出信息过载困境,同时还将有效地挖掘商品长尾、提升企业价值,具有巨大的技术发展空间和商业应用潜力。

附录:部分科大参赛队伍队员名单

RecSys1校奖队伍(研究生组第一名)

宝腾飞、向彪、刘淇、聂鹏宇、程文华皆为计算机学院(11系)学生。

LightSpeed校奖队伍(本科生组第三名)

解浚源(PB09210)、 陈宇澄(PB09001),皆为计算机学院(11系)学生。

数据掘金校奖队伍(研究生组第三名)

徐童、曾广翔为计算机学院(11系)学生;季波(SA1010)、陈永环(SA1010),为信息学院自动化系(10系)学生。

《新创基金会2010年年报》电子版(点击可浏览)

立即捐赠中国科大一小时工资!

2011-05-16 上一篇: 新创基金会2010年年报电子版发布 下一篇: 第30届郭沫若奖学子学成