Datathon参赛小记
前言
笔者于18年11月17号参加了前程无忧和Correlation One共同在上海举办的Datathon比赛。虽然没有夺奖,但是获得了很多宝贵的经验,在此分享一下。
何为Datathon?
Datathon本是由Citadel和Correlation One联合在美国举办的数据分析大赛。
参赛者需要四人一组,在7个小时内面对给定的数据集,自己选择角度、定义问题、分析数据,并最终上交一份分析报告。
Datathon比赛每年都在国外几十所知名高校(哈佛大学、麻省理工学院、加州理工学院、斯坦福大学等)各举办一场,并在年末邀请各场比赛的冠军,参加The Data Open 全球总决赛。比赛报名及更多信息可见Correlation One官网。
结识优秀的参赛小伙伴、赢取丰厚的奖金、获得宝贵的实战经验,可以说做数据挖缺、机器学习的同学没有理由不去参加datathon比赛。只可惜往届的Datathon大都在美国的各大高校举行,国内的小伙伴只有看着的份了。
不过好在今年,主办方Correlation One积极在其他各国举办比赛。比如今年5月该比赛在北京就已经举办过一次了(过期的北京比赛报名地址)。
而笔者在11月份上海参加的这次是由前程无忧和Correlation One联合举办的,针对北大、清华、复旦、华科等二十余所国内大学的本科、研究生、博士的Datathon大赛。
比赛经过
初赛:
受邀的几十所大学的本科、硕士、博士生可以线上报名申请。一小时内完成15道选择填空题(题目从题库中随机抽取)、并上交个人简历。
官方会从所有申请者中选取前百名,邀请其参加上海的比赛。
复赛前:
官方会将所有进入决赛的参赛选手拉入一个微信群,选手可以在群内交流并四人一组自由组队,在决赛前几日未组队的选手会被随机分配队伍。
复赛前一天(11月16号)晚上会举办开幕仪式,并在当场公布比赛的数据表头(历次Datathon比赛都会提前公布数据表头)。选手有约12小时的时间进行小组讨论,提前确定研究数据的方向。
本次比赛的给了中国12个省份的就业、经济、城市化、农业、畜牧业等十几种调查数据。选手设计问题加深对“中国的生活方式和经济的各个方面在最近发展中是如何演变的”这个问题的理解
复赛:
选手8点前到达比赛地点,比赛于8点半正式开始。官方会给每组一个U盘,U盘内装有全部的比赛数据。
选手需要在7个小时内分析数据并给出分析报告。比赛中途提供免费自助餐,但是午餐时间计算在比赛之间之中。
选手需要在下午3点半之前将报告和代码保存在官方U盘中并上交给官方。
专业人员将会在之后的两个小时查看选手们的报告,并讨论选出冠亚季军。在此期间,主办方有给选手提供茶会(咖啡、茶、甜品、还有免费的抓娃娃机!),同时还有几家知名企业(3M、思科、上海期货交易所等)有咨询会。
最后比赛的冠亚季军在下午5:30公布,分别赢取十万、四万、两万元奖金。所有参赛者都会获得参赛证书、纪念衣服和100元京东购物卡。
个人经验
1. 不一定使用机器学习
说到数据分析,也许你会想到kaggle上的比赛,要使用机器学习算法来解决某个问题。但在Datathon里,则是给你大量数据,让你自选角度进行研究。我们可以自己设定一个采用机器学习的分类或回归问题,也可以只是去分析数据,寻找数据中潜在的规律。
笔者团队在本次比赛中就没有使用机器学习。
2. 不一定是计算机专业
虽然本次比赛最终得奖的选手大多数都是计算机专业的。但是通过初赛的选手中非计算机专业的同学不在少数。
因为这是一个数据分析大赛,而非一个机器学习大赛。考察选手的不是使用ML的能力,更多的是对数据的理解。初赛的试题中和ML有关的内容很少很少,更多的是考概率论、数据处理等知识(好多概念我见都没见过……)
另外,最终得奖的队伍中,也不乏本科生的身影。
3. 比赛前头脑风暴,定义明确的问题
数据表头会在比赛前天晚上的开幕式上会公布。也就是说选手们在比赛前12小时就会知道题目的内容。强烈建议小组的成员进行头脑风暴,明确研究的问题。
几乎所有参赛小组都会提前进行头脑风暴,但不是每一个组都能最终找到明确的研究题目。
本次比赛,笔者团队的研究方向是城市化和其他因素的关系。但在比赛的过程中渐渐的,研究方向越来越偏,到最后笔者都不知道我们在研究什么了。冠军队伍的研究题目是城市化因素对人生活水平的影响。同样是研究城市化,人家的题目就比我们的题目更加明确,研究的时候也更不容易跑偏。
4. 报告是评判结果的唯一标准
提前写报告,越早越好!
笔者团队吃完午饭后才开始撰写报告(3小时撰写时间),边分析边写报告,最后3个小时的时间有点紧。
笔者认为我们的报告内容很乱,没有逻辑。主要是因为前期感觉时间很充足,大量的时间浪费在看数据细枝末节的部分,到比赛结束前三小时要写报告的时候才发现没有内容可以写。又是分析数据又是狂写报告,时间很是不足。
布局!美化!言简意赅!
找一个“极简主义”的人负责报告的撰写,整个报告要有良好的页面布局;展示的表格数据、图表数据要美化;所有的文字观点要言简意赅。
把那些“随着中国的发展……,……越来越重要”,“有很强的社会意义”等套话都删掉!!!
报告是最后评审的唯一标准。评审的时候评审专家要在两个小时内审阅二十多份报告。好的布局、优美的图表、言简意赅的文字一个都不能少。这三点做不好肯定上就和前三名无缘了。(别说我的观点特别特别新颖肯定能得奖,整个报告上千文字一张图片都没有,连分段都不分,全篇就一个自然段,咋能得奖?)
笔者记得比赛时身旁的一个团队采用latex编写的报告,具体内容写的是什么笔者不清楚,但是看报告的第一眼就给人感觉这个报告很有说服力。最后该团队获得亚军。因此,再强调一遍,找一个“极简主义”的人撰写报告!
5. 其他建议
- 小组采用同一种语言(推荐python)
- 熟练掌握数据分析(如pandas)和数据可视化(如matplotlib)技能
- 比赛时不要现学新的知识,使用自己熟练的技能即可
- 选择一个小队组长,进行任务的分配和总体规划。
杂记
- 比赛待遇超级好,住宿费路程费全报销,自助午餐特别好吃!超好吃!!!
- 主办方correlation one的两个创始者和几个成员来到了比赛现场。在16号晚上开幕式的时候correlation one的联合创始人SHAM MUSTAFA说历次比赛的冠军队伍中常有中国人。
- correlation one成员有一个中国小哥,应该是华裔,汉语说的不是很流利,但是有一股东北口音23333
- 冠军是四个北大的同学,他们在5月份的datathon比赛中就夺得了第三,有点可怕……
作者:M小白
One thought on “Datathon参赛小记”