“2016CCF大数据与计算智能大赛”9月24日在北京启动

由中国计算机学会(CCF)主办的大数据及人工智能领域算法挑战及创新创业大型赛事——“2016 CCF大数据与计算智能大赛”9月24日在北京启动。

CCF大数据与计算智能大赛想用大数据分析谁偷了电,还想干这十件事

由中国计算机学会(CCF)主办的大数据人工智能领域算法挑战及创新创业大型赛事——“2016 CCF大数据与计算智能大赛”9月24日在北京启动。

中国经济网记者从本次大赛启动会上了解到,数据驱动的智能时代正在到来,就是利用机器学习,统计分析的方法,从数据中发现规律,真正的大数据应用体现在数据的深度挖掘上。但眼下,大数据“炒作”的热潮仍在持续,大数据的理论和技术都还处于发展早期。

因此,为向社会输出大量高质量大数据人才,帮助金融、零售、教育、医疗、人工智能等多个行业及领域的市场主体顺利完成大数据应用整合,加速“中国智造2025”进程,以“数据驱动,智见未来”为主题的本次大赛的主要目的,就是希望能将人才培养与社会的需求协同起来,挖掘培养大数据,人工智能领域创新人才。

“大赛对学生来说,是一个重大的利好。”上海市教卫工作党委副书记、市教委副主任高德毅在启动仪式上表示,通过CCF大数据,与计算智能大赛这样一个平台,每一个有梦想、有创意、有能力的青年人,都可以发挥自己的聪明才智,来实现自己的梦想。希望本次大赛不仅是推进政府企业社会数据资源的开放共享,创新和应用,也为今年搭建一个重创的空间,还能够为各个行业的特别是教育行业,提供一个更加好的创新的解决方案。

启动仪式上,发布了来自各创新企业与科研机构的11道高质量大数据与人工智能创新赛题,涉及智能电网、搜索广告、O2O营销、舆情分析、监控识别、计算广告、无人驾驶、市场预测、LBS营销、气候预测等多个热门方向,将为图像处理、自然语言处理、用户画像、推荐系统等领域提供大量来自真实场景的问题与数据,促进相关领域的技术创新。

为了更好地支持参赛者进行大数据技术研究,解决参赛者计算资源缺乏等问题,本次竞赛的专业大赛平台将联合各企业与科研机构为优秀参赛者提供专业的云计算平台支撑。

在东华大学副校长李永智看来,本届大赛的特色在于:第一,它是比拼智慧的大赛,对专业知识没有特别限制,更直白地说,参加这个大赛的学生和指导教师可以不拼资本,不拼空间,不拼人脉,也就是说“不拼爹”,只拼智慧,会给全国大学生提供一个创新创业的大舞台。第二,赛题涉及的11个问题,全部是现实当中急需解决的难题,非常接地气。第三大赛聚集了庞大的专家群体和数百位业界各领域大咖,一起探讨大数据和人工智能学术领域和现实层面的难题。

为此,参赛选手可登陆大赛指定平台DF(DataFountain, http://www.wid.org.cn),迎接大数据竞赛带来的挑战。

据大会组委会介绍,启动仪式后,全球数千支参赛队伍将就企业单项奖、CCF综合奖展开从初赛、复赛到决赛为期3个多月的激烈比拼,冲击总计75万元的高额奖金池。最终,奖金和奖牌将花落谁家?谁又将成为大数据领域的顶尖人才?将在今年12月31日揭晓,敬请期待。

据悉,本项赛事至今已成功举办了三届,“双创”价值凸显。CCF大数据专家委员会秘书长程学旗举例说,第一届大赛一等奖获得者上海交大的团队获奖之后,直接带项目去创业,目前正在进入第二轮融资。借助大赛创业创新的例子每届都有。今年会有更多的专家去指导学生参赛,题目也更深更广。期待更多的优秀人才,更好的成果能够应用起来,能够让我们的人才形成聚集效应。

统计显示,仅去年参赛队伍就达到1338支,递交的作品高达5647个,参赛人数6000人,其中77%的参赛队伍来自全国27个省市自治区的131所高校和科研院所,覆盖了所有的985高校和59所211的高校,23%的参赛队伍来自30多家企业或者自由职业者。另外还有来自美国、英国、新加坡、香港地区的境外参赛队伍近10支。可以说,通过大赛演进,一个为青年搭建大数据应用的重创平台正在形成。

究竟有哪些赛题?

?1.监控场景下的行人精细化识别

行人属性精细化识别是智能监控技术的重要组成部分。本赛题提供监控场景下多张带有标注信息的行人图像,要求参赛者在定位(头部、上身、下身、脚、帽子、包)的基础上研究行人精细化识别算法,自动识别出行人图像中行人的属性特征。标注的行人属性包括性别、头发长度、上下身衣着、鞋子、包的种类和颜色,并提供图像中行人头部、上身、下身、脚、帽子、包位置的标注。

2.Human or Robot?

与传统的电视广告、户外广告采买相比,流量作弊一直以来被看作互联网广告特有的弊病。随着网络数据技术的发展进步,流量作弊也呈现出规模化、机器化、产业化的趋势。方式包括通过人工、机器制造虚假流量,或者通过技术手段窃取他人流量,偷梁换柱。反作弊需要强大的数据支撑,包括丰富的数据存储,大量的项目积累和经验积累,广告不同环节的数据触及等。该题目需要参赛者基于IP,cookie,设备ID,访问时间序列,UA信息分布等行为属性来建立一个模型,区分正常用户曝光记录与作弊行为记录,并进行标记。

3.基于视角的领域情感分析

情感分析是网络舆情分析中必不可少的技术,基于视角的领域情感分析更是情感分析应用于特定领域的关键技术。在对句子进行情感分析时,站在不同的视角,同一个句子的情感倾向判断结果将有所差别。本赛题意在情感分析任务中,站在数据使用者的角度进行特定的情感分析,使数据分析的结果更具可用性。本赛题可以细分为“视角抽取”与“基于视角的情感分析”两部分。

4.鸡肋还是实惠?O2O优惠券使用预测

以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言,滥发的优惠券可能降低品牌声誉,同时难以估算营销成本。

个性化投放是提高优惠券核销率的重要技术,它可以让具有一定偏好的消费者得到真正的实惠,同时赋予商家更强的营销能力。本次大赛为参赛选手提供了O2O场景相关的丰富数据,希望参赛选手通过分析建模,精准预测用户是否会在规定时间内使用相应优惠券。

5.大数据精准营销中搜狗用户画像挖掘

在现代广告投放系统中,多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中,基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。人口属性包括自然人的性别、年龄、学历等基本属性。

在搜索竞价广告系统中,用户通过在搜索引擎输入具体的查询词来获取相关信息。因此,用户的历史查询词与用户的基本属性及潜在需求有密切的关系。

6.自动驾驶场景中的交通标志识别

交通标志的检测是一项非常有挑战的任务,精确的检测对后续识别,辅助定位导航起着决定性的作用。交通标志的种类众多,大小、角度不依,本身就很难做到精确检测,并且在真实的行车环境中,受到天气、光照等因素的影响,使得交通标志的检测更加困难。我们将提供完全真实场景下的图片数据用于竞赛训练和测试,使得开发出来的算法能够实际应用在自动驾驶中。

7.客户用电异常行为分析

为进一步提高社会用电的安全,保障发电企业、电网企业和用电客户的正常利益,尽可能的杜绝偷窃电行为的发生。本赛题基于国家电网公司提供的关于用户用电量、电能表停走、电流失流、计量们打开灯计量异常情况、窃电行为等相关数据,以及经过现场电工人员现场确认的窃电用户清单,希望参赛者利用大数据分析算法与技术,发现窃电用户的行为特征,形成窃电用户行为画像,准确识别窃电用户,以帮助系统更快速、准确地识别窃电用户,提高窃电监测效率,降低窃电损失。

8.客户画像

经过多年的发展与沉淀,目前国家电网积累了全网4亿多客户档案数据和海量供电服务信息,以及公司营销、电网生产等数据,如何从海量的用户数据中发掘对停电事件、供电稳定相关事件具有敏感性的客户群体,并对客户停电敏感度进行量化排名对于电网企业的客户满意度、电力服务水平、用电客户黏性的提升以及供电抢修工作的路线优化都有着至关重要的作用。

参赛者需要以电力用户的95598工单数据、供电抢修服务数据、停电信息数据为基础,结合对受理工单文本内容的分析挖掘,建立客户停电敏感度模型,对客户对于停电事件的敏感程度进行量化分析,确定用户对停电事件是否敏感。

9.基于多源数据的青藏高原湖泊面积

本赛题希望通过研究青藏高原湖泊面积变化的多种影响因素,构建青藏高原湖泊面积预测模型。

如通过研究2000年-2015年期间的降水总量、温度变化趋势、地形起伏度、海拔、2000年、2005年和2010年青藏高原湖泊面积和分布数据,分析各个因素对湖泊面积变化的影响,并对2015年的湖泊面积进行预测。

10.农产品价格预测分析

价格预测是大数据的精华所在,通过大量的历史数据分析,预测未来的价格走势,为决策者提供更有力的数据支持。初赛阶段,参赛者只需分析提供的价格历史数据,对要求预测的农产品接下来固定时间的价格进行预测。 复赛中,要求参赛者尽可能多的使用与价格有影响的其他数据以提高预测的准确率,例如:天气数据,详情将在复赛开始前在本网站公布。

11.依据用户轨迹的商户精准营销

精准营销是互联网营销和广告营销的新方向,如何利用已有的用户画像对用户进行分类,并针对不同分类进行业务推荐,特别是在用户身处特定的地点、商户,如何根据用户画像进行商户和用户的匹配,并将相应的优惠和广告信息通过不同渠道进行推送。

目前的主要解决问题能力有两点:一是用户实时位置和商户坐落位置的匹配,二是用户画像和商户店铺的匹配。

本次赛题需要参赛者根据商户位置及分类数据、用户标签画像数据提取用户标签和商户分类的关联关系,然后根据用户在某一段时间内的位置数据,判断用户进入该商户地位范围300米内(经纬度1秒越30米),则对用户推送符合该用户画像的商户位置和其他优惠信息。

本文出处:,链接:,采用「CC BY-SA 4.0 CN」协议转载学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请联系「我们」处理。

发表评论

登录后才能评论

联系我们

如有建议:>>给我留言

大数据交流群

统  计  学 数据分析网-统计学

商业智能 数据分析网-商业智能

数据挖掘 数据分析-数据挖掘

数据产品 数据分析网-数据产品

QR code