大赛命题1
本题由易观提供
目前互联网领域有很多公司都在做APP领域的“用户行为分析”产品,与Web时代的行为分析相类似,其目的都是帮助公司的运营、产品等部门更好地优化自家产品,比如查看日活和月活,查看渠道来源,提高留存、转化、活跃度等等。 在这个研发过程中,有个比较核心的需求,叫做“有序漏斗”。而传统的“有序漏斗”定义比较简单,而客户往往会有更高层次的需求。为了解决客户实际问题,更好的提升产品体验,因此在去年“有序漏斗”的基础上增加了各种功能。
参赛者根据我们提供的用户行为数据,准确计算出各种场景的漏斗转换数据。
计算场景举例:
1、 计算出20180601-20180610范围内,依次有序触发“login-登陆”、“searchGoods-搜索商品”、“consultGoods-咨询商品”、“addCart-加入购物车”的用户转换情况,且满足时间窗口为1天,且要求“consultGoods-咨询商品”与“addCart-加入购物车”对应的“name-商品名称”属性相同。
2、 计算出2018年6月份中,依次有序触发 “searchGoods-搜索商品”、“consultGoods咨询商品”、“order-生成订单”的用户转换情况以及各步骤转换时间中位数,且满足时间窗口为7天,且结果按“searchGoods-搜索商品”的“城市”属性分组。
3、 计算出2018年6月份中,依次有序触发“searchGoods-搜索商品”、“consultGoods咨询商品”、“addCart-加入购物车”、“orderPayment-订单付款”的用户转换情况以及各步骤转换时间中位数,且满足时间窗口为7天,且“consultGoods咨询商品”、“addCart-加入购物车”的“brand-品牌”相等,且结果按“consultGoods-咨询商品”的商品价格进行分组,价格分层条件为100元以下,【100-200),【200-300),300以上。
数据为文本文件格式,具体包含字段有:
(1)用户ID,字符串类型
(2)时间戳,秒级别,Long类型
(3)事件CODE,字符串类型,包含startUp、login、searchGoods等15个事件
(4)事件名称,字符串类型,包含启动、登陆、搜索商品等15个事件
(5)事件属性,Json串格式 。包含,city:字符串;name:字符串;brand:字符串;price:浮点型(3位精度),nums:整型,how:整型;
(6)日期,字符串类型
测试数据总条数3亿左右,日期范围:2018/06/01到2018/07/05。
比赛数据总条数10亿左右, 日期范围:2018/06/01到2018/07/15。
Analysys_olap_2018_demo.dat.gz :测试数据,报名后即可下载。供大赛参赛者开发调试使用。
正式比赛数据包含2部分:
Analysys_olap_2018.dat.gz :正式数据,赛前提供,供参赛者提前导入
Analysys_olap_2018_ append.dat.gz :正式数据,比赛时提供,要求大赛参赛者比赛过程中先增量导入,然后完成所有需求的计算。
云盘地址:https://pan.baidu.com/s/1VfE--viF3MPyrhbKcbRuog 密码: 6y8m
(1)算法说明文档或PPT
(2)算法源代码
(3)测试数据的预测结果(可重复提交,但每天只能提交一次,最终结果取最优的一次)
所有题目,默认按日期分组计算展示各步骤用户数,维度以及中位数根据题目要求计算。
维度,周期,step1用户数,step2用户数,step3用户数,step4用户数,1-2转换中位数,2-3转换中位数,3-4转换中位数
汇总,01,1000,900,800,700,100000,100000,100000
汇总,02,1000,900,800,700,100000,100000,100000
andriod,01,300,200,100,50,120000,120000,120000
ios,01,300,200,100,50,120000,120000,120000
计算结果正常的情况下,对用时进行排名,用时少者获胜。