立即报名

大赛命题1

OLAP Session分析

本题由易观提供

赛题背景

Session,即会话,是指在指定的时间段内在您的网站/H5/小程序/APP上发生的一系列用户行为的集合。例如,一次会话可以包含多个页面浏览、交互事件等。Session 是具备时间属性的,根据不同的切割规则,可以生成不同长度的 Session。
对于 Session 的理解以及相关指标的计算,其中最重要的两块就是:
(1)Session 应该包含哪些行为事件
(2)Session 如何切割:需设定切割时长,即相邻事件间的时间间隔超出此时长则进行切割,基于动态切割规则计算一系列session相关指标。需要支持动态切割规则、超时、跨天、跨平台、指定开始事件、指定结束事件等。

参赛对象

OLAP Session分析大赛将分商业组及开源组,将分别为互联网/科技公司相关技术团队,以及OLAP技术从业人员和技术爱好者提供竞技交流的平台。

时间安排

8月20日-9月15日,初赛报名,参赛选手在Demo环境下程序调试
9月15日 - 9月25日,参赛者在服务器环境下进行环境测试
9月25-10月15日,正式环境比赛
10月15-10月20日,参赛者提交算法文档,答辩
10月25日,易观A10数据智能生态大会颁奖及排名公布

赛题介绍

通常我们把用户一系列连续的行为,看作一次访问,也称之为session。基于会话的分析,即为session查询分析。
Session查询分析中最重要的两块分别是:
1、 session如何分割。
例如,用户访问您的网站,打开了一个网页,有事离开了电脑。几个小时候回来后继续访问,用户的session访问次数应该算作几次? 又比如,用户在pc端添加了购物车,在手机端完成了支付,又应该算作几次。
2、 session指标的定义,session分析常见的分析指标有,session访问次数,访问深度、访问时长、跳出率等等

session分割规则介绍:session的划分规则分为2类
1、 默认session,即SDK采集数据源时,已经根据一些规则,将用户行为划分为多个session,通过”$session_id”来区分
2、 动态切割,用户可以根据前后2条连续行为的一些属性判断来确认是否切割session。本次大赛需要支持以下动态切割规则,其中超时和跨天为默认条件,其他为可选条件。
ü 超时:即前后2条行为发生时间间隔超过某个阈值。如,30分钟
ü 跨天:即前后2条行为发生的时间不在同一天中
ü 指定开始事件:即当用户发生指定行为时,开始一个新的会话。如 ,登陆
ü 指定结束事件:即当用户发生指定行为时,结束会话。如,结束事件
ü 跨平台:即前后2次行为在不同平台发生的。如,上一条行为JS,下一条iOS

Session常见指标定义
ü 访问用户数(UV)=访问用户的去重数
ü 访问次数=指用户访问应用的总次数,即会话(Session)数
ü 浏览量(PV)=指用户浏览Web/H5页面的总次数,同一个页面访问多次会被重复计
ü 人均访问次数=访问次数/访问用户数(UV)
ü 人均页面浏览量=浏览量(PV)/访问用户数(UV)
ü 人均访问时长=Session时长之和/访问用户数(UV)
ü 单次访问页面浏览量=平均每次访问浏览页面的次数,单次访问页面浏览量=浏览量(PV)/访问次数
ü 单次访问时长=平均每次访问的时长,单次访问时长=总访问时长/会话数
ü 单次访问事件数=平均每次访问的事件数量(包括浏览页面和点击事件),单次访问事件数=总访问事件数/
ü 跳出率=访问了一个页面的Session数/总的Session数。用户进入着陆页就离开用户来到网站后,除了浏览LandingPage之外,没有发生其他任何操作就离开了网站,被视为跳出。用来衡量Landingpage的质量。

分析中其他概念
ü Session属性,一般取会话的首事件的某个属性,作为整个会话的属性
ü 着陆页,落地页、引导页,即会话首页面的url。
ü 时长:我们以会话内下一个事件发生时间作为上个事件的结束时间。会话的退出事件是时长为0。单位为毫秒

赛题任务

参赛者根据我们提供的用户行为数据,准确计算出各种场景的下的会话相关指标值。
计算场景举例:
1、 使用默认session,计算出20190501-20190510,每天的会话次数、人均访问时长、退出率
2、 使用超时时间30分钟+跨天的session切割规则,计算出20190501-20190510,每天的会话次数、跳出率。且以 着陆页进行分组。
3、 使用超时时间30分钟+跨天+指定开始事件,的session切割规则计算出20190501-20190510,每天包含某个页面行为的会话总数,人均访问深度。

数据介绍

数据为文本文件格式,具体包含字段有: 分隔符为 tab
(1)用户ID,Long类型
(2)时间戳, 毫秒级别,Long类型
(3)事件code,字符串类型,本次默认全部为"$pageview",页面浏览事件
(4)url,字符串类型,页面的url
(5)平台, 字符串类型
(6)来源, 字符串类型,流量来源
(7) 城市,字符串类型
(8)品牌,字符串类型
(9)购买数量,Int类型
(10) 价格,Double类型
(11) 日期,字符串类型
测试数据总条数7千万左右,日期范围:2019/01/01到2019/01/07。
比赛数据总条数5亿左右,日期范围:2019/05/01到2019/05/15

提交格式:

所有题目,默认按日期分组计算,其他维度已经指标根据题目要求计算如:
维度,周期,uv,pv,人均时长等
url1,20190501,300,800,4545
url1,20190502,200,500,4444-

数据下载链接

云盘地址:https://pan.baidu.com/s/1HW_8vauDoq6PZnTlUQAc5Q 密码: 8nmm

提交内容

(1)算法说明文档或PPT
(2)算法源代码
(3)测试数据的预测结果(可重复提交,但每天只能提交一次,最终结果取最优的一次)
提交地址:dailidong@analysys.com.cn

评分方式

计算结果正常的情况下,对用时进行排名,用时少者获胜。

参赛指导

数据准确性和算法的要求,需提前说清楚,报名后,会有大赛小助手拉您入群,群内有专门的技术人员进行解答

知识产权

1. 举办方及其关联方对其在本次比赛中所提供的所有信息(包括但不限于图片、视频、数据、代码等)享有合法所有权利,选手对此不享有任何权利。未经举办方或其关联方同意,选手不得使用、修改、复制、公开传播、发行或以其他任何方式利用前述信息。且举办方有权随时取消或撤回对选手使用数据集的授权,并有权要求选手删除已下载数据集;

2. 除举办方与选手另有约定外(此处所指的是涉及选手所在企业已有知识产权的情况),在比赛过程中选手独立开发的成果(包括但不限于算法、源代码、数据、设计方案等,以下简称“成果”)及相应的知识产权,归举办方所有。

3. 入围初赛和复赛的选手同意在本次比赛过程中提交源代码,以帮助举办方进行评审工作,防止作弊行为出现。若选手以创业公司身份参赛,源代码涉及企业隐私,可以与举办方另行约定。

4. 选手应保证其在参加本次比赛中所提供、使用的数据、源代码等及参加比赛所获得的成果未侵犯任何第三方的合法权益且不违反任何法律法规的规定,如第三方基于此等成果向举办方及/或其关联方提出索赔、诉讼等的,选手应赔偿举办方及其关联方由此受到的全部损失,且举办方可立即通知选手后终止其参赛资格并采取其他措施。

5. 选手同意授予举办方及举办方的关联方在全球范围内、无限期、不受限制的免费使用上述成果的权利,包括但不限于用于筛选比赛选手入围、晋级,进行宣传推广,人才统计与推荐,与比赛相关的其他事宜以及合作研究、进一步开发、用于商业用途等。为免疑义,基于上述成果使用所产生的新成果,举办方及其关联方享有完整的知识产权,选手同意对新成果不主张任何权益,包括但不限于所有权、以及基于对上述成果享有的所有权而阻碍新成果的实施等。

命题单位