立即报名

大赛命题2

性别年龄预测

本题由易观提供

赛题背景

当前社会,几乎人人都离不开手机。人们每天使用手机进行上网、购物、社交、办公等等。手机几乎承载了一个人全部的行为和偏好。那么我们对手机设备的用户画像就变得越来越重要了,它不但能帮助APP企业了解自己用户的行为特征,迭代产品;还能帮助企业更精准的投放互联网广告,节省广告费用。

赛题介绍

参赛者需要根据我们提供的设备数据、应用数据等,预测设备背后使用者的性别和年龄。

赛题任务

根据所提供训练数据进行模型训练,并用训练好的模型预测测试数据的性别和年龄。
一个设备ID会有唯一的性别和年龄段。性别有1、2两种可能值,分别代表男和女。年龄段有0到10十一种可能,分别代表不同的年龄段,且数值越大相应的年龄越大。一个设备只属于一个唯一的类别(性别+年龄段),共有22个类别。

数据介绍

(1) 设备数据:每个设备上的应用安装列表,设备应用名都进行了加密处理【deviceid_packages.tsv】
(2) 应用数据:每个设备上各个应用的打开、关闭行为数据【deviceid_package_start_close.tsv】
(3) 机型数据:每个设备的品牌和型号【deviceid_brand.tsv】
(4) APP数据:每个应用的类别信息【package_label.tsv】
(5) 训练数据:每个设备对应的性别、年龄段【deviceid_train.tsv】
(6) 测试数据:提供设备ID供参赛者进行模型验证【deviceid_test.tsv】
(7) 性别年龄对照表

数据下载链接

云盘地址:https://pan.baidu.com/s/1XMNe0Zss1spBqbmDrBhMxw 密码: 5a7k

提交内容

(1)算法说明文档或PPT
(2)算法源代码
(3)测试数据的预测结果(可重复提交,但每天只能提交一次,最终结果取最优的一次)

提交格式

测试数据的预测结果格式如下,1-0代表男性,第0个年龄段:
DeviceID, 1-0, 1-1, 1-2, ……, 1-9, 1-10, 1-11, 2-0, 2-1, 2-2, ……, 2-9, 2-10, 2-11
1111111, 0.05, 0.05, 0.05, …, 0.05, 0.05, 0.05, 0.05, 0.05, 0.05, …, 0.05, 0.05, 0.05

评分方式

假设测试数据有N个设备,则算法的评估通过logloss进行评判:
其中i代表设备,j代表类别,yij代表该设备是否属于该类别,取值为0或1,pij为预测出来的设备属于该类别的概率,取值0到1之间。

命题单位