数据竞赛/Two Sigma Connect Rental Listing Inquiries

数据竞赛/Two Sigma Connect Rental Listing Inquiries

赛题描述

本文介绍的是 Kaggle 比赛:Two Sigma Connect: Rental Listing Inquiries。赛题要求是根据 RentHop 租房网站上的房屋的信息,预测受欢迎的程度,受欢迎的程度有 3 种:'high'、'medium'、 'low',因此可以看作是 3 分类的问题。

数据主要包括房屋的房间数量、洗手间数量、创建时间、价格、位置、房屋的照片、经纬度、街道、中介,以及一段文本介绍。

这道赛题数据量不大,但同时包含了结构化数据、文本数据和图像数据,因此非常适合用于入门学习。

本文主要针对这些数据,展开数据探索的流程。

数据表

该数据包含了 6 个表。 - deviceid_packages.tsv:设备数据。包括每个设备上的应用安装列表,设备和应用名都进行了 hash 处理。

- deviceid_package_start_close.tsv:每个设备上各个应用的打开、关闭行为数据。第三、第四列是带毫秒的时间戳,分别表示应用打开时间和关闭时间。

- deviceid_brand.tsv:机型数据:每个设备的品牌和型号。

- package_label.tsv:APP数据,每个应用的类别信息。

- deviceid_train.tsv:训练数据:每个设备对应的性别、年龄段。


- deviceid_test.tsv:测试数据,只包含设备号

一个设备 ID 会有唯一的性别和年龄段。性别有1、2两种可能值,分别代表男和女。年龄段有 0 到 10 十一种可能,分别代表不同的年龄段,且数值越大相应的年龄越大。一个设备只属于一个唯一的类别(性别+年龄段),共有 22 个类别。

因此该问题可以看作22 分类问题。 也可以分成两个问题的组合来看:一个是性别的 2 分类的问题,一个是年龄的 11 分类问题,按照两种策略分类好之后,再把结果组合成 22 分类问题。

预测结果的 csv 文件为每一种类别的概率值,格式按照以下示例,1-0代表男性,第 0 个年龄段。从第二行开始,每一行概率之和应为 1

1
2
3
DeviceID, 1-0,1-1,1-2,…,1-9,1-10,2-0,2-1,2-2, …,2-9,2-10

1111111, 0.05,0.05,0.05,…,0.05,0.05,0.05,0.05,0.05,…,0.05,0.05

下面先看一个 baseline,直接做 22 分类。

数据处理

首先导入包

总结

这个 baseline 只是用到的设备对应的 APP 来预测性别和年龄,就已经能获得比较好的结果。没有用到每个设备上 APP 的使用情况的数据。下一篇文章会提供一个更加全面利用数据的方案,可以获得更高的分数。
代码链接:https://github.com/xiechuanyu/data_competition

评论