数据竞赛/阿里天池 NLP 入门赛 Bert 方案 -3 Bert 预训练与分类

数据竞赛/阿里天池 NLP 入门赛 Bert 方案 -3 Bert 预训练与分类

前言

这篇文章用于记录阿里天池 NLP 入门赛,详细讲解了整个数据处理流程,以及如何从零构建一个模型,适合新手入门。

赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。实质上是一个 14 分类问题。

赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。

比赛地址:https://tianchi.aliyun.com/competition/entrance/531810/introduction

数据可以通过上面的链接下载。

阅读更多
数据竞赛/阿里天池 NLP 入门赛 Bert 方案 -2 Bert 源码讲解

数据竞赛/阿里天池 NLP 入门赛 Bert 方案 -2 Bert 源码讲解

前言

这篇文章用于记录阿里天池 NLP 入门赛,详细讲解了整个数据处理流程,以及如何从零构建一个模型,适合新手入门。

赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。实质上是一个 14 分类问题。

赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。

比赛地址:https://tianchi.aliyun.com/competition/entrance/531810/introduction

数据可以通过上面的链接下载。

阅读更多
数据竞赛/阿里天池 NLP 入门赛 Bert 方案 -1  数据预处理

数据竞赛/阿里天池 NLP 入门赛 Bert 方案 -1 数据预处理

前言

这篇文章用于记录阿里天池 NLP 入门赛,详细讲解了整个数据处理流程,以及如何从零构建一个模型,适合新手入门。

赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。实质上是一个 14 分类问题。

赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。

比赛地址:https://tianchi.aliyun.com/competition/entrance/531810/introduction

数据可以通过上面的链接下载。

阅读更多
数据竞赛/阿里天池 NLP 入门赛 TextCNN 方案讲解

数据竞赛/阿里天池 NLP 入门赛 TextCNN 方案讲解

前言

这篇文章用于记录阿里天池 NLP 入门赛,详细讲解了整个数据处理流程,以及如何从零构建一个模型,适合新手入门。

赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。实质上是一个 14 分类问题。

赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。

比赛地址:https://tianchi.aliyun.com/competition/entrance/531810/introduction

数据可以通过上面的链接下载。

其中还用到了训练好的词向量文件。

TextCNN 词向量下载链接: https://pan.baidu.com/s/1ewlck3zwXVQuAzraZ26Euw 提取码: qbpr

预训练BERT以及相关代码下载链接: https://pan.baidu.com/s/1zd6wN7elGgp1NyuzYKpvGQ 提取码: tmp5

这篇文章中使用的模型有 2 个,第 1 个是CNN + LSTM + Attention,第 2 个是CNN + LSTM + Attention。主要学习的是数据处理的完整流程,以及模型构建的完整流程。虽然还没有使用 Bert 等方案,不过如果看完了这篇文章,理解了整个流程之后,即使你想要使用其他模型来处理,也能更快实现。

阅读更多
数据竞赛/第二届易观算法大赛 Top2 方案分享

数据竞赛/第二届易观算法大赛 Top2 方案分享

赛题描述

本文介绍第二届易观算法大赛——根据用户手机 APP 的使用情况,预测用户的性别和年龄,这是比赛地址。这虽然是一年多前的比赛,其中的数据处理和特征工程等思路依然值得学习。

这次大赛的要求根据用户手机数据、和手机上的应用数据等,训练模型预测用户的性别和年龄。

在上一篇文章中,分享了一个 baseline,把每个 APP 当作一个词,使用 TF-IDF 计算权重作为特征,进行训练。在测试集上得到了 logloss 为 2.73161 的分数。但是没有利用其他的信息,本文主要利用了 APP 的使用数据、APP 的类别数据、以及设备本身的型号数据等提取特征,主要特征提取思路如下图所示。

阅读更多
数据竞赛/第二届易观算法大赛 baseline 分享

数据竞赛/第二届易观算法大赛 baseline 分享

赛题描述

本文介绍第二届易观算法大赛——根据用户手机 APP 的使用情况,预测用户的性别和年龄,这是比赛地址。这虽然是一年多前的比赛,其中的数据处理和特征工程等思路依然值得学习。

这次大赛的要求根据用户手机数据、和手机上的应用数据等,训练模型预测用户的性别和年龄。

本文介绍了一个 baseline,把每个 APP 当作一个词,使用 TF-IDF 计算权重作为特征,进行训练。在测试集上得到了 logloss 为 2.73161 的分数。

阅读更多