这篇文章中使用的模型有 2 个，第 1 个是CNN + LSTM + Attention，第 2 个是CNN + LSTM + Attention。主要学习的是数据处理的完整流程，以及模型构建的完整流程。虽然还没有使用 Bert 等方案，不过如果看完了这篇文章，理解了整个流程之后，即使你想要使用其他模型来处理，也能更快实现。

2020-08-11数据竞赛40 分钟读完 (大约 6022 个字)

数据竞赛/阿里天池 NLP 入门赛 Bert 方案 -1 数据预处理

前言

这篇文章用于记录阿里天池 NLP 入门赛，详细讲解了整个数据处理流程，以及如何从零构建一个模型，适合新手入门。

赛题以新闻数据为赛题数据，数据集报名后可见并可下载。赛题数据为新闻文本，并按照字符级别进行匿名处理。整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。实质上是一个 14 分类问题。

赛题数据由以下几个部分构成：训练集20w条样本，测试集A包括5w条样本，测试集B包括5w条样本。

比赛地址：https://tianchi.aliyun.com/competition/entrance/531810/introduction

数据可以通过上面的链接下载。

2020-08-10NLP1 小时读完 (大约 10362 个字)

NLP/图解 Transformer

本文翻译自 : http://jalammar.github.io/illustrated-transformer/。是我看过的把 Transformer 讲解得最好的文章：这篇文章从输入开始，一步一步演示了数据在 Transformer 中的流动过程。由于看过一些中文翻译的文章，感觉不够好，所以我自己翻译了一个版本，在一些难以直译的地方，我加入了一些原文没有的文字说明，来更好地解释概念。另外，我添加了一些简单的代码，实现了一个基本的 Self Attention 以及 multi-head attention 的矩阵运算。

Transformer 依赖于 Self Attention 的知识。Attention 是一种在深度学习中广泛使用的方法，Attention的思想提升了机器翻译的效果。如果你还没学习 Attention，请查看这篇 Attention 的精彩讲解。

2020-08-03Python3 分钟读完 (大约 451 个字)

Python/Python 的 uppack（解包参数）

基本在 Python 中，我们经常会看到 * 和 **。这两个符号，一般在函数传参时使用。

下面来看下它们的具体作用。

2020-07-30数据竞赛1 小时读完 (大约 12020 个字)

数据竞赛/第二届易观算法大赛 Top2 方案分享

赛题描述

本文介绍第二届易观算法大赛——根据用户手机 APP 的使用情况，预测用户的性别和年龄，这是比赛地址。这虽然是一年多前的比赛，其中的数据处理和特征工程等思路依然值得学习。

这次大赛的要求根据用户手机数据、和手机上的应用数据等，训练模型预测用户的性别和年龄。

在上一篇文章中，分享了一个 baseline，把每个 APP 当作一个词，使用 TF-IDF 计算权重作为特征，进行训练。在测试集上得到了 logloss 为 2.73161 的分数。但是没有利用其他的信息，本文主要利用了 APP 的使用数据、APP 的类别数据、以及设备本身的型号数据等提取特征，主要特征提取思路如下图所示。

2020-07-29数据竞赛15 分钟读完 (大约 2274 个字)