NLP/Bert 源码解读 2

NLP/Bert 源码解读 2

在上一篇文章中 ,我们简单 了解了 transformers 的设计,从宏观上对整个结构有了了解。

今天,我们继续深入了解一下,在 Hugging Face 的 transformers 中,和 Bert 有关的类,都有哪些,

阅读更多
NLP/Bert 源码解读 1

NLP/Bert 源码解读 1

上一篇文章中,我用图解详细讲述了 Bert 的组成部分和内部原理。

今天这篇文章,我们来看 Bert 的源码。下面使用的 Bert 源码,来自于 Hugging Face 的 transformers。这个项目一开始的名字是:pytorch-pretrained-bert,只包含 Bert。

后来加入了 GPT-2,RoBERTa,XLM,DistilBert,XLNet,T5,CTRL 等模型,改名为 transformers。你可以点击 model-architectures 来查看所有的模型。

transformers 的代码实现包括 PyTorch 和 Tensorflow,我这里只讲其中的 PyTorch 的源码。

你可以使用 pip install transformers 来安装这个库。

阅读更多
数据竞赛/阿里天池 NLP 入门赛 Bert 方案 -2 Bert 源码讲解

数据竞赛/阿里天池 NLP 入门赛 Bert 方案 -2 Bert 源码讲解

前言

这篇文章用于记录阿里天池 NLP 入门赛,详细讲解了整个数据处理流程,以及如何从零构建一个模型,适合新手入门。

赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。实质上是一个 14 分类问题。

赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。

比赛地址:https://tianchi.aliyun.com/competition/entrance/531810/introduction

数据可以通过上面的链接下载。

阅读更多
数据竞赛/阿里天池 NLP 入门赛 TextCNN 方案讲解

数据竞赛/阿里天池 NLP 入门赛 TextCNN 方案讲解

前言

这篇文章用于记录阿里天池 NLP 入门赛,详细讲解了整个数据处理流程,以及如何从零构建一个模型,适合新手入门。

赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。实质上是一个 14 分类问题。

赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。

比赛地址:https://tianchi.aliyun.com/competition/entrance/531810/introduction

数据可以通过上面的链接下载。

其中还用到了训练好的词向量文件。

TextCNN 词向量下载链接: https://pan.baidu.com/s/1ewlck3zwXVQuAzraZ26Euw 提取码: qbpr

预训练BERT以及相关代码下载链接: https://pan.baidu.com/s/1zd6wN7elGgp1NyuzYKpvGQ 提取码: tmp5

这篇文章中使用的模型有 2 个,第 1 个是CNN + LSTM + Attention,第 2 个是CNN + LSTM + Attention。主要学习的是数据处理的完整流程,以及模型构建的完整流程。虽然还没有使用 Bert 等方案,不过如果看完了这篇文章,理解了整个流程之后,即使你想要使用其他模型来处理,也能更快实现。

阅读更多
数据竞赛/阿里天池 NLP 入门赛 Bert 方案 -1  数据预处理

数据竞赛/阿里天池 NLP 入门赛 Bert 方案 -1 数据预处理

前言

这篇文章用于记录阿里天池 NLP 入门赛,详细讲解了整个数据处理流程,以及如何从零构建一个模型,适合新手入门。

赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。实质上是一个 14 分类问题。

赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。

比赛地址:https://tianchi.aliyun.com/competition/entrance/531810/introduction

数据可以通过上面的链接下载。

阅读更多
NLP/图解 Transformer

NLP/图解 Transformer

本文翻译自 : http://jalammar.github.io/illustrated-transformer/。是我看过的把 Transformer 讲解得最好的文章:这篇文章从输入开始,一步一步演示了数据在 Transformer 中的流动过程。由于看过一些中文翻译的文章,感觉不够好,所以我自己翻译了一个版本,在一些难以直译的地方,我加入了一些原文没有的文字说明,来更好地解释概念。另外,我添加了一些简单的代码,实现了一个基本的 Self Attention 以及 multi-head attention 的矩阵运算。

Transformer 依赖于 Self Attention 的知识。Attention 是一种在深度学习中广泛使用的方法,Attention的思想提升了机器翻译的效果。如果你还没学习 Attention,请查看这篇 Attention 的精彩讲解

阅读更多
Python/Python 的 uppack(解包参数)
数据竞赛/第二届易观算法大赛 Top2 方案分享

数据竞赛/第二届易观算法大赛 Top2 方案分享

赛题描述

本文介绍第二届易观算法大赛——根据用户手机 APP 的使用情况,预测用户的性别和年龄,这是比赛地址。这虽然是一年多前的比赛,其中的数据处理和特征工程等思路依然值得学习。

这次大赛的要求根据用户手机数据、和手机上的应用数据等,训练模型预测用户的性别和年龄。

在上一篇文章中,分享了一个 baseline,把每个 APP 当作一个词,使用 TF-IDF 计算权重作为特征,进行训练。在测试集上得到了 logloss 为 2.73161 的分数。但是没有利用其他的信息,本文主要利用了 APP 的使用数据、APP 的类别数据、以及设备本身的型号数据等提取特征,主要特征提取思路如下图所示。

阅读更多
数据竞赛/第二届易观算法大赛 baseline 分享

数据竞赛/第二届易观算法大赛 baseline 分享

赛题描述

本文介绍第二届易观算法大赛——根据用户手机 APP 的使用情况,预测用户的性别和年龄,这是比赛地址。这虽然是一年多前的比赛,其中的数据处理和特征工程等思路依然值得学习。

这次大赛的要求根据用户手机数据、和手机上的应用数据等,训练模型预测用户的性别和年龄。

本文介绍了一个 baseline,把每个 APP 当作一个词,使用 TF-IDF 计算权重作为特征,进行训练。在测试集上得到了 logloss 为 2.73161 的分数。

阅读更多
论文/DVS_GAIT 步态识别论文和代码讲解