2020-08-24NLP2 分钟读完 (大约 307 个字)

NLP/Bert 预训练实战

上一篇文章中，我使用了 BertForSequenceClassification，在自己的训练集上训练情感分类模型。

在这篇文章，我来讲解，如何从 0 开始预训练自己的 embedding 向量。

网上已经开源了很多预训练好的模型，为什么还需要自己重新开始训练呢？

我最近碰到一个场景，是一个比赛，零基础入门NLP - 新闻文本分类。这个比赛做的是文本分类任务，但是数据中的文本数据都是脱敏的，比赛数据的文本按照字符级别进行了匿名处理，如下所示：

label	text
6	57 44 66 56 2 3 3 37 5 41 9 57 44 47 45 33 13 63 58 31 17 47 0 1 1 69 26 60 62 15 21 12 49 18 38 20 50 23 57 44 45 33 25 28 47 22 52 35 30 14 24 69 54 7 48 19 11 51 16 43 26 34 53 27 64 8 4 42 36 46 65 69 29 39 15 37 57 44 45 33 69 54 7 25 40 35 30 66 56 47 55 69 61 10 60 42 36 46 65 37 5 41 32 67 6 59 47 0 1 1 68

在这种情况下，我无法找到一个适合于这个数据集的词汇表和 embedding 向量，因此需要自己预训练 Bert 模型。

参考

如果你觉得这篇文章对你有帮助，不妨点个赞，让我有更多动力写出好文章。

我的文章会首发在公众号上，欢迎扫码关注我的公众号张贤同学。