NLP/Bert 预训练实战

NLP/Bert 预训练实战

上一篇文章中,我使用了 BertForSequenceClassification,在自己的训练集上训练情感分类模型。

在这篇文章,我来讲解,如何从 0 开始预训练自己的 embedding 向量。

网上已经开源了很多预训练好的模型,为什么还需要自己重新开始训练呢?

我最近碰到一个场景,是一个比赛,零基础入门NLP - 新闻文本分类。这个比赛做的是文本分类任务,但是数据中的文本数据都是脱敏的,比赛数据的文本按照字符级别进行了匿名处理,如下所示:

label text
6 57 44 66 56 2 3 3 37 5 41 9 57 44 47 45 33 13 63 58 31 17 47 0 1 1 69 26 60 62 15 21 12 49 18 38 20 50 23 57 44 45 33 25 28 47 22 52 35 30 14 24 69 54 7 48 19 11 51 16 43 26 34 53 27 64 8 4 42 36 46 65 69 29 39 15 37 57 44 45 33 69 54 7 25 40 35 30 66 56 47 55 69 61 10 60 42 36 46 65 37 5 41 32 67 6 59 47 0 1 1 68

在这种情况下,我无法找到一个适合于这个数据集的词汇表和 embedding 向量,因此需要自己预训练 Bert 模型。

参考

https://www.cnblogs.com/dogecheng/p/11911909.html


如果你觉得这篇文章对你有帮助,不妨点个赞,让我有更多动力写出好文章。

我的文章会首发在公众号上,欢迎扫码关注我的公众号张贤同学


评论