NLP/GPT3 的原理 - 详细动画图解

2020-09-10NLP9 分钟读完 (大约 1403 个字)

NLP/GPT3 的原理 - 详细动画图解

本文翻译自 http://jalammar.github.io/how-gpt3-works-visualizations-animations/

如今，科技圈充斥着关于 GPT3 的炒作。大量的语言模型（如 GPT3）开始展现出它们惊人的能力。对于大多数企业来说，这些模型虽然还不能直接给用户可靠地使用，但它们展现出的智慧火花，肯定会加速自动化进程和智能计算机系统的可能性。现在，让我们揭开 GPT3的神秘面纱，了解它是如何训练的，以及它是如何运作的。

一个训练好的语言模型会生成文本。

我们可以把一些文本输入到模型中，这些输入的文本会影响输出的文本。

Python/pip 和 conda 修改源

2020-09-09Python8 分钟读完 (大约 1199 个字)

Python/pip 和 conda 修改源

pip 修改源

用 pip 管理工具安装库文件时，默认从国外的源下载。

导致安装库的时候，下载速度非常慢，切换成国内的镜像源，可以大大提升下载速度。

比较常用的国内镜像有：

阿里云 https://mirrors.aliyun.com/pypi/simple/

豆瓣 http://pypi.douban.com/simple/

清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/

CV/PyTorch ResNet 使用与源码解析

2020-09-08计算机视觉39 分钟读完 (大约 5808 个字)

CV/PyTorch ResNet 使用与源码解析

本章代码：https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson8/resnet_inference.py

这篇文章首先会简单介绍一下 PyTorch 中提供的图像分类的网络，然后重点介绍 ResNet 的使用，以及 ResNet 的源码。

模型概览

在torchvision.model中，有很多封装好的模型。

Python/使用 anaconda 管理多个版本的 CUDA

2020-09-05Python5 分钟读完 (大约 816 个字)

Python/使用 anaconda 管理多个版本的 CUDA

虽然现在 Tensorflow 2 已经发布一段时间了，但仍然有很多历史代码是基于 Tensorflow 1 的。

由于经常需要复现过去的论文的代码，需要使用 Tensorflow 1 的 GPU 版本，而我的服务器已经安装了 Tensorflow 2 的 GPU 版本。

而 Tensorflow 2 和 Tensorflow 1 的 GPU 版本需要的 CUDA 和 cudnn 版本都不一样。

下面来看看如何在一个同一个服务器上，安装不同版本的 Tensorflow GPU 版本。

NLP/图解 Attention

2020-09-01NLP20 分钟读完 (大约 2937 个字)

NLP/图解 Attention

本文翻译自 https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/

Attention 被广泛用于序列到序列（seq2seq）模型，这是一种深度学习模型，在很多任务上都取得了成功，如：机器翻译、文本摘要、图像描述生成。谷歌翻译在 2016 年年末开始使用这种模型。有 2 篇开创性的论文(Sutskever et al., 2014, Cho et al., 2014)对这些模型进行了解释。

2020-08-30Git1 小时读完 (大约 10388 个字)

Git/Git 详解

这篇文章，我会从使用层面，和原理层面，来讲解 git 的常用操作，并且给出一些最佳实践。

本地仓库与远程仓库

git 是一个分布式版本控制系统，除了在本地仓库记录各种修改，更重要的功能是：同步到某一个中央仓库，让团队的人随时可以看到其他人最新的代码。这一节来说下如何建立本地仓库和远程仓库的连接。

2020-08-29读书5 分钟读完 (大约 802 个字)

读书/拆掉思维里的墙

最近读了《拆掉思维里的墙》。

记录一些句子。

当一个人面对新事物无力投入，或者害怕投入了也做不好时，他们就会表现出对新事物的漠不关心。

老人们对任何事情都 [不感兴趣]，是因为他们觉得自己能力不足，或者怎么做都没有年轻人做得好。

孩子对学习不感兴趣，往往是由于自己觉得没有学好的能力，或者再怎么努力也达不到父母的要求。

朋友说对爱情[不感兴趣]，其实是觉得自己不够好，或者害怕自己投入感情也会失败。但没有人愿意说我很害怕，所以他们骗自己说，[我根本不感兴趣]！

NLP/Bert 文本分类实战

2020-08-22NLP11 分钟读完 (大约 1612 个字)

NLP/Bert 文本分类实战

上一篇文章中，我详细讲解了 BertModel。

在今天这篇文章，我会使用 BertForSequenceClassification，在自己的训练集上训练情感分类模型。

数据集来源于 https://github.com/bojone/bert4keras/tree/master/examples/datasets

是一个中文的情感二分类数据集。

而词汇表 vocab.txt 来自于哈工大的中文预训练语言模型 BERT-wwm, Chinese。

数据竞赛/阿里天池 NLP 入门赛 Bert 方案 -3 Bert 预训练与分类

2020-08-22数据竞赛19 分钟读完 (大约 2919 个字)

数据竞赛/阿里天池 NLP 入门赛 Bert 方案 -3 Bert 预训练与分类

前言

这篇文章用于记录阿里天池 NLP 入门赛，详细讲解了整个数据处理流程，以及如何从零构建一个模型，适合新手入门。

赛题以新闻数据为赛题数据，数据集报名后可见并可下载。赛题数据为新闻文本，并按照字符级别进行匿名处理。整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。实质上是一个 14 分类问题。

赛题数据由以下几个部分构成：训练集20w条样本，测试集A包括5w条样本，测试集B包括5w条样本。

比赛地址：https://tianchi.aliyun.com/competition/entrance/531810/introduction

数据可以通过上面的链接下载。

NLP/Bert 源码解读 3

2020-08-20NLP30 分钟读完 (大约 4533 个字)

NLP/Bert 源码解读 3

上一篇文章中，我讲解了在 transformers 中，与 Bert 相关的模型，其中最核心的就是 BertModel。今天，我会详细讲解 BertModel。