NLP/GPT3 的原理 - 详细动画图解

NLP/GPT3 的原理 - 详细动画图解

本文翻译自 http://jalammar.github.io/how-gpt3-works-visualizations-animations/

如今,科技圈充斥着关于 GPT3 的炒作。大量的语言模型(如 GPT3)开始展现出它们惊人的能力。对于大多数企业来说,这些模型虽然还不能直接给用户可靠地使用,但它们展现出的智慧火花,肯定会加速自动化进程和智能计算机系统的可能性。现在,让我们揭开 GPT3的神秘面纱,了解它是如何训练的,以及它是如何运作的。

一个训练好的语言模型会生成文本。

我们可以把一些文本输入到模型中,这些输入的文本会影响输出的文本。

阅读更多
Python/pip 和 conda 修改源
CV/PyTorch ResNet 使用与源码解析
Python/使用 anaconda 管理多个版本的 CUDA

Python/使用 anaconda 管理多个版本的 CUDA

虽然现在 Tensorflow 2 已经发布一段时间了,但仍然有很多历史代码是基于 Tensorflow 1 的。

由于经常需要复现过去的论文的代码,需要使用 Tensorflow 1 的 GPU 版本 ,而我的服务器已经安装了 Tensorflow 2 的 GPU 版本。

Tensorflow 2Tensorflow 1 的 GPU 版本需要的 CUDA 和 cudnn 版本都不一样。

下面来看看如何在一个同一个服务器上,安装不同版本的 Tensorflow GPU 版本。

阅读更多
NLP/图解 Attention

NLP/图解 Attention

本文翻译自 https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/

Attention 被广泛用于序列到序列(seq2seq)模型,这是一种深度学习模型,在很多任务上都取得了成功,如:机器翻译、文本摘要、图像描述生成。谷歌翻译在 2016 年年末开始使用这种模型。有 2 篇开创性的论文(Sutskever et al., 2014, Cho et al., 2014)对这些模型进行了解释。

阅读更多
Git/Git 详解

Git/Git 详解

这篇文章,我会从使用层面,和原理层面,来讲解 git 的常用操作,并且给出一些最佳实践。

本地仓库与远程仓库

git 是一个分布式版本控制系统,除了在本地仓库记录各种修改,更重要的功能是:同步到某一个中央仓库,让团队的人随时可以看到其他人最新的代码。这一节来说下如何建立本地仓库和远程仓库的连接。

阅读更多
读书/拆掉思维里的墙

读书/拆掉思维里的墙

最近读了《拆掉思维里的墙》。

记录一些句子。

当一个人面对新事物无力投入,或者害怕投入了也做不好时,他们就会表现出对新事物的漠不关心。

老人们对任何事情都 [不感兴趣],是因为他们觉得自己能力不足,或者怎么做都没有年轻人做得好。

孩子对学习不感兴趣,往往是由于自己觉得没有学好的能力,或者再怎么努力也达不到父母的要求。

朋友说对爱情[不感兴趣],其实是觉得自己不够好,或者害怕自己投入感情也会失败。但没有人愿意说我很害怕,所以他们骗自己说,[我根本不感兴趣]!

阅读更多
NLP/Bert 文本分类实战
数据竞赛/阿里天池 NLP 入门赛 Bert 方案 -3 Bert 预训练与分类

数据竞赛/阿里天池 NLP 入门赛 Bert 方案 -3 Bert 预训练与分类

前言

这篇文章用于记录阿里天池 NLP 入门赛,详细讲解了整个数据处理流程,以及如何从零构建一个模型,适合新手入门。

赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。实质上是一个 14 分类问题。

赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。

比赛地址:https://tianchi.aliyun.com/competition/entrance/531810/introduction

数据可以通过上面的链接下载。

阅读更多
NLP/Bert 源码解读 3