BERT 只是一个文本扩散步骤
Andrej Karpathy提到的一篇文章: nathan.rs/posts/roberta-diffusion/
文中认为,像 BERT 这样经典的编码器模型(Encoder-only models)可以被看作是一种特殊的、只执行一步的文本扩散模型。通过对训练方式进行微调,可以将其转变为一个能够生成文本的完整生成模型。
BERT 只是一个文本扩散步骤
Andrej Karpathy提到的一篇文章: nathan.rs/posts/roberta-diffusion/
文中认为,像 BERT 这样经典的编码器模型(Encoder-only models)可以被看作是一种特殊的、只执行一步的文本扩散模型。通过对训练方式进行微调,可以将其转变为一个能够生成文本的完整生成模型。
猜你喜欢
【1评论】
【1点赞】
【4评论】【4点赞】
【1评论】【1点赞】
【11评论】【22点赞】
【1评论】【2点赞】
作者最新文章
热门分类
科技TOP
科技最新文章