【李宏毅2021机器学习深度学习】Transform

文章目录写在前面Transform是什么硬train一发（语音识别）语音合成Seq2seq其它应用（文字->文字）其他应用QA特制化模型有更好的效果，参考往年教程其它应用（文法解析）其它应用（Multi-label Classification，硬做）Object Detection（硬做）Seq2seqEncoder其它Transform架构（更多）DecoderAutoregressiv

Ill carry you

1774人浏览 · 2021-12-07 14:35:17

Ill carry you · 2021-12-07 14:35:17 发布

写在前面

[视频学习-bilibili] | [课程主页——sample code & slide] | [ML2021学习笔记] | [homework_code]

Transform是什么

在这里插入图片描述

硬train一发（语音识别）

在这里插入图片描述

语音合成

在这里插入图片描述

Seq2seq其它应用（文字->文字）

在这里插入图片描述

其他应用QA

在这里插入图片描述

特制化模型有更好的效果，参考往年教程

在这里插入图片描述

其它应用（文法解析）

在这里插入图片描述

其它应用（Multi-label Classification，硬做）

在这里插入图片描述

Object Detection（硬做）

在这里插入图片描述

Seq2seq

在这里插入图片描述

Encoder

在这里插入图片描述

其它Transform架构（更多）

在这里插入图片描述

Decoder

在这里插入图片描述

Autoregressive

在这里插入图片描述

Masker（不能看后面的资讯）

在这里插入图片描述

输出是多少个呢？（Adding Stop Token）

在这里插入图片描述

Non-autoregressive（NAT）

在这里插入图片描述

Encoder - Decoder

在这里插入图片描述

Cross attention（运作过程）

在这里插入图片描述

各式各样的连接方式

在这里插入图片描述

文章目录

写在前面
- Transform是什么
Seq2seq
讲完了（Encoder-Decoder-它们中间的关系-怎么训练-Tips）

Training

在这里插入图片描述

Tips

Copy mechanism

在这里插入图片描述

Guided Attention

训练的时候也会出现奇奇怪怪的问题（比如短的发财，发没发音，只有财，漏字了）

在这里插入图片描述

解决方法：从左往右限制（也是大坑，留个资料）

在这里插入图片描述

文章目录

写在前面
- Transform是什么
Seq2seq
讲完了（Encoder-Decoder-它们中间的关系-怎么训练-Tips）

Beam Search(有时有用（确定性答案，语音合成），有时无用（随机性，创造性的任务不行）)

在这里插入图片描述

评估指标（BLEU score）

在这里插入图片描述

exposure bias（训练的时候都是正确的，但是预测的时候不知道，可能一步错步步错。一个可能的办法：给训练的时候加点错误的资料…这一招叫做：Schedule Sampling）

在这里插入图片描述

讲完了（Encoder-Decoder-它们中间的关系-怎么训练-Tips）

在这里插入图片描述

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生