【李宏毅2021机器学习深度学习】Transform
文章目录写在前面Transform是什么硬train一发(语音识别)语音合成Seq2seq其它应用(文字->文字)其他应用QA特制化模型有更好的效果,参考往年教程其它应用(文法解析)其它应用(Multi-label Classification,硬做)Object Detection(硬做)Seq2seqEncoder其它Transform架构(更多)DecoderAutoregressiv
·
文章目录
写在前面
[视频学习-bilibili] | [课程主页——sample code & slide] | [ML2021学习笔记] | [homework_code]
Transform是什么
硬train一发(语音识别)
语音合成
Seq2seq其它应用(文字->文字)
其他应用QA
特制化模型有更好的效果,参考往年教程
其它应用(文法解析)
其它应用(Multi-label Classification,硬做)
Object Detection(硬做)
Seq2seq
Encoder
其它Transform架构(更多)
Decoder
Autoregressive
Masker(不能看后面的资讯)
输出是多少个呢?(Adding Stop Token)
Non-autoregressive(NAT)
Encoder - Decoder
Cross attention(运作过程)
各式各样的连接方式
文章目录
Training
Tips
Copy mechanism
Guided Attention
训练的时候也会出现奇奇怪怪的问题(比如短的发财,发没发音,只有财,漏字了)
解决方法:从左往右限制(也是大坑,留个资料)
文章目录
Beam Search(有时有用(确定性答案,语音合成),有时无用(随机性,创造性的任务不行))
评估指标(BLEU score)
exposure bias(训练的时候都是正确的,但是预测的时候不知道,可能一步错步步错。一个可能的办法:给训练的时候加点错误的资料…这一招叫做:Schedule Sampling)
讲完了(Encoder-Decoder-它们中间的关系-怎么训练-Tips)
更多推荐
已为社区贡献2条内容
所有评论(0)