62-序列到序列学习

宗成庆老师《统计自然语言处理》（第二版）一书中关于 BLEU 的定义：

同时，吴恩达深度学习课程中也是使用这一方式定义。但观察两种方式，BP 惩罚因子的计算是一致的，pn 也是使用了几何平均的方式，只是对于 wn 这一加权值的选择有所不同。

BLEU 值衡量的是精确率，而且对不同 n-gram 进行集成打分。

BP 惩罚因子：为了惩罚过短的句子，由于过短的句子基数小，精确率容易提升，所以加上一个 BP 乘子，当预测句子长度<参考句子长度，则 BP<1。
wn 的选择：李沐老师课程中是采用了$\frac{1}{2^n}$ 作为加权因子，n 越大，加权因子越小，但由于 pn<1，赋予的权重越大，即长匹配具有更高的权重。而宗老师的书中所述：在 BLEU 的基线系统中取 N ＝ 4，wn ＝ 1/N，也可以参考。

问题：LSTM、GRU、Seq2Seq 的区别是什么？

Seq2Seq 是一种由编码器和解码器组成的框架，而 LSTM、GRU 是组成编码器和解码器的一种单元。

问题：encoder 的输出和 decoder 的输入，拼接和按位相加起来有什么区别么？

不能够按位加，由于 encoder 的输出最后维度是 hidden_size，而 decoder 的输入最后维度是 embedding_size，可能不一样，所以用拼接。

问题：embedding 层是做 word2vec 吗？

这里不是，这里是从头开始训练。现在用的比较多得都是预训练，BERT 等。

最近更新于 0001-01-01