在上述例子中,ENCODER和DECODER都是LSTM来实现的,因为LSTM擅长处理序列输入和序列输出。但这并不意味着我们在理解自然语言的任务中只有这样一种选择,特别是当我们要解决一个分类问题的时候,我们会更加自然地用一个简单的Softmax层作为DECODER。哪怕在一个邮件自动回复系统或者机器翻译任务中,只要网络的组合方式合理得当,我们仍然可以选择CNN[Gehring et al. 2017],ATTENTION[Vaswani, et al., 2017]等非RNN的网络作为Encoder、Decoder的基本结构,并取得不错的效果。