2016年年底Google公布的神经网络机器翻译(GNMT)[19]宣告了神经网络机器翻译性能超过1989年的IBM机器翻译模型(SMT,基于短语的机器翻译模型)。推动这一巨大发展就是引入Attention机制[20]的Sequence to Sequence(Seq2Seq)的端到端模型。但在实际的使用中发现,NMT生成的改写词存在不符合语义(生僻或不通顺)以及改写有语义漂移两个问题,导致在线上新增改写的有效比例低,甚至会导致严重的漂移Case。因此要引入NMT做改写必须结合搜索的使用场景对以上两个问题做优化,目标是生成无意图漂移、能够产生实际召回影响的改写词。基于以上问题分析和思考,通过引入环境因素引导NMT生成更高质量的改写是大方向目标,从这个角度出发我们调研了强化学习的方法。
目前,在美团App搜索中有改写流量占比约73%,在大众点评App搜索有改写流量占比约67%。构建的查询改写能力和服务平台支持各个业务频道内搜索以及搜索广告平台等,并取得了不错的收益。现在查询改写服务高峰期集群QPS(Query Per Second)已经达到了6万次/秒,我们会进一步投入研发,提升公司内乃至业界内的技术影响力。