问题导读
1.Title分析的基本处理思路是什么?
2.Title分析识别出的商品标题信息的作用是什么?
当用户在一个网站浏览或者搜索商品时,在大多数时间他所面对的都是商品标题+商品图片的商品信息形式。只有当这种简要的信息抓住了用户的眼球时或者达到用户的心理预期时才能引导用户进入更详细的商品详情页。这就对其中唯一的文本信息载体:商品标题包含的信息内容质量提出了要求。 我们来看两个商品标题的例子,这是分别来自淘宝网和京东商城的两条普通商品标题: 可以看到:作为用户了解商品信息的第一道入口,商品标题包含有丰富而优质的商品信息,能够在第一时间向用户传达商品最重要的特征。有鉴于此, 在一淘网对商品信息的处理过程中,我们对部分商品的标题进行分析分解,将其中包含的语义信息归类。然后提取出需要的语义信息,再进行进一步的产品逻辑处理。为此,我们开发了中文商品的标题信息分析(以下简称Title分析)程序。
- Title中商品信息类别
要对Title信息分类,首先需要知道Title中都可能包含哪些类别的信息。我们把Title中的商品信息类别归纳如图1:
图1 - Title分析的基本处理思路:
- Title分析的应用实例:化妆品小样的识别。
- 首先是识别商品的容量。识别商品容量的方案包括:
- 然后Title分析处理商品title和属性识别出商品容量
- 第二是识别小样的商品,借助词表识别小样商品的方案包括:
- 通过词典进行识别:整理小样可能的词加入特殊规格词典,比如:“小样、中样、中小样”等等,当商品标题中出现了这些词的时候,将商品识别为小样。
- 商品标题中可能会写:“高丝 精米水凝保湿眼霜50ml送小样”,这时候如果只用词表进行识别,会将此商品错误的识别为小样商品,但实际上不是。这些会被Title分析的赠品识别过滤。
- 最后是根据容量识别小样商品,根据容量识别小样商品的方案包括:
- 哪些商品卖的是同一种化妆品。比如,属于同一个产品节点的商品。
- 根据识别商品的容量和识别小样的商品,找到是小样且识别出了容量的商品,得到此化妆品产品节点的小样容量,比如“高丝 精米水凝保湿眼霜”的小样容量是6ml或者5ml。
- 根据容量判断同类化妆品的商品是否是小样。比如对于“高丝 精米水凝保湿眼霜”的商品,将等于或者小于6ml的商品都判断为小样商品。对于没有抽取到容量但也被第二步识别到了的商品,也判断为小样商品。
Title分析识别出的商品标题信息能够为很多工作带来帮助。化妆品小样识别就是一个使用Title分析的例子。我们来看一个在一淘网中化妆品详情展示的页面(图2):
图2 可以看到,在化妆品行业中同一种商品通常都具有多种不同的规格。为了方便对比,我们识别出具体商品中的规格,并提供按规格筛选比较的功能。而小样识别就是其中最大的挑战。 化妆品小样方案主要是3部分,涉及到了Title分析对商品容量、特殊规格和赠品的识别。
|