文本数据挖掘入门14概念总结

问题导读

1.什么是话题跟踪？
2.什么是聚类？
3.什么是概念衔接？

据美林公司（Merrill Lynch）和高德纳公司（Gartner）联合进行的一项调查表明，85%的企业数据或多或少是以无序的方式收集储存的。同时，调查声称这些杂乱无章的数据每18个月增长一倍。

当今商界奉行“知识就是力量”，知识来源于数据和信息，若企业能够高效且有效地挖掘文本数据背后的资源，就能够做出更好的决策。

文本挖掘（在文本数据库也称文本数据挖掘或者知识发现）是从大量无结构的数据中提炼出模式（也就是有用的信息和知识）的半自动化处理过程。

请注意，数据挖掘是从有结构的数据库中鉴别出有效的、新颖的、可能有用的并最终可理解的模式。在这个有结构的数据库中，分类的、顺序的或者连续型变量构建起记录，数据在这些记录下进行组织。文本挖掘与数据挖掘的共同之处在于，它们都为了同样的目标，使用同一处理方式，不同之处在于文本挖掘流程中“输入”一项是一堆杂乱无章的（或者说是未经整理的）数据文件，比如Word、PDF、本文文档摘录、XML文件等。

在大量数据产生的领域，文本挖掘的益处尤为突出。

信息提取。通过模式匹配寻找出文本中先定的物件和序列，文本挖掘能够鉴别文本中主要的短语和关系。最常见的信息提取形式大概就是“实体抽取”。命名实体抽取包括命名实体识别（利用现有对域的知识，进行已知实体名称的识别，包括：人、企业、地点的名字、时间表达式以及某些数值表达式）、指代消解（检测文本实体间的同指代和回指代联系）、关系抽取（鉴别实体间的关系）。

话题跟踪。根据用户浏览的文件记录，文本挖掘可以预测用户可能喜欢的其他文本。

总结。文本挖掘可以为读者总结文本概要，节省阅读时间。

分类。文本挖掘能够发现稳当的主题，并归置在预先制定的类别之下。

聚类。文本挖掘可以在没有预先制定的类别时归类相似的文档。

概念衔接。文本挖掘可以鉴别文档的共享概念，从而把相关的文档连接在一起。用户由此可以找到传统搜索方法无法发现的信息。

答疑。通过知识驱动的模式匹配，文本挖掘可以找出问题的最佳答案。

文本挖掘有自己的语言体系，包括多种多样的术语和缩略词。

非结构化数据。结构化数据有其预设的格式，常和简单的数据数值（分类的、顺序的或者连续型变量）一同被组织进入记录并储存在数据库。

语料库。在语言学中，语料库是一个大型的结构化文本的集合（现在一般是以电子形式储存和处理），用作知识发现的工具。

术语。术语是由在一个特定域的语料库中，通过自然语言处理提取的单词或者多词短语。

概念。概念是通过人工、统计、规则导向或者多种混合的分类方法，从一系列文档中生成的特征。与术语相比，生成概念需要更高层次的抽象。

词干提取。词干提取是将屈折词简化到词干（或者词根）的处理方式。比如，stemmer,stemming和stemmed都来自stem。