ELK（分布式大数据搜索和日志挖掘及可视化）之核心elasticsearch（ES）

本帖最后由 Godman 于 2017-9-15 17:07 编辑
问题向导:
(1)什么是ELK，有什么作用？
(2)elasticsearch（ES）简介。
(3)基本操作与详细介绍
(4)elasticsearch（ES）与solr的简单对比

1、ELK介绍

通常，日志被分散的储存不同的设备上。如果你管理数十上百台服务器，你还在使用依次登录每台机器的传统方法查阅日志。这样是不是感觉很繁琐和效率低下。当务之急我们使用集中化的日志管理，例如：开源的syslog，将所有服务器上的日志收集汇总。

集中化管理日志后，日志的统计和检索又成为一件比较麻烦的事情，一般我们使用grep、awk和wc等Linux命令能实现检索和统计，但是对于要求更高的查询、排序和统计等要求和庞大的机器数量依然使用这样的方法难免有点力不从心。

开源实时日志分析ELK平台能够完美的解决我们上述的问题，ELK由ElasticSearch、Logstash和Kiabana三个开源工具组成。官方网站：https://www.elastic.co/products

Elasticsearch是个开源分布式搜索引擎，它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制，restful风格接口，多数据源，自动搜索负载等。

Logstash是一个完全开源的工具，他可以对你的日志进行收集、过滤，并将其存储供以后使用（如，搜索）。

Kibana 也是一个开源和免费的工具，它Kibana可以为 Logstash 和 ElasticSearch 提供的日志分析友好的 Web 界面，可以帮助您汇总、分析和搜索重要数据日志。

2、核心elasticsearch（ES）简介

Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。

它可以用于全文搜索，结构化搜索以及分析，当然你也可以将这三者进行组合。

Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎，可以说Lucene是当今最先进，最高效的全功能开源搜索引擎框架。

但是Lucene只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene。需要很多的学习了解，才能明白它是如何运行的，Lucene确实非常复杂。

Elasticsearch使用Lucene作为内部引擎，但是在使用它做全文搜索时，只需要使用统一开发好的API即可，而不需要了解其背后复杂的Lucene的运行原理。

当然Elasticsearch并不仅仅是Lucene这么简单，它不但包括了全文搜索功能，还可以进行以下工作:

分布式实时文件存储，并将每一个字段都编入索引，使其可以被搜索。
实时分析的分布式搜索引擎。
可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。

ElasticSearch（简称ES）是面向文档（document oriented），意味它可以存储整个对象或者文档，除了存储，还会索引每个文档的内容使之可以被搜索。

Elasticsearch中，文档归属于一种类型(type) ,而这些类型存在于索引(index)中，类比传统关系型数据库：

Relational DB -> Databases -> Tables -> Rows -> Columns

关系型数据库数据库表行列

Elasticsearch -> Indices -> Types -> Documents -> Fields

3、基本操作与详细介绍

3.1、ES安装

ES由java语言实现，运行环境依赖java。ES 1.x版本，官方推荐使用jdk1.7+的环境，建议使用oracle jdk1.8；ES可以去官网下载，本文使用elasticsearch-1.6.0.tar.gz。

（1）解压elasticsearch-1.6.0.tar.gz，sudo tar -zvxf elasticsearch-1.6.0.tar.gz，在当前路径生成目录：elasticsearch-1.6.0；

（2）配置ES。这里只做最简单的配置，修改ES_HOME/config/elasticsearch.yml文件，相关配置参数（可以使用默认的）

#集群名称
cluster.name: elasticsearch

#节点名称
node.name: "node1"

#节点是否存储数据
node.data: true

#索引分片数
index.number_of_shards: 5

#索引副本数
index.number_of_replicas: 1

#数据目录存放位置
path.data: /data/elasticsearch/data

#日志数据存放位置
path.logs: /data/elasticsearch/log

#索引缓存
index.cache.field.max_size: 500000

#索引缓存过期时间
index.cache.field.expire: 5m

（3）启动ES。进入ES安装目录，执行命令：bin/elasticsearch -d -Xms512m -Xmx512m，然后在浏览器输入http://ip:9200/，查看页面信息，是否正常启动。status=200表示正常启动了。

也可以在终端测试

开启后你就可以使用另一个终端窗口来进行测试了:

[mw_shl_code=shell,true]curl 'http://localhost:9200/?pretty'[/mw_shl_code]

你应该看到如下提示：

{
"status": 200,
"name": "Shrunken Bones",
"version": {
"number": "1.4.0",
"lucene_version": "4.10"
},
"tagline": "You Know, for Search"
}

3.2、面向文档

Elasticsearch 是面向文档型数据库，这意味着它存储的是整个对象或者文档，它不但会存储它们，还会为他们建立索引，这样你就可以搜索他们了。你可以在 Elasticsearch 中索引、搜索、排序和过滤这些文档。不需要成行成列的数据。这将会是完全不同的一种面对数据的思考方式，这也是为什么 Elasticsearch 可以执行复杂的全文搜索的原因。

JSON

Elasticsearch使用 JSON (或称作JavaScript Object Notation ) 作为文档序列化的格式。JSON 已经被大多数语言支持，也成为 NoSQL 领域的一个标准格式。它简单、简洁、易于阅读。

把这个 JSON 想象成一个用户对象:

{
"email":    "john@smith.com",
"first_name": "John",
"last_name":  "Smith",
"info": {
      "bio":       "Eco-warrior and defender of the weak",
      "age":       25,
      "interests": [ "dolphins", "whales" ]
},
"join_date": "2014/05/01"
}

3.3、索引实例

在 Elasticsearch 中，文档属于一种类型(type)，各种各样的类型存在于一个索引中。你也可以通过类比传统的关系数据库得到一些大致的相似之处：

关系数据库 ⇒ 数据库 ⇒ 表 ⇒ 行 ⇒ 列(Columns)

Elasticsearch ⇒ 索引 ⇒ 类型 ⇒ 文档 ⇒ 字段(Fields)

这对于Elasticsearch来说非常简单。我们只要执行HTTP GET请求并指出文档的“地址”——索引、类型和ID既可。根据这三部分信息，我们就可以返回原始JSON文档：

[mw_shl_code=shell,true]GET /megacorp/employee/1[/mw_shl_code]

响应的内容中包含一些文档的元信息，John Smith的原始JSON文档包含在_source字段中。

{
  "_index" : "megacorp",
  "_type" : "employee",
  "_id" :    "1",
  "_version" : 1,
  "found" : true,
  "_source" :  {
   "first_name" :  "John",
   "last_name" : "Smith",
   "age" :       25,
   "about" :    "I love to go rock climbing",
   "interests":  [ "sports", "music" ]
  }
}

我们尝试一个最简单的搜索全部员工的请求：

全文搜索——一种传统数据库很难实现的功能。

我们将会搜索所有喜欢“rock climbing”的员工：

GET /megacorp/employee/_search
{
"query" : {
      "match" : {
         "about" : "rock climbing"
      }
}
}

你可以看到我们使用了之前的[size=0.85em]match查询，从[size=0.85em]about字段中搜索"rock climbing"，我们得到了两个匹配文档：

{
...
"hits": {
   "total":    2,
   "max_score":  0.16273327,
   "hits": [
      {
         ...
         "_score":       0.16273327, <1>
         "_source": {
            "first_name":  "John",
            "last_name": "Smith",
            "age":       25,
            "about":    "I love to go rock climbing",
            "interests": [ "sports", "music" ]
         }
      },
      {
         ...
         "_score":       0.016878016, <2>
         "_source": {
            "first_name":  "Jane",
            "last_name": "Smith",
            "age":       32,
            "about":    "I like to collect rock albums",
            "interests": [ "music" ]
         }
      }
   ]
}
}

3.4、倒排索引
Elasticsearch使用一种叫做倒排索引(inverted index)的结构来做快速的全文搜索。倒排索引由在文档中出现的唯一的单词列表，以及对于每个单词在文档中的位置组成。

为了创建倒排索引，我们首先切分每个文档的content字段为单独的单词（我们把它们叫做词(terms)或者表征(tokens)）（译者注：关于terms和tokens的翻译比较生硬，只需知道语句分词后的个体叫做这两个。），把所有的唯一词放入列表并排序，结果是这个样子的：

Term Doc_1 Doc_2
Quick X
The X
brown X X
dog X
dogs X
fox X
foxes X
in X
jumped X
lazy X X
leap X
over X X
quick X
summer X
the X

现在，如果我们想搜索"quick brown"，我们只需要找到每个词在哪个文档中出现即可：

Term Doc_1 Doc_2
brown X X
quick X
----- ------- -----
Total 2 1
两个文档都匹配，但是第一个比第二个有更多的匹配项。如果我们加入简单的相似度算法(similarity algorithm)，计算匹配单词的数目，这样我们就可以说第一个文档比第二个匹配度更高——对于我们的查询具有更多相关性。