SpringCloud集成ElasticSearch，Logstash，Kibana，ELK，Kafka分布式日志系统（一）

ELKElasticSearch介绍此部分转自（https://www.cnblogs.com/wuchanming/p/6671259.html）在《Elasticsearch : The Definitive Guide》里，这样介绍Elasticsearch，总的来说，Elasticsearch 是一个分布式的搜索和分析引擎，可以用于全文检索、结构化检索和分析，并能将这三者结合...

King-Long

13277人浏览 · 2018-09-06 19:16:29

King-Long · 2018-09-06 19:16:29 发布

ELK

ElasticSearch介绍

此部分转自（https://www.cnblogs.com/wuchanming/p/6671259.html）

在《Elasticsearch : The Definitive Guide》里，这样介绍Elasticsearch，总的来说，Elasticsearch 是一个分布式的搜索和分析引擎，可以用于全文检索、结构化检索和分析，并能将这三者结合起来。Elasticsearch 基于 Lucene 开发，现在是使用最广的开源搜索引擎之一，Wikipedia、Stack Overflow、GitHub 等都基于 Elasticsearch 来构建他们的搜索引擎。

先介绍下 Elasticsearch 里的基本概念，下图是 Elasticsearch 插件 head 的一个截图。

node：即一个 Elasticsearch 的运行实例，使用多播或单播方式发现 cluster 并加入。
cluster：包含一个或多个拥有相同集群名称的 node，其中包含一个master node。
index：类比关系型数据库里的DB，是一个逻辑命名空间。
alias：可以给 index 添加零个或多个alias，通过 alias 使用index 和根据index name 访问index一样，但是，alias给我们提供了一种切换index的能力，比如重建了index，取名customer_online_v2，这时，有了alias，我要访问新 index，只需要把 alias 添加到新 index 即可，并把alias从旧的 index 删除。不用修改代码。
type：类比关系数据库里的Table。其中，一个index可以定义多个type，但一般使用习惯仅配一个type。
mapping：类比关系型数据库中的 schema 概念，mapping 定义了 index 中的 type。mapping 可以显示的定义，也可以在 document 被索引时自动生成，如果有新的 field，Elasticsearch 会自动推测出 field 的type并加到mapping中。
document：类比关系数据库里的一行记录(record)，document 是 Elasticsearch 里的一个 JSON 对象，包括零个或多个field。
field：类比关系数据库里的field，每个field 都有自己的字段类型。
shard：是一个Lucene 实例。Elasticsearch 基于 Lucene，shard 是一个 Lucene 实例，被 Elasticsearch 自动管理。之前提到，index 是一个逻辑命名空间，shard 是具体的物理概念，建索引、查询等都是具体的shard在工作。shard 包括primary shard 和 replica shard，写数据时，先写到primary shard，然后，同步到replica shard，查询时，primary 和 replica 充当相同的作用。replica shard 可以有多份，也可以没有，replica shard的存在有两个作用，一是容灾，如果primary shard 挂了，数据也不会丢失，集群仍然能正常工作；二是提高性能，因为replica 和 primary shard 都能处理查询。另外，如上图右侧红框所示，shard数和replica数都可以设置，但是，shard 数只能在建立index 时设置，后期不能更改，但是，replica 数可以随时更改。但是，由于 Elasticsearch 很友好的封装了这部分，在使用Elasticsearch 的过程中，我们一般仅需要关注 index 即可，不需关注shard。

综上所述，shard、node、cluster 在物理上构成了 Elasticsearch 集群，field、type、index 在逻辑上构成一个index的基本概念，在使用 Elasticsearch 过程中，我们一般关注到逻辑概念就好，就像我们在使用MySQL 时，我们一般就关注DB Name、Table和schema即可，而不会关注DBA维护了几个MySQL实例、master 和 slave 等怎么部署的一样。

下表用Elasticsearch 和关系数据库做了类比：

index => databases
type => table
field => field
document => record
mapping => schema

最后，来从 Elasticsearch 中取出一条数据（document）看看：

由index、type和id三者唯一确定一个document，_source 字段中是具体的document 值，是一个JSON 对象，有5个field组成。

1. Elasticsearch 基本使用

下面介绍下 Elasticsearch 的基本使用，这里仅介绍 Elasticsearch 能做什么，而不详细介绍语法。

1.1 基础操作

index：写 document 到 Elasticsearch 中，如果不存在，就创建，如果存在，就用新的取代旧的。
create：写 document 到 Elasticsearch 中，与 index 不同的是，如果存在，就抛出异常DocumentAlreadyExistException。
get：根据ID取出document。
update：如果是更新整个 document，可用index 操作。如果是部分更新，用update操作。在Elasticsearch中，更新document时，是把旧数据取出来，然后改写要更新的部分，删除旧document，创建新document，而不是在原document上做修改。
delete：删除document。Elasticsearch 会标记删除document，然后，在Lucene 底层进行merge时，会删除标记删除的document。

1.2 Filter 与 Query

Elasticsearch 使用 domain-specific language(DSL)进行查询，DSL 使用 JSON 进行表示。

DSL 由一些子查询组成，这些子查询可应用于两类查询，分别是filter 和 query。

filter 正如其字面意思“过滤”所说的，是起过滤的作用，任何一个document 对 filter 来说，就是match 与否的问题，是个二值问题，0和1，没有scoring的过程。

使用query的时候，是表示match 程度问题，有scroing 过程。

另外，Filter 和 Query 还有性能上的差异，Elasticsearch 底层对Filter做了很多优化，会对过滤结果进行缓存；同时，Filter 没有相关性计算过程，所以，Filter 比 Query 快。

所以，官网推荐，作为一条比较通用的规则，仅在全文检索时使用Query，其它时候都用Filter。但是，根据我们的使用情况来看，在过滤条件不是很强的情况下，缓存可能会占用较多内存，如果这些数据不是频繁使用，用空间换时间不一定划算。

1.3 一些重要的查询

在Elasticsearch 中，有几类最重要的查询子句，掌握了就可以覆盖日常90%以上的需求。

1.3.1 match_all

{"match_all":{}}

表示取出所有documents，在与filter结合使用时，会经常使用match_all。

1.3.2 match

一般在全文检索时使用，首先利用analyzer 对具体查询字符串进行分析，然后进行查询；如果是在数值型字段、日期类型字段、布尔字段或not_analyzed 的字符串上进行查询时，不对查询字符串进行分析，表示精确匹配，两个简单的例子如：

{ "match": { "tweet": "About Search" }}

{ "match": { "age":    26           }}

1.3.3 term

term 用于精确查找，可用于数值、date、boolean值或not_analyzed string，当使用term时，不会对查询字符串进行分析，进行的是精确查找。

{ "term": { "date":   "2014-09-01" }}

1.3.4 terms

terms 和 term 类似，但是，terms 里可以指定多个值，只要doc满足terms 里的任意值，就是满足查询条件的。与term 相同，terms 也是用于精确查找。

{ "terms": { "tag": [ "search", "full_text", "nosql" ] }}

注意，terms 表示的是contains 关系，而不是 equals关系。

1.3.5 range

类比数据库查找的范围查找，举个简单的例子：

{
    "range": {
        "age": {
            "gte":  20,
            "lt":   30
        }
    }
}

操作符可以是：

gt：大于
gte：大于等于
lt：小于
lte：小于等于

1.3.6 exists 和 missing

exists 用于查找字段含有一个或多个值的document，而missing用于查找某字段不存在值的document，可类比关系数据库里的 is not null (exists) 和 is null (missing).

{
    "exists":   {
        "field":    "title"
    }
}

1.3.7 bool

前面讲的都是些最原子的查询子句，那么，怎么实现复合查询呢？Elasticsearch 使用bool 子句来将各种子查询关联起来，组成布尔表达式，bool 子句可以随意组合、嵌套。

bool子句主要包括：

must：表示必须匹配。
must_not：表示一定不能匹配。
should：表示可以匹配，类似于布尔运算里的”或”。如果bool 子句里，没有must子句，那么，should子句里至少匹配一个，如果有must子句，那么，should子句至少匹配零个。可以使用minimum_should_match 来对最小匹配数进行设置。

{
    "bool" : {
        "must" : {
            "term" : { "user" : "kimchy" }
        },
        "must_not" : {
            "range" : {
                "age" : { "from" : 10, "to" : 20 }
            }
        },
        "should" : [
            {
                "term" : { "tag" : "wow" }
            },
            {
                "term" : { "tag" : "elasticsearch" }
            }
        ],
        "minimum_should_match" : 1,
        "boost" : 1.0
    }
}

1.4 聚合功能

前面说的都是 Elasticsearch 当做搜索引擎使用，Elasticsearch 还可以作为分析引擎使用。

和 MySQL 等关系数据库类似，Elasticsearch 有聚合操作，而且，可作用于大量数据，提供实时的分析结果，速度快；同时，聚合操作可以与搜索结合使用，例如将聚合作用于搜索结果等。总之，Elasticsearch的聚合功能十分强大，有很多公司利用 Elasticsearch 来做分析，其中，广泛使用的 ELK(Elasticsearch + Logstash + Kibana)，Kibana的数据显示和分析功能就是基于 Elasticsearch 的聚合功能做的。

具体可参看 Elasticsearch: The Definitive Guide

1.5 Geolocation

Elasticsearch 还提供了基于地理位置的搜索，而且能将地理位置与全文检索、结构化搜索、分析等结合起来使用，比如查找距离某点一定范围内的符合搜索条件的地点、计算两点的距离、判断两个形状是否相交或包含等。

具体参考 Elasticsearch: The Definitive Guide

2. Elasticsearch 使用时注意的几个问题

深度分页问题：Elasticsearch 作为一个分布式搜索与分析引擎，深度分页问题会带来严重的问题，给CPU、内存、IO、网络带来巨大压力，所以，在Elasticsearch 不建议使用深度分页，如果要遍历数据，可以采用 SCROLL的方式，可参考我另一篇博客。

排序问题：根据某field排序时，Elasticsearch 会将这个 field 的所有值给加载到内存，然后，这部分数据会常驻内存，如果数据量大或排序字段多，就会给系统带来巨大压力，所以，在使用 field 进行排序时，要慎重。不过，在Elasticsearch 2.X版本，开始使用 doc value 来优化这部分。

terms 问题： terms 里可以传多个值，但是，量不能太多，搜索引擎的基本数据结构是倒排索引，terms 里传多个值，原理上来说是查很多的倒排索引，量大了也会给系统带来很大压力。

安装ElasticSearch（Linux Centos）

下载、解压安装包

下载
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.4.0.tar.gz
如下载完整可以忽略完整性校验，即不用下载下面的sha512文件
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.4.0.tar.gz.sha512
如下载完整可以忽略完整性校验，即不需要执行文件下载完整性校验
shasum -a 512 -c elasticsearch-6.4.0.tar.gz.sha512 
解压
tar -xzf elasticsearch-6.4.0.tar.gz

运行安装包

./bin/elasticsearch
后台不挂断运行，并输出日志到elasticsearch.out
nohup ./bin/elasticsearch >elasticsearch.out &

解决启动问题

此时会有出错提示

uncaught exception in thread [main] **** can not run elasticsearch as root

意思即不能使用root用户运行elasticsearch

添加用户 xxx为你要添加的用户名
useradd xxx
给xxx用户设置密码
passwd xxx
输入密码
再次输入密码
给xxx用户权限，/ELK/elasticsearch-6.4.0是elasticsearch解压根目录
chown -R xxx /ELK/elasticsearch-6.4.0
切换用户为xxx
su xxx

再执行
./bin/elasticsearch
或者后台执行
nohup ./bin/elasticsearch >elasticsearch.out &
即可成功

解决启动时max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]问题

#切换到root用户修改
vim /etc/security/limits.conf
 
# 在最后面追加下面内容
xxx hard nofile 65536
xxx soft nofile 65536
xxx  是启动ElasticSearch的用户

重新启动不再有上述错误提示，搞定OK

检查是否安装成功

tail elasticsearch.out

查看log是否成功启动

curl http://localhost:9200

访问本地9200地址看是否可以成功访问

如果输出下图，则表示成功

{
  "name" : "F6mmx8s",
  "cluster_name" : "elasticsearch",
  "cluster_uuid" : "j5O0hDX9QlyAryj95cvoFQ",
  "version" : {
    "number" : "6.4.0",
    "build_flavor" : "default",
    "build_type" : "tar",
    "build_hash" : "595516e",
    "build_date" : "2018-08-17T23:18:47.308994Z",
    "build_snapshot" : false,
    "lucene_version" : "7.4.0",
    "minimum_wire_compatibility_version" : "5.6.0",
    "minimum_index_compatibility_version" : "5.0.0"
  },
  "tagline" : "You Know, for Search"
}

允许外部9200访问

可以访问127.0.0.1:9200，但不能访问 公网IP:9200
后面ip就是127.0.0.1的局域网ip，如何解决？

修改配置文件 config/elasticsearch.yml

network.host: 0.0.0.0

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生