Linux 安装 Elasticsearch


ElasticSearch

Elasticsearch 是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。Elasticsearch用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。官方客户端在Java、.NET(C#)、PHP、Python、Apache Groovy、Ruby和许多其他语言中都是可用的。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr,也是基于Lucene。

官方网址:https://www.elastic.co/cn/products/elasticsearch

Github:https://github.com/elastic/elasticsearch

总结:

  • Elasticsearch 是一个基于 Lucene 的高扩展的分布式搜索服务器,支持开箱即用。
  • Elasticsearch 隐藏了 Lucene 的复杂性,对外提供Restful 接口来操作索引、搜索。

优点:

  • 扩展性好,可部署上百台服务器集群,处理PB级数据。
  • 近实时的去索引数据、搜索数据。

原理

下图是 Elasticsearch 的索引结构,下边黑色部分是物理结构,上边黄色部分是逻辑结构,逻辑结构也是为了更好的去描述 Elasticsearch 的工作原理及去使用物理结构中的索引文件。

1

逻辑结构部分是一个倒排索引表:

  • 将要搜索的文档内容分词,所有不重复的词组成分词列表。
  • 将搜索的文档最终以Document方式存储起来。
  • 每个词和docment都有关联。

所谓倒排索引表是正排索引表的相反操作,在正排索引表当中,索引查找的顺序在先找 document 文档,然后再从 document 文档中查找对应的 term 词;而倒排索引表刚好相反,索引先找 term 词,再根据 term 找对应的 document。因此倒排索引表需要专门保存 term 和 document 之间的对应关系的。

假如 index 索引中有如下的数据:

Term      Doc_1  Doc_2
-------------------------
Quick   |       |  X
The     |   X   |
brown   |   X   |  X
dog     |   X   |
dogs    |       |  X
fox     |   X   |
foxes   |       |  X
in      |       |  X
jumped  |   X   |
lazy    |   X   |  X
leap    |       |  X
over    |   X   |  X
quick   |   X   |
summer  |       |  X
the     |   X   |
------------------------

当需要搜索 quick brown 的时候,只需要查找到包含这两个单词的文档:

Term      Doc_1  Doc_2
-------------------------
brown   |   X   |  X
quick   |   X   |
------------------------
Total   |   2   |  1

两个文档都匹配,但是第一个文档比第二个匹配度更高。如果我们使用仅计算匹配词条数量的简单相似性算法, 那么,我们可以说,对于我们查询的相关性来讲,第一个文档比第二个文档更佳。

安装

ElasticSearch 官方的安装教程:教程

这里记录 Linux 环境下的安装过程。Linux 发行版本为:Ubuntu-server 18.04

下载并安装公共签名密钥:

wget -qO - https://artifacts.elastic.co/GPG-KEY-elasticsearch | sudo apt-key add -

安装 apt-transport-https 软件包

sudo apt-get install apt-transport-https

保存存储库定义

echo "deb https://artifacts.elastic.co/packages/7.x/apt stable main" | sudo tee -a /etc/apt/sources.list.d/elastic-7.x.list

安装 Elasticsearch

sudo apt-get update && sudo apt-get install elasticsearch

配置

Elasticsearch 启动时加载的配置文件位于:/etc/elasticsearch,该目录需要使用 root 用户进入。

Elasticsearch 总共有三个重要的配置文件:

  • elasticsearch.yml:Elasticsearch 配置文件
  • jvm.options: Elasticsearch JVM 配置
  • log4j2.properties:Elasticsearch logging 配置

elasticsearch.yml

配置格式是 YAML,可以采用如下两种方式:

方式1:层次方式

path:
    data: /var/lib/elasticsearch
    logs: /var/log/elasticsearch

方式2:属性方式

path.data: /var/lib/elasticsearch
path.logs: /var/log/elasticsearch

常用的配置项如下:

  • cluster.name:配置elasticsearch的集群名称,默认是elasticsearch。建议修改成一个有意义的名称。
  • node.name:节点名,通常一台物理服务器就是一个节点,es 会默认随机指定一个名字,建议指定一个有意义的名称,方便管理。一个或多个节点组成一个cluster集群,集群是一个逻辑的概念,节点是物理概念。
  • path.conf:设置配置文件的存储路径,tar或zip包安装默认在es根目录下的config文件夹,rpm安装默认在/etc/elasticsearch
  • path.data:设置索引数据的存储路径,默认是es根目录下的data文件夹,可以设置多个存储路径, 用逗号隔开。
  • path.logs: 设置日志文件的存储路径,默认是es根目录下的logs文件夹
  • path.plugins: 设置插件的存放路径,默认是es根目录下的plugins文件夹
  • bootstrap.memory_lock:true 设置为true可以锁住ES使用的内存,避免内存与swap分区交换数据。
  • network.host:设置绑定主机的ip地址,设置为0.0.0.0表示绑定任何ip,允许外网访问,生产环境建议设置为具体的ip。
  • http.port:9200 设置对外服务的http端口,默认为9200。
  • transport.tcp.port:9300 集群结点之间通信端口
  • node.master:指定该节点是否有资格被选举成为master结点,默认是true,如果原来的master宕机会重新选举新的master。
  • node.data:指定该节点是否存储索引数据,默认为true。
  • discovery.zen.ping.unicast.hosts:[“host1:port”, “host2:port”, “…”] 设置集群中master节点的初始列表。
  • discovery.zen.ping.timeout:3s 设置 ES 自动发现节点连接超时的时间,默认为3秒,如果网络延迟高可设置大些。
  • discovery.zen.minimum_master_nodes:主结点数量的最少值 ,此值的公式为:(master_eligible_nodes / 2) + 1 ,比如:有3个符合要求的主结点,那么这里要设置为2。
  • node.max_local_storage_nodes:单机允许的最大存储结点数,通常单机启动一个结点建议设置为1,开发环境如果单机启动多个节点可设置大于1.

下面贴上我自己的配置:

path.data: /var/lib/elasticsearch
path.logs: /var/log/elasticsearch
cluster.name: xedu
node.name: xedu_node_1
network.host: 0.0.0.0
http.port: 9200
transport.tcp.port: 9300
node.master: true
cluster.initial_master_nodes: xedu_node_1
node.data: true
discovery.zen.ping.unicast.hosts: ["0.0.0.0:9300", "0.0.0.0:9301"]
discovery.zen.minimum_master_nodes: 1
node.ingest: true
bootstrap.memory_lock: false
node.max_local_storage_nodes: 2
http.cors.enabled: true
http.cors.allow-origin: "*"

jvm.options

设置最小及最大的JVM堆内存大小:

在jvm.options中设置 -Xms和-Xmx:

  • 两个值设置为相等
  • 将 Xmx 设置为不超过物理内存的一半。

log4j2.properties

日志文件设置,ES 使用log4j,注意日志级别的配置。

在 linux 上根据系统资源情况,可将每个进程最多允许打开的文件数设置大些。

查询当前文件数

ulimit -n

使用 root 用户执行如下命令设置 limit:

sudo su 
ulimit -n 65536

也可通过下边的方式修改文件进行持久设置

sudo vi /etc/security/limits.conf

# 将下边的行加入此文件:
elasticsearch - nofile 65536

启动

配置 Elasticsearch 为在系统启动时自动启动:

sudo /bin/systemctl daemon-reload
sudo /bin/systemctl enable elasticsearch.service

Elasticsearch 可以按以下方式启动和停止:

sudo systemctl start elasticsearch.service
sudo systemctl stop elasticsearch.service

启动成功之后打开浏览器来访问 http://localhost:9200/ 来查看 Elasticsearch 是否安装成功:

2

插件

head插件

head 插件是 ES 的一个可视化管理插件,用来监视 ES 的状态,并通过 head 客户端和 ES 服务进行交互,比如创建映射、创建索引等,head的项目地址在https://github.com/mobz/elasticsearch-head

从ES6.0开始,head 插件支持使用 node.js 运行

git clone git://github.com/mobz/elasticsearch-head.git
cd elasticsearch-head
npm install
npm run start

然后打开 http://localhost:9100/ 来查看是否安装成功。

3

这里得连接到对应的 Elasticsearch url 上才可以对 ES 的状态进行监控。

注意这里由于连接的服务运行在 9100 端口,因此去连接 9200 端口的 Elasticsearch 会出现跨域问题,得在配置文件中添加:

http.cors.enabled: true
http.cors.allow-origin: "*"

中文分词插件

使用IK分词器可以实现对中文分词的效果。

IK分词器:(Github地址:https://github.com/medcl/elasticsearch-analysis-ik

下载安装(注意这里的版本要和你安装的 Elasticsearch 版本一致:

sudo /usr/share/elasticsearch/bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.6.2/elasticsearch-analysis-ik-7.6.2.zip