Elasticsearch基础概念之文档

什么是Elasticsearch文档

Elasticsearch是面向文档，文档是Elasticsearch中最小的操作(搜索、读取、删除，更新、增加)的单位。

什么是文档，一条日志、一部电影、一首歌的基本信息都可以抽象为一个文档，比如我们将一部电影抽象为下面的文档，存储在Elasticsearch中：

示例:

{
    "movie_name":"肖申克的救赎",//名称
    "movie_type":["剧情","犯罪"],//类型
    "move_length":"142",//时长
    "director":"弗兰克·达拉邦特",//导演
    "language":"英语"//语言
}

特性

在Elasticsearch中，文档会被序列化成JSON格式进行保存。
JSON对象只能包含六种字段类型，分别为字符串，数值，布尔，日期，二进制，范围类型。

Elasticsearch以JSON格式存储文档，这一点与mongodb类似，另外，我们也可以把Elasticsearch的文档类比为数据库数据表中的一行。

文档的id

每个文档都有一个唯一的id，有两种生成方式：

在创建文档的时候指定文档id
不指定，在创建文档时由Elasticsearch自动生成。

文档的元数据

一条文档信息，除了我们自己添字段外，Elasticsearch也会添加一些字段，作为文档的元数据，主要是以下几个字段：

字段名	说明
_index	索引名
_type	文档所属的类型名
_id	文档的唯一id
_source	文档的原始JSON数据
_all	整合所有字段内容到该字段，已废除
_version	文档的版本信息
_source	相关性打分

文档的CURD

Elasticsearch提供非常方便的Restful Api，可以非常方便对文档进行CURD等操作，而在Kibana中的Dev Tools也提供了执行Restful Api的环境，非常方便，下面的演示语句就是基于Dev Tools的。

Create

在Elasticsearch中创建文档有两种方式：

使用HTTP POST方法，此时Elasticsearch会自动帮生成一个文档的id。
使用HTTP PUT方法可以指定文档的id，使用这种方式，需要在URL中显示指定_create参数。

自动生成id

POST /movies/_doc
{
    "movie_name":"霸王别姬",
    "movie_type":["剧情","爱情"],
    "move_length":"171",
    "director":"陈凯歌",
    "language":"汉语普通话"
}

运行结果如下：

指定文档id

PUT /movies/_create/1
{
    "movie_name":"肖申克的救赎",
    "movie_type":["剧情","犯罪"],
    "move_length":"142",
    "director":"弗兰克·达拉邦特",
    "language":"英语"
}

运行结果：

使用这种方式创建文档，如果id已经存在了，创建的时候就会报错，比如我们再重复执行上面的语句，由于id为1的文档已经存在，会报以下的错：

Index

在Elasticsearch中，索引大概有以下三种含义与作用：

动词，Elasticsearch中一种创建文档的方式，就是现在讲到的。

名词，Elasticsearch组织文档的方式，下面会讲到。

动词，对文档的字段进行分词并存储，以后会讲到

# 使用Index的方式
PUT /movies/_doc/1
{
    "movies_type":["越狱","剧情","犯罪"]
}

使用 Index的方式与Create一样，都可以用于创建一个Elasticsearch文档，不同的是，使用Index创建文档时，如果指定的文档id已经存在，则会删除原文档，并重新创建一个文档，并且文档的字段_version会加1

上面语句的运行结果：

Get

Elasticsearch是搜索引擎，因此当我们使用搜索语句搜索时，可以找到满足搜索条件的文档，关于搜索的语句，我们以后有专门的文章谈谈。

另外，我们也可以通过文档的id，使用HTTP的GET方法直接读取文档内容，如果找到该文档，则HTTP的状态码200，找不到则为404，如下：

# 读取
GET /movies/_doc/1

运行结果为：

Update

更新一个文档的数据使用的是HTTP的POST方法，而且修改的字段信息还必须在doc中，如下：

使用Update的方式与Index区别在于，Update是直接更新文档的数据，而使用Index创建文档时，如果文档存在，则该文档会被删除，而使用新的数据重新索引一个文档。

# 更新
POST /movies/_doc/1
{
    "doc":{
        "movie_length":"150"
    }
}

Delete

删除一个文档比较简单，使用HTTP中DELETE方法，通过文档id可以删除一个Elaticsearch的文档，比如我们删除id为1的文档：

# 删除文档
DELETE /movies/_doc/1

批量操作

上面讲解的对文档的CURD，每一次请求，都只对文档进行一次操作，但我们知道，每次操作都是建立网络请求，因此每次只做一个操作，有点浪费，Elasticsearch提供了几种批量操作文档的API。

bulk

使用bulk，可以在一次请求中同时对不同索引的不同文档进行CURD操作，极大节约网络请求方面的开销。

POST _bulk
{"create":{"_index":"movies","_id":5}}
{"movie_name":"闻香识女人","movie_type":["剧情"],"movie_length":"157","director":"马丁·布莱斯特","language":"英语"}
{"index":{"_index":"music","_id":1}}
{"music_name":"世上只有妈妈好","music_length":"5分钟"}
{"delete":{"_index":"movies","_id":1}}
{"update":{"_index":"movies","_id":10}}
{"doc":{"movie_name":"阿甘正传","movie_length":"120"}}

上面的多个操作中，如果有某个操作报错，也不会影响其他的操作，并且每一个操作都有结果返回。

mget

Elasticsearch也提供了_mget命令，用于批量获取指定的文档，其格式如下：

GET _mget
{
    "docs":[
        {
            "_index":"movies",
            "_id":"1"
        },
        {
            "_index":"music",
            "_id":"1"
        }
    ]
}