非规范化和并发 | Elasticsearch: 权威指南

非规范化和并发 | Elasticsearch: 权威指南 | Elastic

2026-06-22

请注意:
本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。

» » »

非规范化和并发编辑

当然，数据非规范化也有弊端。第一个缺点是索引会更大因为每个博客文章文档的 _source 将会更大，并且这里有很多的索引字段。这通常不是一个大问题。数据写到磁盘将会被高度压缩，而且磁盘已经很廉价了。Elasticsearch 可以愉快地应付这些额外的数据。

更重要的问题是，如果用户改变了他的名字，他所有的博客文章也需要更新了。幸运的是，用户不经常更改名称。即使他们做了，用户也不可能写超过几千篇博客文章，所以更新博客文章通过 scroll 和 bulk APIs 大概耗费不到一秒。

然而，让我们考虑一个更复杂的场景，其中的变化很常见，影响深远，而且非常重要，并发。

在这个例子中，我们将在 Elasticsearch 模拟一个文件系统的目录树，非常类似 Linux 文件系统：根目录是 / ，每个目录可以包含文件和子目录。

我们希望能够搜索到一个特定目录下的文件，等效于：

grep "some text" /clinton/projects/elasticsearch/*

这就要求我们索引文件所在目录的路径：

PUT /fs/file/1
{
  "name":     "README.txt", 
  "path":     "/clinton/projects/elasticsearch", 
  "contents": "Starting a new Elasticsearch project is easy..."
}

	文件名
	文件所在目录的全路径

事实上，我们也应当索引 directory 文档，如此我们可以在目录内列出所有的文件和子目录，但为了简洁，我们将忽略这个需求。

我们也希望能够搜索到一个特定目录下的目录树包含的的任何文件，相当于此：

grep -r "some text" /clinton

为了支持这一点，我们需要对路径层次结构进行索引：

/clinton
/clinton/projects
/clinton/projects/elasticsearch

这种层次结构能够通过 path 字段使用 path_hierarchy tokenizer 自动生成：

PUT /fs
{
  "settings": {
    "analysis": {
      "analyzer": {
        "paths": { 
          "tokenizer": "path_hierarchy"
        }
      }
    }
  }
}

自定义的 paths 分析器在默认设置中使用 path_hierarchy tokenizer。

file 类型的映射看起来如下所示：

PUT /fs/_mapping/file
{
  "properties": {
    "name": { 
      "type":  "string",
      "index": "not_analyzed"
    },
    "path": { 
      "type":  "string",
      "index": "not_analyzed",
      "fields": {
        "tree": { 
          "type":     "string",
          "analyzer": "paths"
        }
      }
    }
  }
}

	`name` 字段将包含确切名称。
	`path` 字段将包含确切的目录名称，而 `path.tree` 字段将包含路径层次结构。

一旦索引建立并且文件已被编入索引，我们可以执行一个搜索，在 /clinton/projects/elasticsearch 目录中包含 elasticsearch 的文件，如下所示：

GET /fs/file/_search
{
  "query": {
    "filtered": {
      "query": {
        "match": {
          "contents": "elasticsearch"
        }
      },
      "filter": {
        "term": { 
          "path": "/clinton/projects/elasticsearch"
        }
      }
    }
  }
}

仅在该目录中查找文件。

所有在 /clinton 下面的任何子目录存放的文件将在 path.tree 字段中包含 /clinton 词项。所以我们能够搜索 /clinton 的任何子目录中的所有文件，如下所示：

GET /fs/file/_search
{
  "query": {
    "filtered": {
      "query": {
        "match": {
          "contents": "elasticsearch"
        }
      },
      "filter": {
        "term": { 
          "path.tree": "/clinton"
        }
      }
    }
  }
}

重命名文件和目录编辑

到目前为止一切顺利。重命名一个文件很容易--所需要的只是一个简单的 update 或 index 请求。你甚至可以使用 optimistic concurrency control 确保你的变化不会与其他用户的变化发生冲突：

PUT /fs/file/1?version=2 
{
  "name":     "README.asciidoc",
  "path":     "/clinton/projects/elasticsearch",
  "contents": "Starting a new Elasticsearch project is easy..."
}

version 编号确保该更改仅应用于该索引中具有此相同的版本号的文档。

我们甚至可以重命名一个目录，但这意味着更新所有存在于该目录下路径层次结构中的所有文件。这可能快速或缓慢，取决于有多少文件需要更新。我们所需要做的就是使用 scroll 来检索所有的文件，以及 bulk API 来更新它们。这个过程不是原子的，但是所有的文件将会迅速转移到他们的新存放位置。

« 字段折叠解决并发问题 »

官方地址：https://www.elastic.co/guide/cn/elasticsearch/guide/current/denormalization-concurrency.html

有任何技术问题请点击这里网站运营推广招聘

IT PHP 编程语言开发编程 Linux 科技 Elasticsearch 数据库面试 HTML/CSS/XML 网络 JAVA NoSQL 操作系统 C/C++ Golang Git 算法正则表达式 Redis 互联网 MySql 软件运维 JavaScript 国际架构设计 Mac OS 商业 TCP/IP Excel Windows Oracle Socket VR Vim MongoDB 运营 Python MemCache 硬件电子娱乐设计摄影 nginx 游戏 WordPress HTTP 团建数码电器 Docker 大模型

Elasticsearch集群模式知多少携程Elasticsearch数据同步实践 Elasticsearch是做什么的以及它的使用和基本原理 elasticsearch动态映射 Elasticsearch简介与实战 elasticsearch配置如何配置使用Elasticsearch的动态映射 (dynamic mapping) elasticsearch最新版安装两节点Elasticsearch集群 Elasticsearch集群高亮搜索 elasticsearch集群部署文档 elasticsearch集群分布式特性 ElasticSearch 的聚合（Aggregations）【Elasticsearch集群】打分策略详解与explain手把手计算 elasticsearch 查询（match和term） ES查找空字符串 ElasticSearch自带的分词类型 Elasticsearch－基础介绍及索引原理分析 es 相关配置文件 ElasticSearch更新后延迟解决方法

略微加速

Elasticsearch权威指南 - 互联网笔记

非规范化和并发编辑

重命名文件和目录编辑

略微加速

Elasticsearch权威指南 - 互联网笔记

非规范化和并发编辑

重命名文件和目录编辑

Getting Started Videos