搞懂elasticsearch的geo定位，别再被经纬度坑惨了-HKEA.CN

做搜索这块儿，尤其是带地图功能的，真没几个人是真正懂行的。大部分时候，大家也就是调调API，跑通流程就完事儿。我在这行摸爬滚打12年了，见过太多项目因为一个小小的geo查询优化不到位，最后服务器崩盘，或者用户体验极差。今天不整那些虚头巴脑的理论，就聊聊实战里那些让人头秃的坑。

先说个真事儿。去年有个做同城生活服务的客户，找我们救火。他们的核心功能是“附近的人”和“附近商家”。上线第一周，并发稍微高点，ES集群直接CPU飙到90%以上。查日志一看，好家伙，每次查询都全表扫描，而且没加任何空间索引优化。那时候我就知道，这帮人根本不懂elasticsearch的geo底层逻辑。

很多人以为，把经纬度存进去，搜一下就行。太天真了。elasticsearch的geo_point类型，底层其实是用一种叫Geohash或者Double-Tree的东西来存储的。如果你只是简单地把坐标扔进去，不做任何预处理，那查询效率简直感人。特别是当你的数据量达到千万级的时候，那种慢，真的能让你怀疑人生。

我有个朋友，之前在一个电商项目里，搞“附近门店”搜索。他一开始用了最笨的方法，每次请求都去数据库里算距离，然后再去ES里查。结果可想而知，延迟高达2秒以上。后来我们给他改了方案，利用elasticsearch的geo_distance查询，并且配合Filter上下文，把结果集先过滤掉超出范围的数据，再排序。这一套组合拳下来，响应时间直接降到了200毫秒以内。这差距，用户是感觉不到的，但老板看监控报表的时候，脸都绿了。

这里有个细节，很多人容易忽略。就是坐标的精度问题。如果你只需要精确到街道级别，没必要存小数点后6位甚至更多。不仅浪费存储空间，还会影响查询性能。一般来说，保留小数点后5位，精度大概在10米左右，对于大多数LBS应用来说，完全够用了。除非你是做高精地图或者导航，那另当别论。

还有啊，别迷信“最新”的技术。有时候，最朴素的优化手段，效果最好。比如，给geo字段加个doc_values，开启压缩。别小看这个开启压缩，在数据量大的时候，能省下不少内存。我见过一个案例，通过调整indexing buffer的大小，把查询吞吐量提升了30%。这可不是什么黑科技，就是基础的参数调优。

再说说排序。很多人喜欢用geo_distance排序，觉得这样最准确。但在大数据量下，这种排序是非常耗资源的。如果你的业务场景允许，比如只是展示“附近10公里内的商家”，而不需要严格按距离排序，那不如用geo_bounding_box先圈定一个范围，再在范围内做简单的过滤。这样能大幅减少计算量。

还有一点，别忽视冷数据。很多项目上线初期数据量小，跑得飞快。但随着时间推移，数据量指数级增长，查询性能直线下降。这时候，你得考虑分片策略。别把所有数据都塞在一个分片里。合理的分片数量，能显著提升并发能力。当然，分片也不是越多越好，一般建议单个分片大小在10GB到50GB之间。

最后，想说句掏心窝子的话。技术这东西，没有银弹。elasticsearch的geo功能虽然强大，但用不好就是灾难。你得真正理解它的底层原理，知道数据是怎么存储的，查询是怎么执行的。别光看文档，多去测，多去压。只有亲自踩过坑，你才能写出真正高质量、能扛事儿的代码。

总之，搞懂elasticsearch的geo定位，不仅仅是为了跑通功能，更是为了在海量数据下，依然能保持丝滑的体验。这中间的门道，只有自己真正去做了，才能体会得到。希望这点经验，能帮到正在踩坑的你。毕竟，谁还没个头疼的时候呢？对吧。

资讯详情

搞懂elasticsearch的geo定位，别再被经纬度坑惨了

相关新闻

踩坑无数后，我终于搞懂了 elasticsearch geo 搜索 的底层逻辑

搞不定echart地图geo鼠标点击事件？老鸟教你几招避坑指南

echarts中的geo组件使用避坑指南：老鸟带你搞定地图可视化

最新新闻

日新闻

周新闻

月新闻

踩坑无数后，我终于搞懂了 elasticsearch geo 搜索的底层逻辑