用 Elastic Stack 拯救 Telegram 的中文搜索

Telegram 的中文搜索是出了名的难用,只要涉及到中文、或者中英文混杂,就原地暴毙:

就比如遇到这种想找黑历史的时候,搜索功能摆在这里却用不了,只能原地感叹一句要你何用。忍忍总也有个限度,当我第 n 次想找历史记录但是无论如何也找不到的时候,一拍脑袋:

思路很简单嘛,公司里用 ELK 搜日志,聊天记录的本质就是聊天的日志,那干脆就用 ELK 来自建一个聊天记录搜索给自己用就好了嘛。这样来看,待实现的需求就只有历史数据的获取和聊天记录实时写入了。

部署一套 Elastic Stack 并不麻烦,最省事儿的途径就是直接用 docker。我这边呢继续用家里的 ESXi,开了一台独立的 VM,感觉没必要用 docker 再套一层,就稍微麻烦一点,从源里面安装 elasticsearchkibana 就可以了,具体过程和配置都可以参照 Arch Wiki。

之后就是数据来源了。众所周知 Telegram 对二次开发是十分友好,所有人都可以直接用官方提供了 C++ 开发的 Telegram Database Library (TDLib) 来做一个具备完整功能的客户端。我这边具体要做的也就是获取一下会话列表,然后挑选其中几个把所有数据全都 POST 到 elastic 里就可以了。TDLib 提供了 JSON API,因此衍生出了各种语言的包装库,这里随便挑选一个顺手的,照着文档写也没什么难度。导入记录实际花销和代理质量以及水群多少有关系,我这边花了四五个小时吧。完成之后数据就可以在 Discover 中查找了:

当然利用 Kibana 提供的可视化功能,我们可以查看到很多很有趣的图表了,我随手创建了一些:

或者可以看看我关注的几个群/对话中消息在所有历史中的占比:

最后再回到开头的截图,咱们去 Elastic 里搜一下相同的关键字:

之后可以直接再去 Telegram 搜整句来定位上下文:

舒服了!

comments powered by Disqus
Except where otherwise noted, content on this blog is licensed under CC-BY 2.0.
Built with Hugo
主题 StackJimmy 设计