企业级分布式搜索引擎Transwarp Scope助力企业打造自主可控高性能搜索平台 随着数字化转型持续推进以及国产化进程不断加速国产搜索引擎数据库的重要性也在不断提升。目前搜索引擎领域呈现出数据体量规模增加、时效性要求变高、检索场景多样化、国产化替代需求加剧等新趋势。Transwarp Scope是星环科技自主研发的企业级分布式搜索引擎提供PB级海量数据的交互式多维检索分析服务支持百万级高并发和毫秒级低延时检索业务覆盖模糊匹配精确查询多维检索等各类检索类场景满足数据检索多样化需求。星环科技分布式搜索引擎Transwarp Scope 通过存储深度优化和分布式架构升级可实现单实例100TB数据的稳定存储和100节点的稳定运行读写分离的特性进一步提升高并发检索的稳定性。此外新版本还提供了更友好的Elastisearch兼容度支持消除国产化替换痛点并提供低成本平滑迁移的解决方案和跨集群灾备的容灾方案助力企业构建稳定可靠、安全易用的自主可控搜索平台。存储深度优化单实例突破至100TB稳定存储Transwarp Scope2.5通过冷热数据分层、自动合并、堆外内存等技术对存储进行了深度优化提升单机容量充分利用机器硬件资源的同时提升节点的稳定性。冷热数据分层Scope2.5提供数据标签机制支持对节点/磁盘/以及索引数据进行标签化处理。对于分区表或者使用频率不同的表可以通过标签的机制加以区分和存储实现热数据热存储冷数据冷存储。同时标签可以灵活更改实现数据冷热切换。索引自动合并搜索引擎往往通过牺牲存储或者生成大量索引数据的方式提升检索性能因此存储开销比传统数据库或者HDFS这一类文件系统存储更大。Scope2.5提供了索引的Automerge机制对琐碎的索引文件进行自动合并进一步对原始的数据文件进行存储结构上的压缩和优化有效地降低数据的膨胀系数。堆外内存Scope 2.5将原本在堆内存储的一些索引的持久化内容放于堆外有效地提升了产品的单机容量同时大幅降低了堆内资源的开销留出更多的资源满足海量、高并发的读写需求。通过在存储上的深度优化Scope单实例数据存储可突破至100TB是Elasticsearch的5倍以上大大降低用户硬件成本和运维成本。索引数据的磁盘开销同比降低13%满足更高并发需求的同时提高集群的稳定性。架构升级支持100节点大规模集群数据强一致保障Transwarp Scope2.5分布式架构支持集群和服务在线水平扩张扩容时不会影响当前的集群业务利用容器化技术实现了资源的调度和隔离。同时充分利用集群CPU/内存资源满足更高的并发需求在100以上节点规模下稳定运行同时保障性能无衰减。区别于Elasticsearch主副本之间同步采用P2P架构和排队模型实现主从 终一致性的模式Scope2.5采用Raft一致性协议保证副本之间的数据一致性。相对于传统的流言传播模式Goosip数据的同步、写入成功等请求在多数派节点写入后才给出返回结果即便节点出现失联现象数据依旧可以被检索不会出现数据丢失和不一致的问题。而管理节点同样采用了这一模式可以有效地规避集群的脑裂进一步提升大规模集群的稳定性。读写分离高并发查询稳定性大幅提升在传统日志分析场景中大部分日志检索还处于T1阶段对时效性要求不高。随着流处理快速发展和应用数据的实时采集、实时检索需求越来越普及。对于流处理业务的高效支撑以及如何兼顾写入和查询的性能成为了搜索型数据库的发展趋势。Transwarp Scope2.5实现了全新的写入方式与读写分离创新的提出类bulkload的写入模式来降低读写混合场景对系统的压力。在bulkload里数据写入被拆分成两个步骤高CPU、大内存开销的数据生成阶段和开销相对较小的数据加载阶段。Scope可以基于bulkload将这两个阶段分别放置于不同节点/集群上执行实现读写分离可以有效地降低集群的写入压力提供更多的资源用于满足检索需求。通过对读写线程资源的精细化管理使得读写性能更优数据批量写入速度相对Elasticsearch提升40%读写分离的特性大幅提升查询的稳定性。在实时场景中星环自研的实时计算引擎Slipstream同样可以同步bulkload的方式实现微批式的数据写入有效地降低集群开销。跨集群灾备的容灾自动故障迁移和数据修复Transwarp Scope2.5具有很强的容灾和数据恢复能力。Scope基于Raft协议保证数据的一致性同时提供多副本支持重启恢复时间在TB级数据量下控制在分钟级不到Elasticsearch的1/10大幅降低了服务不可用时间。此外Scope支持跨数据中心的多活部署使得重要业务在多数据中心交互和流转还支持主备集群的实时数据同步满足主备集群的failover和switchover。Scope除去上述的灾备和容灾机制外在2.5版本中支持了基于wal的跨集群灾备同步逻辑可以近实时的将主集群的数据写入等操作在备份集群进行回放从而实现数据的灾备和同步。该种同步逻辑可以有效的解决全量或者基于条件的增量备份所带来的局限性更适用于需要灵活操作的数据灾备场景。全方位安全保障保障集群数据安全开源Elasticsearch的协议变更和自身较弱的安全能力以及国外对安全产品、漏洞的出口限制给企业用户的安全生产带来巨大的安全风险。Transwarp Scope2.5内置配套的安全授权、用户权限控制等相关安全功能可以有效保障系统数据和访问上的安全。在用户认证上基于SASL提供plain与gssapi两种认证方式对应传统的用户名密码认证方式和基于Kerberos的登录验证方式同时提供用户组概念便于通过平台实现统一管理与操作。在数据传输上Scope支持基于SSL/TLS两类协议进行数据加密确保数据传输过程的安全。在数据权限上基于角色的访问控制(RBAC)机制使用户能够通过将权限分配给角色并将角色分配给用户或组来授权用户支持更细粒度的表/索引级别的权限控制。完备的数据流转多模型数据联合分析Transwarp Scope2.5支持对接Elasticsearch相关生态不仅仅是接口和访问方式还包括插件、配套的生态组件、以及logstash/beats等组件。此外Scope兼容PostgreSQL协议以及Spark等大数据产品的接入通过星环科技SQL编辑器Quark提供完备的SQL语法支持以及检索语义的SQL扩展。基于星环科技大数据基础平台TDH的多模型统⼀技术实现关系型数据、图数据、时序数据、向量数据等11种模型数据统一存储管理用户只需一句SQL就可以将多种模型数据直接关联分析大幅降低了开发的复杂度避免了复杂的数据流转提升了分析效率。低成本实现Elasticsearch国产化替代和升级Transwarp Scope聚焦于Elasticsearch检索场景平替高度兼容Elasticsearch接口可实现Elasticsearch业务的平滑迁移如日志检索、全文检索以及数据智能等场景并在产品稳定性、扩展性、高性能、高可用、成本等方面具有明显的优势。例如某运营商有基于Hbase的主键精确查询和基于Elasticsearch的全景查询2套业务。在全景查询场景中客户采用实时和离线2套集群数据流转复杂并且随着数据量的高速增长系统稳定性经常出现问题。当集群出现问题时Elasticsearch重启需要小时级别集群恢复速度慢。在性能问题方面读写资源无法隔离拖累查询性能。因此该用户利用星环科技​​​​​​​分布式搜索引擎Transwarp Scope替换掉了Elasticsearch实现了实时和离线业务的统一通过bulkload和实时流计算引擎Slipstream实现了数据的统一存储和查询。入库方面过去15TB的日增离线数据可以快速加载到Scope当中省去了两套Elasticsearch集群的快照同步步骤入库性能提升4倍。过去T1模式入库逻辑直接通过微批的方式实现了分钟级延迟集群的重启时间从6-10小时压缩到了分钟级大幅度降低了业务中断时间。集群规模上将过去两套Elasticsearch集群整合成统一的大集群并且保障100节点稳定运行系统架构更加简单运维成本更低。此外Transwarp Scope已完成与主流信创生态厂商的适配互认工作支持适配长城飞腾、华为泰山、龙芯等服务器架构以及麒麟UOS等操作系统在传统搜索业务的功能外同时提供多租户、联邦检索等多样化功能充分满足国产化替换需求。混合部署的特性支持不同芯片架构、操作系统在同一集群中部署和使用 大化利用硬件资源让用户实现国产化平滑替代。