RayBrid 的主要核心是结合Apache - Spark 和 Pivotal Gemfire,采用 HTAP(Hybrid Transactional Analytical Processing)架构. 其最大特点是引进内存计算数据网格(In Memory Data Grid)技术, 支持混合业务数据 OLTP/OLAP和流数据的处理, 实现“数据即服务”的理念, 是国外企业采用的新崛起 IT架构。
1、支持行表和列表
对快写、快速键/类似NoSQL查找式索引、使用矢量化执行分析查询及代码生成技术进行了优化
2. 相关性数据处理
基于星型模型的优化,规模小且稳定的数据表以全复制的方式存在于整个集群的每个节点上。规模大的数据表以分区块的方式,依照数据的关联关系分块的相邻存储,可极大的减少数据交叉交换
3. 分布式事务
在分布式表中实现了分布式事务(ACID)
4. 提供企业级的数据安全和备份
数据也可以在磁盘上管理并自动恢复,缺省内置了备份和恢复实用程序
5. 弹性集群
数据服务器在真正的p2p集群中相互联接,以确保集群在发生故障时达成共识, 集群在运行时具备弹性伸缩能力
6. 非共享本地持久化
一方面集群中的数据表可以依赖冗余副本的策略仅仅使用内存的方式运行,另一方面这些数据表也可以将数据持久化到本地磁盘中,磁盘技术使用增量追加的方式可避免磁盘寻道的延迟。
7. 丰富的数据结构
不仅限于SQL支持,也同时支持JSON,Java/Scala对象,嵌套或自定义数据
8. Spark 兼容性
Raybrid的核心组件与Spark的完全兼容,这意味着您的Spark程序将在RayBrid中保持不变。
9. Spark 生态环境
以Spark Dataframes的形式访问所有表格,当与Spark协同作业时,所有的表都可以按照Spark DataFrames方式访问。
RayBrid 提供完善的安全认证,角色授权机制和日志管理,易于突发事件的追踪和分析。功能强大的Web 图形界面管理工具,方便系统管理员对数据网格配置,网格集群管理,热部署, 系统资源使用状态,数据导出导入管理, 和安全体系的参数配置等操作