WhereHows 是 LinkedIn 公司一个用于大数据发现和管理的工具,集成了所有主要的数据处理系统,可以进行分类收集和元数据操作。方便内部员工发现公司内部的数据,跟踪数据集的移动和查看各...<
Apache Apex 是一个企业级的统一流和批处理引擎。提供高度可伸缩、高性能、容错、有状态、安全和分布式的大数据处理,同时操作起来非常简单容易。<
mllib、scikit 等数据挖掘工具的教程。 随着大数据技术的普及,对数据挖掘的需求在不断上升,本项目为一些常用的数据挖掘工具提供中文文档,并提供一部分数据挖掘算法的教程,仍在不断更新中。 ...<
一套开源的服务器集群分布式大数据高并发的快速开发框架,使用mongodb内存数据库,二级缓存技术。 .net版下载 https://git.oschina.net/bigcore/bigcore...<
Terrapin 是 Hadoop 数据服务工具,为批量生成的数据集服务。Terrapin 是低延迟服务系统,提供通过 Hadoop 作业生成,存储在 HDFS 集群的大型数据集随机访问功能。 ...<
Apache Eagle 是 eBay 公司推出的分布式实时安全监控引方案,该项目已正式加入 Apache 成为孵化项目。Apache Eagle 提供一套高效分布式的流式策略引擎,具有高实时、...<
Apache MADlib 是为数据科学提供的 SQL 大数据机器学习工具。Apache MADlib 拥有强大的大数据分析能力。Apache MADlib 支持 Postgres, Pivot...<
StreamCQL作为华为FusionInsight产品的重要组件,提供了在分布式流处理平台上的类SQL查询能力,包括窗口计算等高级特性,在开源之前已经在电信、金融等多个行业成功应用,简化开发工...<
Hyracks 是 Apache AsterixDB 的底层数据流运行平台,是并行运行时查询执行引擎。<
Apache AsterixDB 是开源的大数据管理系统 (BDMS),可以在一个集群中大规模存储,索引,管理和查询语义结构的数据。Hyracks 是 AsterixDB 的底层数据流运行平台。...<