MRQL (发音 miracle) 是一个查询处理和优化系统,适用于大规模分布式的数据分析。MRQL (MapReduce Query Language) 是一个在计算机集群中对大规模数据的类 ...<
Cloud Haskell是一个Haskell的分布式应用程序框架。基本上,它是一个用于编写集群应用程序的工具。它提供高度可靠性,冗余,高可用性,并且可用于构建计算密集型应用。<
a) 基础功能 cobweb的基本功能,是在一台Server上分发任务,在其它多台服务器上部署Client程序,并执行相应的任务。 任务函数代码编辑后在Server上发布,会自动分发到各台Cli...<
Apache Sentry 是一个加强的细粒度的基于角色的授权系统,针对存储在 Hadoop 集群中的数据和元数据。<
Samza是近日由LinkedIn开源的一项技术,它是一个分布式流处理框架,专用于实时数据的处理,非常像Twitter的流处理系统Storm。不同的是Samza基于Hadoop,而且使用了Lin...<
twitter 开源了summingbird ,一个流计算和批处理模式的融合体,用户编写的逻辑既可以运行在 Storm 上,也可以跑在#Hadoop#上,将来还计划支持Spark。听说是#sto...<
BlinkDB 是一个用于在海量数据上运行交互式 SQL 查询的大规模并行查询引擎。它允许用户通过权衡数据精度来提升查询响应时间,其数据的精度被控制在允许的误差范围内。 为了达到这个目标,Bli...<
mrjob 可以让用 Python 2.5+ 来编写 MapReduce 作业,并在多个不同平台上运行,你可以: 使用纯 Python 编写多步的 MapReduce 作业 在本机上进行测试 在...<
Apache Crunch(孵化器项目)是基于Google的FlumeJava库编写的Java库,用于创建MapReduce流水线。与其他用来创建MapReduce作业的高层工具(如Apache...<
Collage 是一个跨平台的 C++库用于构建异构和分布式的应用。这是 Equalizer 并行渲染框架的集群后端。主要特点:提供不同网络连接、点对点消息传递、节点发现、同步和高性能、面向对象...<