Gobblin 是 Hadoop 通用数据摄取框架,可以从各种数据源中提取,转换和加载海量数据。比如:数据库,rest APIs,filers,等等。Gobblin 处理日常规划任务需要所有数据...<
华为2015年7月20日在OReilly Open Source Convention (OSCON) 上宣布Spark SQL on HBase package正式开源。Spark SQL ...<
WDT 是一个嵌入式函数库( embeddedable library),也是命令行工具,旨在尽可能快速地用多个 TCP 路径在 2个系统之间传送文件。WDT 意思是 Warp speed Da...<
Ibis 是一个新的 Python 数据分析框架,目标是让数据科学家和数据工程师们处理大型数据时,能够像处理小中型数据一样的高效。为了实现这个目标,我们将启用 Python 来作为 Apache...<
Tiger 数据统计服务,用于移动端的数据统计分析。 系统工作流程: PC端创建App,获得AppSecretKey; PC端创建统计Code; 移动端(iOS,Android)使用AppSec...<
Airflow 被 Airbnb 内部用来创建、监控和调整数据管道。任何工作流都可以在这个使用 Python 编写的平台上运行(目前加入 Apache 基金会孵化器)。 Airflow 允许工作...<
Inviso 是轻量级的工具,提供搜索 Hadoop 作业,可视化性能和查看集群利用率的功能。 组件 REST API for Job History ElasticSearch Python ...<
hive-dwrf 是作为 Apache Hive 项目一部分的 ORC 文件格式的分支。<
hblog 是一个日志集群分析器。支持的体制格式有:Syslog、 Log4j、Java GC log。 具有以下功能: Remote access to logs via a single C...<
Pulsar 是 eBay 开源的实时大数据分析平台。 作为全球性的商务平台和支付行业领先者,拥有海量的用户行为数据。基于现有的hadoop大数据处理,已经不能够满足业务上对实时性的需求。基于过...<