返回 登录
3

Scio:Apache Beam和Google Cloud Dataflow的Scala API

阅读1033

原文:SCiO
作者:Spotify
翻译:Diwei

Scio是Apache BeamGoogle Cloud Dataflow的Scala API,受到了Apache SparkScalding的启发。有关更多信息,请参阅当前的API文档

Scio 0.3.0版本以及以后的版本都依赖于Apache Beam(org.apache.beam),而早期的一些版本依赖的是Google Cloud Dataflow SDK(com.google.cloud.dataflow)。请参阅该页面,以了解做了哪些重大的调整。

特点

  • Scala API与Spark和Scalding核心API非常相似
  • 统一批量和流式编程模型
  • 全管理服务
  • 与Google Cloud产品集成:云存储,BigQuery,Pub/Sub,Datastore,Bigtable
  • HDFS源/汇
  • 与Scio REPL的交互模式
  • BigQuery的安全类型
  • AlgebirdBreeze的结合
  • 分布式缓存

快速开始

可以使用本地模式的SBT直接运行非常常见的字数统计功能,使用README.md作为输入。

sbt "scio-examples/run-main com.spotify.scio.examples.WordCount --input=README.md --output=wc"
cat wc/part-00000-of-00001.txt
评论