分享

Apache Spark 1.3 发布

sstutu 2015-3-15 11:57:35 发表于 新版说明 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 8 24960
Apache Spark 1.3 发布,1.3 版本引入了期待已久的 DataFrame API,这是 Spark 的 RDD 抽象设计来简单快速支持大数据集的变革。同时在流转换 ML 和 SQL 的大量提升。

DateFrame API 示例:
  1. # Constructs a DataFrame from a JSON dataset.
  2. users = context.load("s3n://path/to/users.json", "json")
  3. # Create a new DataFrame that contains “young users” only
  4. young = users.filter(users.age < 21)
  5. # Alternatively, using Pandas-like syntax
  6. young = users[users.age < 21]
  7. # DataFrame's support existing RDD operators
  8. print("Young users: " + young.count())
复制代码

Spark SQL Graduates from Alpha示例

  1. > CREATE TEMPORARY TABLE impressions
  2. USING org.apache.spark.sql.jdbc
  3. OPTIONS (
  4. url "jdbc:postgresql:dbserver",
  5. dbtable "impressions"
  6. )
  7. > SELECT COUNT(*) FROM impressions
复制代码

Built-in Support for Spark Packages示例
  1. # Launching Spark shell with a package
  2. ./bin/spark-shell --packages databricks/spark-avro:0.2
复制代码

详细内容查看:
spark发布官网地址





欢迎加入about云群425860289432264021 ,云计算爱好者群,关注about云腾讯认证空间

已有(8)人评论

跳转到指定楼层
jixianqiuxue 发表于 2015-3-16 22:09:37
Spark SQL脱离Alpha版本
在1.3版本中,Spark SQL正式脱离Alpha版本,提供了更好的SQL标准兼容。同时,Spark SQL数据源API亦实现了与新组件DataFrame的交互,允许用户直接通过Hive表格、Parquet文件以及一些其他数据源生成DataFrame。用户可以在同一个数据集上混合使用SQL和data frame操作符。新版本提供了从JDBC读写表格的能力,可以更原生地支持Postgres、MySQL及其他RDBMS系统。同时,该API还为JDBC(或者其他方式)连接的数据源生成输出表格提供写入支持。
  1. > CREATE TEMPORARY TABLE impressions
  2. USING org.apache.spark.sql.jdbc
  3. OPTIONS (
  4. url "jdbc:postgresql:dbserver",
  5. dbtable "impressions"
  6. )
  7. > SELECT COUNT(*) FROM impressions
复制代码
内置支持Spark Packages
在2014年底,我们着手为Spark建立一个新的社区项目目录站点——Spark Packages。当下,Spark Packages已经包含了开发者可以使用的45个社区项目,包括数据源集成、测试工具以及教程。为了更方便Spark用户使用,在Spark 1.3中,用户可以直接将已发布包导入Spark shell(或者拥有独立flag的程序中)。
  1. # Launching Spark shell with a package
  2. ./bin/spark-shell --packages databricks/spark-avro:0.2
复制代码
Spark Packages 还为开发者建立了一个SBT插件来简化包的发布,并为发布包提供了自动地兼容性检查。
在Spark Streaming中提供了更低等级的Kafka支持
从过去发布的几个版本来看,Kafka已经成为Spark Streaming一个非常人气的输入源。Spark 1.3引入了一个新的Kakfa streaming source,它利用了Kafka的回放能力,在非预写日志配置下提供了一个更可靠的交付语义。同时,针对那些需求强一致性的应用程序,它还提供了实现了Exactly-Once Guarantees的原语。在Kafka的支持上,1.3版本还添加了一个Python API以及支持这个API的原语。
MLlib中的新算法
Spark 1.3还提供了大量的新算法。其中,Latent Dirichlet Allocation(LDA)成为了第一个出现在MLlib中的主题建模算法。在这之前,Spark的逻辑回归已经通过多项逻辑斯蒂回归(multinomial logistic regression )支持多类分类(multiclass classification)。而在这个版本中,聚类再次被提升,Gaussian Mixture Models和 Power Iteration Clustering被引入。并通过FP-growth扩展了频繁项集挖掘(FIM,Frequent Itemsets Mining)。最后,MLlib还为Distributed Linear Algebra引入了有效的块矩阵抽象。



http://www.csdn.net/article/2015-03-16/2824226-apache-spark-1-3

回复

使用道具 举报

feng01301218 发表于 2015-3-15 14:47:57
回复

使用道具 举报

355815741 发表于 2015-3-15 18:11:39
回复

使用道具 举报

levycui 发表于 2015-3-16 09:26:49
支持下,楼主头像不错
回复

使用道具 举报

zhujun182104906 发表于 2015-3-16 13:25:10
回复

使用道具 举报

stark_summer 发表于 2015-3-16 15:19:38
回复

使用道具 举报

scala 发表于 2015-3-16 16:39:20
spark sql 中,比如length ,substr 现在支持吗?
回复

使用道具 举报

pig2 发表于 2015-4-1 21:32:57
scala 发表于 2015-3-16 16:39
spark sql 中,比如length ,substr 现在支持吗?



目前这些还不太清楚,但是功能已经很强了
可以实现:
1.条件查询
例如:
选择所有年龄大于21岁的人,只保留name字段


2.自增
字段自增
df.select(“name”, df(“age”) + 1).show()

3.分组
按年龄分组计数
df.groupBy(“age”).count().show()

4.左右联
左联表(注意是3个等号!)
df.join(df2, df(“name”) === df2(“name”), “left”).show()


详细参考:
Spark 1.3.0版中 DataFrame 实践
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条