windows访问cloudera spark

我有一个cloudera cluster，上面有一个 spark on yarn 的服务。
我有其他同事，在windows上的python环境，需要怎么通过pyspark访问spark service呢？用户名密码需要如何配置？
谢谢！

nextuser · 发表于 2016-12-9 14:20:06

这个访问时指什么意思？
想通过浏览器访问？？
还是想开发调用服务。
如果是浏览器访问，简单的配置下应该就可以了。如果需要输入用户名，密码，那就输入用户名和密码。这个跟普通的网站访问，没有区别的。否则就太low了。本地不需要什么特殊的环境

访问服务的话，当然你需要api

zhuangmz · 发表于 2016-12-9 14:46:05

nextuser 发表于 2016-12-9 14:20
这个访问时指什么意思？
想通过浏览器访问？？
还是想开发调用服务。

你好，我意思是这样的：
如果是用user1登录linux系统，spark2-submit提交的时候，cloudera会以user1的方式赋予spark可以访问的文件权限。

但是这样有两个问题：
1. sudo -u user1，别的用户可以“假装”是user1。
2. 如果要新加一个用户，都必须给他创建linux系统的用户？在哪个linux系统创建呢？集群的每台机器都需要创建？
我想问有没有一个账号的集中管理系统，方便地 1.新增修改用户、2.配置访问权限.

zhuangmz · 发表于 2016-12-9 14:54:39

nextuser 发表于 2016-12-9 14:20
这个访问时指什么意思？
想通过浏览器访问？？
还是想开发调用服务。

比如说，server1:50070/ ，任何人一打开这个网页，都可以看到hdfs的所有文件，这个想禁止掉，得有用户名密码，登录以后才能看到。

zhuangmz · 发表于 2016-12-9 14:55:19

nextuser 发表于 2016-12-9 14:20
这个访问时指什么意思？
想通过浏览器访问？？
还是想开发调用服务。

我在看《Hadoop Security》，看看书上会不会系统地讲一下。

goldtimes · 发表于 2016-12-9 15:15:45

zhuangmz 发表于 2016-12-9 14:55
我在看《Hadoop Security》，看看书上会不会系统地讲一下。

对的，关于Sentry 这个有关于这方面的介绍。
推荐几个这方面的资料

HDFS的授权体系

在上述的第三层中，Hadoop生态圈长久以来一直沿用Linux/Unix系统的授权管理模型，将文件的访问权限分为读-写两种权限（HDFS上没有可执行文件的概念），将权限的所有者划分为三个大类：拥有者（owner），所在组（group），以及其他人（other）。这种模型限制权限的所有者只能有三类。如果试图增加一个新的“组”，并设定该组的用户拥有不同于owner，group或other的权限，现有的Linux/Unix授权模型是无法优雅地解决这个问题的。

举例来说明上述状况：假设有一个销售部门，部门经理manager具有修改销售数据sales_data的权利；销售部门的成员具有查看sales_data的权利，销售部门以外的人无法看到销售数据sales_data。那么对于销售数据sales_data的授权如下所示：

[mw_shl_code=bash,true]-rw-r----- 3 manager sales 0 2015-01-25 18:51 sales_data[/mw_shl_code]

后来该销售部门扩充了人员，又来两个销售经理，一个叫manager1，另一个叫manager2。这两个销售经理也被允许修改销售数据。这种情况下，manager1和manager2只能使用一个新账号manager_account，然后使该账号能够使用setuid对sales_data进行修改。这使得对同一份数据的权限管理变得复杂而不容易维护。

由于上述问题的存在，Hadoop2.4.0中添加了对HDFS ACL（Access Control Lists）的支持。这一新特性很好地解决了上述的问题。然而随着Hadoop在企业中广泛地应用，越来越多的业务场景要求大数据访问控制的粒度也不再局限在文件级别，而是更加细致地约束文件内部的数据哪些能被读写，哪些只能被读，哪些完全不允许被访问。对于基于SQL的大数据引擎来说，数据访问不止要到表粒度，更要精确到行列级别。

来自：

大数据安全体系及Sentry安全授权管理介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=13142

更多
Hadoop Sentry 学习
http://www.aboutyun.com/forum.php?mod=viewthread&tid=8902

Cloudera Hadoop开源组件Sentry：为金融、政府、医疗保健使用hadoop打下基础

http://www.aboutyun.com/forum.php?mod=viewthread&tid=13141

##################
对于cloudera在安装的时候已经创建了很多用户比如hdfs用户，yarn用户。如下图

zhuangmz · 发表于 2016-12-9 15:26:51

goldtimes 发表于 2016-12-9 15:15
对的，关于Sentry 这个有关于这方面的介绍。
推荐几个这方面的资料

谢谢，你的这些资料很有帮助，我赶紧看看。

图文精华

windows访问cloudera spark

相关帖子

已有(6)人评论

最佳新人

活跃会员

热心会员

推荐 /2