- Full-text search
- Atlas也支持lucene风格的全文检索
Apache atlas的其中一个核心特性就是可以追溯数据湖(Data Lake)中数据的血缘关系并以可视化的方式呈现,使用户能够快速了解数据的生命周期,并能够知晓自己的数据时从那里来以及和数据湖中的那些数据具有关联关系。
参考下面的例子,创建两张hive表,然后通过表的join创建一张新表:
- 创建一张hive表存储以数组形式存储tweet文本中的单词
CREATE TABLE words_array AS SELECT tweet_id AS id, split(text,' ') AS words FROM tweets;
- 创建一张hive表将文本中的数组切分成单独的单词
CREATE TABLE tweet_word AS SELECT id AS id, word FROM words_array LATERAL VIEW explode(words) w as word;
- 通过对上述表的Join操作创建新的表
CREATE TABLE word_join AS SELECT tweet_word.id, tweet_word.word, sentiment_dictionary.rating FROM tweet_word LEFT OUTER JOIN sentiment_dictionary ON (tweet_word.word=sentiment_dictionary.word);
在Atlas中,上述操作生成的word_join表的血缘关系图如下所示:
- 创建tag服务实例(tag服务实例可以创建多个以归类不同集群的基于标签策略)
- Login to Ranger Admin
- Select menu: Access Manager è Tag Based Policies
- Click the + icon next to TAG
- In ‘Service Name’ field, enter tagdev and click ‘Add’
- Ranger的各个组件的服务实例需要被更新以实施指定的tag服务实例所提供的基于标签的访问控制策略,以hive为例:
- Login to Ranger Admin
- Select menu: Access Manager è Resource Based Policies
- Click on the edit icon next to your hive service instance, like hdp_hive,
- In ‘Select Tag Service’ field, select tag-test and click ‘Save’
- 在”Tag Based Policies”页面创建基于策略的访问控制策略,例如: