该部分需要提供一个实时业务处理的接口,即将用户的业务层需求转换为实时处理的具体模式。例如模仿Hive提供一个类Sql的业务接口,我们将一类数据在元数据管理器中描述是一个表,不同字段是表中不同字段
select ---------------------------固定数据查询(异常或者脏数据处理),
max/min/avg-------------------最大最小值
count/sum----------------------求和或次数统计(比如pv等)
count(distinct)------------------去重计数(典型的如UV)
order by------------------------排序(取近访问的用户)
group by + 聚类函数 + order by-----聚类后排序(如访问次数最多的topN商品)
这只是简单类比,我们可以将实时处理的业务需求转化为Sql相关语句,上层执行类Sql语句,底层将其翻译成具体Topology组成及节点参数等。