用户组:游客
问题导读 1.Hadoop3.3支持JDK哪个版本? 2.SCM是什么? 3.YARN应用程序做了哪些改进? 4.整合腾讯云实现了什么文件系统? ...
问题描述: 使用MergeTree引擎建表,进行插入数据时,发现数据重复。 原因: MergeTree的主键(PRIMARY KEY)只是用来 ...
1、确定需要执行重分区的topic,可以指定多个,建议每次重分区一个;(重分区之前检查下topic大小) 2、生成分区方案 注 ...
1、 什么是MPP? MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘 ...
充当业务系统与数据仓库之间的过渡区。数据仓库的数据来源复杂,可能分布在不同的数据库,不同的地理位置,不同的应用系统之中 ...
表具有一些特性,这些特性定义了数据在表中如何存储,包含存储什么样的数据,数据如何分解,各部分信息如何命名等信息。描述表 ...
事实表和维度表的分界线 事实表是用来存储主题的主干内容的。以日常的工作量为例,工作量可能具有如下属性:工作日期,人 ...
数据库:用于日常的事务处理,存储数据量相对较小,对于存储和查询都有相应的优化,但是对于历史数据量很大的情况下就不适用 ...
idea已经被很多人使用,通过IDEA查看源码,是经常的事情,那么该如何查看,下面是实用快捷键: 进入该类或方法:ctrl+鼠标点 ...
问题导读:1. 数据和信息的关系?2. 信息和智慧的关系? 我时常听创业者说自己的公司每天会生产/记录很多的数据,虽然他 ...
幂等(idempotence)一词原为数学上的概念,用一个最直观的数学式子表达为: f(f(x)) = f(x) 对应到软件开发领域,即为同样 ...
在开发中,一般来讲,我们都是通过代码开发,比如Java,Scala等来写mapreduce,spark编程等。然后如果使用shell编程来实现,效率 ...
在统计学领域,数据分析划分为:描述性数据分析、探索性数据分析、验证性数据分析。 数据分析的目的主要 ...
因数据核查需要,在一堆压缩文件中(共8269个压缩文件,200G的存储空间)找是否有乱码;在网上搜索了好的办法,结合自己实践,找 ...
本版积分规则 发表帖子
查看 »