FlinkÓëHiveµÄÄ¥ºÏÆÚ-Flink-AboutÔÆ-ËóÂ×¿Æ¼¼

BGnv5 ·¢±íÓÚ 2020-5-18 23:10:31

FlinkÓëHiveµÄÄ¥ºÏÆÚ

ÎÊÌâµ¼¶Á£º
1.FlinkÈçºÎÁ¬½Óhive?
2.Ê¶±ð²»µ½ Hadoop »·¾³»òÅäÖÃÎÄ¼þÕÒ²»µ½ÔõÃ´´¦Àí£¿
3.ÒÀÀµ°ü¡¢Àà»ò·½·¨ÕÒ²»µ½ÔõÃ´°ì£¿

ÓÐ²»ÉÙ¶ÁÕß·´À¡£¬²Î¿¼ÉÏÆªÎÄÕÂ¡¶Hive ÖÕÓÚµÈÀ´ÁË Flink¡·²¿Êð Flink ²¢¼¯³É Hive Ê±£¬³öÏÖÒ»Ð© bug ÒÔ¼°¼æÈÝÐÔµÈÎÊÌâ¡£ËäÒÑµÈÀ´£¬È´Î´¿ÉÓÃ¡£ËùÒÔ±ÊÕßÔö¼ÓÁËÕâÒ»ÆªÎÄÕÂ£¬×÷Îªæ¢ÃÃÆª¡£

»Ø¹Ë

ÔÚÉÏÆªÎÄÕÂÖÐ£¬±ÊÕßÊ¹ÓÃµÄ CDH °æ±¾Îª 5.16.2£¬ÆäÖÐ Hive °æ±¾Îª 1.1.0£¨CDH 5.x ÏµÁÐ Hive °æ±¾¶¼²»¸ßÓÚ 1.1.0£¬ÊÇ²»ÊÇ²»¿ÉÀí½â£©£¬Flink Ô´´úÂë±¾Éí¶Ô Hive 1.1.0 °æ±¾¼æÈÝÐÔ²»ºÃ£¬´æÔÚ²»ÉÙÎÊÌâ¡£ÎªÁË¼æÈÝÄ¿Ç°°æ±¾£¬±ÊÕß»ùÓÚ CDH 5.16.2 »·¾³£¬¶Ô Flink ´úÂë½øÐÐÁËÐÞ¸Ä£¬ÖØÐÂ´ò°ü²¢²¿Êð¡£

ÆäÊµ¾¹ýºÜ¶à¿ªÔ´ÏîÄ¿µÄÊµÕ½£¬±ÈÈç Apache Atlas£¬Apache Spark µÈ£¬Hive 1.2.x ºÍ Hive 1.1.x ÔÚ´ó²¿·ÖÇé¿öÏÂ£¬Ìæ»»Ò»Ð© Jar °ü£¬ÊÇ¿ÉÒÔ½â¾ö¼æÈÝÐÔµÄÎÊÌâ¡£¶ÔÓÚ±ÊÕßµÄ»·¾³À´Ëµ£¬¿ÉÒÔÊ¹ÓÃ Hive 1.2.1 °æ±¾µÄÒ»Ð© Jar °üÀ´´úÌæ Hive 1.1.0 °æ±¾µÄ Jar °ü¡£ÔÚ±¾ÆªÎÄÕÂµÄ¿ªÊ¼²¿·Ö£¬±ÊÕß»á½â¾öÕâ¸öÎÊÌâ£¬È»ºóÔÙ²¹³äÉÏÆªÎÄÕÂÈ±ÉÙµÄÊµÕ½ÄÚÈÝ¡£

¼ô²»¶ÏÀí»¹ÂÒµÄÎÊÌâ

¸ù¾Ý¶ÁÕßµÄ·´À¡£¬±ÊÕß½«ËùÓÐµÄÎÊÌâ×Ü½áÎªÈýÀà£º

[*]Flink ÈçºÎÁ¬½Ó Hive ³ýÁË API Íâ£¬ÓÐÃ»ÓÐÀàËÆ spark-sql ÃüÁî
[*]Ê¶±ð²»µ½ Hadoop »·¾³»òÅäÖÃÎÄ¼þÕÒ²»µ½
[*]ÒÀÀµ°ü¡¢Àà»ò·½·¨ÕÒ²»µ½

1. Flink ÈçºÎÁ¬½Ó Hive

ÓÐµÄ¶ÁÕß²»Ì«Çå³þ£¬ÈçºÎÅäÖÃ Flink Á¬½Ó Hive µÄ Catalog£¬ÕâÀï²¹³äÒ»¸öÍêÕûµÄ conf/sql-client-hive.yaml Ê¾Àý£º

catalogs:
- name: staginghive
type: hive
hive-conf-dir: /etc/hive/conf
hive-version: 1.2.1

execution:
planner: blink
type: batch
time-characteristic: event-time
periodic-watermarks-interval: 200
result-mode: table
max-table-result-rows: 1000000
parallelism: 1
max-parallelism: 128
min-idle-state-retention: 0
max-idle-state-retention: 0
current-catalog: staginghive
current-database: ssb
restart-strategy:
type: fallback

deployment:
response-timeout: 5000
gateway-address: ""
gateway-port: 0
m: yarn-cluster
yn: 2
ys: 5
yjm: 1024
ytm: 2048

sql-client-hive.yaml ÅäÖÃÎÄ¼þÀïÃæ°üº¬£º

[*]Hive ÅäÖÃÎÄ¼þ catalogs ÖÐÅäÖÃÁË Hive µÄÅäÖÃÎÄ¼þÂ·¾¶¡£
[*]Yarn ÅäÖÃÐÅÏ¢ deployment ÖÐÅäÖÃÁË Yarn µÄÅäÖÃÐÅÏ¢¡£
[*]Ö´ÐÐÒýÇæÐÅÏ¢ execution ÅäÖÃÁË blink planner£¬²¢ÇÒÊ¹ÓÃ batch Ä£Ê½¡£batch Ä£Ê½±È½ÏÎÈ¶¨£¬ÊÊºÏ´«Í³µÄÅú´¦Àí×÷Òµ£¬¶øÇÒ¿ÉÒÔÈÝ´í£¬ÁíÍâÖÐ¼äÊý¾ÝÂäÅÌ£¬½¨Òé¿ªÆôÑ¹Ëõ¹¦ÄÜ¡£³ýÁË batch£¬Flink Ò²Ö§³Ö streaming Ä£Ê½¡£

[*]Flink SQL CLI ¹¤¾ß

ÀàËÆ spark-sql ÃüÁî£¬Flink Ìá¹©ÁË SQL CLI ¹¤¾ß£¬¼´ sql-client.sh ½Å±¾¡£ÔÚ Flink 1.10 °æ±¾ÖÐ£¬Flink SQL CLI ¸Ä½øÁËºÜ¶à¹¦ÄÜ£¬±ÊÕßºóÃæ½²½â¡£

sql-client.sh Ê¹ÓÃ·½Ê½ÈçÏÂ£º

$ bin/sql-client.sh embedded -d conf/sql-client-hive.yaml

2. Ê¶±ð²»µ½ Hadoop »·¾³»òÅäÖÃÎÄ¼þÕÒ²»µ½

±ÊÕßÔÚÉÏÆªÎÄÕÂÖÐÌáµ½¹ý£¬ÔÚ²¿Êð Flink µÄ»·¾³ÉÏ²¿Êð CDH gateway£¬°üÀ¨ Hadoop¡¢Hive ¿Í»§¶Ë£¬ÁíÍâ»¹ÐèÒªÅäÖÃÒ»Ð©»·¾³±äÁ¿£¬ÈçÏÂ£º

export HADOOP_CONF_DIR=/etc/hadoop/conf
export YARN_CONF_DIR=/etc/hadoop/conf
export HIVE_HOME=/opt/cloudera/parcels/CDH/lib/hive
export HIVE_CONF_DIR=/etc/hive/conf

3. ÒÀÀµ°ü¡¢Àà»ò·½·¨ÕÒ²»µ½

ÏÈ²é¿´Ò»ÏÂ Flink ¼ÒÄ¿Â¼ÏÂµÄ lib Ä¿Â¼£º

$ treelib
lib
©À©¤©¤ flink-connector-hive_2.11-1.10.0.jar
©À©¤©¤ flink-dist_2.11-1.10.0.jar
©À©¤©¤ flink-hadoop-compatibility_2.11-1.10.0.jar
©À©¤©¤ flink-shaded-hadoop-2-2.6.0-cdh5.16.2-9.0.jar
©À©¤©¤ flink-table_2.11-1.10.0.jar
©À©¤©¤ flink-table-blink_2.11-1.10.0.jar
©À©¤©¤ hive-exec-1.1.0-cdh5.16.2.jar
©À©¤©¤ hive-metastore-1.1.0-cdh5.16.2.jar
©À©¤©¤ libfb303-0.9.3.jar
©À©¤©¤ log4j-1.2.17.jar
©¸©¤©¤ slf4j-log4j12-1.7.15.jar

Èç¹ûÉÏÃæÇ°Á½¸öÎÊÌâ¶¼½â¾öºó£¬Ö´ÐÐÈçÏÂÃüÁî£º

$ bin/sql-client.sh embedded -d conf/sql-client-hive.yaml

±¨´í£¬±¨´í£¬»¹ÊÇ±¨´í£º

Caused by: java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory

ÆäÊµÔÚÔËÐÐ sql-client.sh ½Å±¾Ç°£¬ÐèÒªÖ¸¶¨ Hadoop »·¾³µÄÒÀÀµ°üµÄÂ·¾¶£¬½¨Òé²»Òª±¨´íÒ»¸öÌí¼ÓÒ»¸ö£¬³ý·ÇÓÐµÄ¶ÁÕßÏ²»¶¡£ÕâÀï±ÊÕßÌáÊ¾Ò»¸ö·½±ãµÄ·½Ê½£¬¼´ÉèÖÃ HADOOPCLASSPATH£¨¿ÉÒÔÌí¼Óµ½ ~/.bashprofile ÖÐ£©»·¾³±äÁ¿£º

export HADOOP_CLASSPATH=`hadoop classpath`

ÔÙ´ÎÖ´ÐÐ£º

$ bin/sql-client.sh embedded -d conf/sql-client-hive.yaml

ºÜ±§Ç¸£¬¼ÌÐø±¨´í£º

Caused by: org.apache.flink.table.client.gateway.SqlExecutionException: Could not create execution context. at org.apache.flink.table.client.gateway.local.ExecutionContext$Builder.build(ExecutionContext.java:753) at org.apache.flink.table.client.gateway.local.LocalExecutor.openSession(LocalExecutor.java:228) at org.apache.flink.table.client.SqlClient.start(SqlClient.java:98) at org.apache.flink.table.client.SqlClient.main(SqlClient.java:178) Caused by: org.apache.flink.table.catalog.exceptions.CatalogException: Failed to create Hive Metastore client

ÕâÀï¾ÍÊÇ Hive 1.1.0 °æ±¾µÄ Jar °üÓë Flink ³öÏÖ°æ±¾²»¼æÈÝÐÔµÄÎÊÌâÁË£¬½â¾ö·½·¨ÊÇ£º

[*]ÏÂÔØ apache-hive-1.2.1 °æ±¾
[*]Ìæ»» Flink lib Ä¿Â¼ÏÂµÄ Hive Jar °ü É¾³ýµô hive-exec-1.1.0-cdh5.16.2.jar¡¢ hive-metastore-1.1.0-cdh5.16.2.jar ºÍ libfb303-0.9.3.jar£¬È»ºóÌí¼Ó hive-exec-1.2.1.jar¡¢ hive-metastore-1.2.1.jar ºÍ libfb303-0.9.2.jar£¬ÔÙ´Î²é¿´ lib Ä¿Â¼£º

$ tree lib
lib
©À©¤©¤ flink-connector-hive_2.11-1.10.0.jar
©À©¤©¤ flink-dist_2.11-1.10.0.jar
©À©¤©¤ flink-hadoop-compatibility_2.11-1.10.0.jar
©À©¤©¤ flink-shaded-hadoop-2-2.6.0-cdh5.16.2-9.0.jar
©À©¤©¤ flink-table_2.11-1.10.0.jar
©À©¤©¤ flink-table-blink_2.11-1.10.0.jar
©À©¤©¤ hive-exec-1.2.1.jar
©À©¤©¤ hive-metastore-1.2.1.jar
©À©¤©¤ libfb303-0.9.2.jar
©À©¤©¤ log4j-1.2.17.jar
©¸©¤©¤ slf4j-log4j12-1.7.15.jar

×îºóÔÙÖ´ÐÐ£º

$ bin/sql-client.sh embedded -d conf/sql-client-hive.yaml

ÕâÊ±£¬¶ÁÕß¾Í¿ÉÒÔ¿´µ½ÊÖÎÕÀõ×ÓµÄ¿É°®Ð¡ËÉÊóÁË¡£

Flink SQL CLI Êµ¼ù

ÔÚ Flink 1.10 °æ±¾£¨Ä¿Ç°Îª RC1 ½×¶Î£© ÖÐ£¬Flink ÉçÇø¶Ô SQL CLI ×öÁË´óÁ¿µÄ¸Ä¶¯£¬±ÈÈçÖ§³Ö View¡¢Ö§³Ö¸ü¶àµÄÊý¾ÝÀàÐÍºÍ DDL Óï¾ä¡¢Ö§³Ö·ÖÇø¶ÁÐ´¡¢Ö§³Ö INSERT OVERWRITE µÈ£¬ÊµÏÖÁË¸ü¶àµÄ TableEnvironment API µÄ¹¦ÄÜ£¬¸ü¼Ó·½±ãÓÃ»§Ê¹ÓÃ¡£

½ÓÏÂÀ´£¬±ÊÕßÏêÏ¸½²½â Flink SQL CLI¡£

0. Help

Ö´ÐÐÏÂÃæÃüÁî£¬µÇÂ¼ Flink SQL ¿Í»§¶Ë£º

$ bin/sql-client.sh embedded -d conf/sql-client-hive.yaml
Flink SQL>

Ö´ÐÐ HELP£¬²é¿´ Flink SQL Ö§³ÖµÄÃüÁî£¬ÈçÏÂÎª´ó²¿·Ö³£ÓÃµÄ£º

[*]CREATE TABLE
[*]DROP TABLE
[*]CREATE VIEW
[*]DESCRIBE
[*]DROP VIEW
[*]EXPLAIN
[*]INSERT INTO
[*]INSERT OVERWRITE
[*]SELECT
[*]SHOW FUNCTIONS
[*]USE CATALOG
[*]SHOW TABLES
[*]SHOW DATABASES
[*]SOURCE
[*]USE
[*]SHOW CATALOGS

1. Hive ²Ù×÷

[*]1.1 ´´½¨±íºÍµ¼ÈëÊý¾Ý

ÎªÁË·½±ã¶ÁÕß½øÐÐÊµÑé£¬±ÊÕßÊ¹ÓÃ ssb-dbgen Éú³É²âÊÔÊý¾Ý£¬¶ÁÕßÒ²¿ÉÒÔÊ¹ÓÃ²âÊÔ»·¾³ÒÑÓÐµÄÊý¾ÝÀ´½øÐÐÊµÑé¡£
¾ßÌåÈçºÎÔÚ Hive ÖÐÒ»¼üÊ½´´½¨±í²¢²åÈëÊý¾Ý£¬¿ÉÒÔ²Î¿¼±ÊÕßÔçÆÚµÄÏîÄ¿ https://github.com/MLikeWater/ssb-kylin

[*]1.2 Hive ±í

²é¿´ÉÏ¸ö²½ÖèÖÐ´´½¨µÄ Hive ±í£º

0: jdbc:hive2://xx.xxx.xxx.xxx:10000> show tables;
+--------------+--+
| tab_name |
+--------------+--+
| customer |
| dates    |
| lineorder |
| p_lineorder|
| part       |
| supplier |
+--------------+--+

¶ÁÕß¿ÉÒÔ¶Ô Hive ½øÐÐ¸÷ÖÖ²éÑ¯£¬¶Ô±ÈºóÃæ Flink SQL ²éÑ¯µÄ½á¹û¡£

2. Flink ²Ù×÷

[*]2.1 Í¨¹ý HiveCatalog ·ÃÎÊ Hive Êý¾Ý¿â

µÇÂ¼ Flink SQL CLI£¬²¢²éÑ¯ catalogs£º

$ bin/sql-client.sh embedded -d conf/sql-client-hive.yaml
Flink SQL> show catalogs;
default_catalog
staginghive

Flink SQL> use catalog staginghive;

Í¨¹ý show catalogs »ñÈ¡ÅäÖÃµÄËùÓÐ catalog¡£ÓÉÓÚ±ÊÕßÔÚ sql-client-hive.yaml ÎÄ¼þÖÐÉèÖÃÁËÄ¬ÈÏµÄ catalog£¬¼´Îª staginghive¡£Èç¹ûÐèÒªÇÐ»»µ½ÆäËû catalog£¬¿ÉÒÔÊ¹ÓÃ usecatalog xxx¡£

[*]2.2 ²éÑ¯ Hive ÔªÊý¾Ý

Í¨¹ý Flink SQL ²éÑ¯ Hive Êý¾Ý¿âºÍ±í£º

# ²éÑ¯Êý¾Ý¿â
Flink SQL> show databases;
...
ssb
tmp
...
Flink SQL> use ssb;

# ²éÑ¯±í
Flink SQL> show tables;
customer
dates
lineorder
p_lineorder
part
supplier

# ²éÑ¯±í½á¹¹
Flink SQL> DESCRIBE customer;
root
|-- c_custkey: INT
|-- c_name: STRING
|-- c_address: STRING
|-- c_city: STRING
|-- c_nation: STRING
|-- c_region: STRING
|-- c_phone: STRING
|-- c_mktsegment: STRING

ÕâÀïÐèÒª×¢Òâ£¬Hive µÄÔªÊý¾ÝÔÚ Flink catalog ÖÐ¶¼ÒÔÐ¡Ð´×ÖÄ¸Ê¹ÓÃ¡£

[*]2.3 ²éÑ¯

½ÓÏÂÀ´£¬ÔÚ Flink SQL CLI ÖÐ²éÑ¯Ò»Ð© SQL Óï¾ä£¬ÍêÕû SQL ²Î¿¼ https://github.com/MLikeWater/ssb-kylin µÄ README¡£

Ä¿Ç° Flink SQL ½âÎö Hive ÊÓÍ¼ÔªÊý¾ÝÊ±£¬»áÓöµ½Ò»Ð© Bug£¬±ÈÈçÖ´ÐÐ Q1.1 SQL£º

Flink SQL> select sum(v_revenue) as revenue
> from p_lineorder
> left join dates on lo_orderdate = d_datekey
> where d_year = 1993
> and lo_discount between 1 and 3
> and lo_quantity < 25;

Could not execute SQL statement. Reason:
org.apache.calcite.sql.validate.SqlValidatorException: Tabeorder' not found; did you mean 'LINEORDER'?

Flink SQL ÕÒ²»µ½ÊÓÍ¼ÖÐµÄÊµÌå±í¡£

p_lineorder ±íÊÇ Hive ÖÐµÄÒ»ÕÅÊÓÍ¼£¬´´½¨±íµÄÓï¾äÈçÏÂ£º

CREATE VIEW P_LINEORDER AS
SELECT LO_ORDERKEY,
LO_LINENUMBER,
LO_CUSTKEY,
LO_PARTKEY,
LO_SUPPKEY,
LO_ORDERDATE,
LO_ORDERPRIOTITY,
LO_SHIPPRIOTITY,
LO_QUANTITY,
LO_EXTENDEDPRICE,
LO_ORDTOTALPRICE,
LO_DISCOUNT,
LO_REVENUE,
LO_SUPPLYCOST,
LO_TAX,
LO_COMMITDATE,
LO_SHIPMODE,
LO_EXTENDEDPRICE*LO_DISCOUNT AS V_REVENUE
FROM ssb.LINEORDER;

µ«ÊÇ¶ÔÓÚ Hive ÖÐÊÓÍ¼µÄ¶¨Òå£¬Flink SQL ²¢Ã»ÓÐºÜºÃµØ´¦ÀíÔªÊý¾Ý¡£ÎªÁËºóÃæ SQL µÄË³ÀûÖ´ÐÐ£¬ÕâÀï±ÊÕßÔÚ Hive ÖÐÉ¾³ý²¢ÖØ½¨¸ÃÊÓÍ¼£º

0: jdbc:hive2://xx.xxx.xxx.xxx:10000> create view p_lineorder as
select lo_orderkey,
lo_linenumber,
lo_custkey,
lo_partkey,
lo_suppkey,
lo_orderdate,
lo_orderpriotity,
lo_shippriotity,
lo_quantity,
lo_extendedprice,
lo_ordtotalprice,
lo_discount,
lo_revenue,
lo_supplycost,
lo_tax,
lo_commitdate,
lo_shipmode,
lo_extendedprice*lo_discount as v_revenue
from ssb.lineorder;

È»ºó¼ÌÐøÔÚ Flink SQL CLI ÖÐ²éÑ¯ Q1.1 SQL£º

Flink SQL> select sum(v_revenue) as revenue
> from p_lineorder
> left join dates on lo_orderdate = d_datekey
> where d_year = 1993
> and lo_discount between 1 and 3
> and lo_quantity < 25;

revenue
894280292647

¼ÌÐø²éÑ¯ Q2.1 SQL£º

Flink SQL> select sum(lo_revenue) as lo_revenue, d_year, p_brand
> from p_lineorder
> left join dates on lo_orderdate = d_datekey
> left join part on lo_partkey = p_partkey
> left join supplier on lo_suppkey = s_suppkey
> where p_category = 'MFGR#12' and s_region = 'AMERICA'
> group by d_year, p_brand
> order by d_year, p_brand;

lo_revenued_year p_brand
819634128 1998 MFGR#1206
877651232 1998 MFGR#1207
754489428 1998 MFGR#1208
816369488 1998 MFGR#1209
668482306 1998 MFGR#1210
660366608 1998 MFGR#1211
862902570 1998 MFGR#1212
...

×îºóÔÙ²éÑ¯Ò»¸ö Q4.3 SQL£º

Flink SQL> select d_year, s_city, p_brand, sum(lo_revenue) - sum(lo_supplycost) as profit
> from p_lineorder
> left join dates on lo_orderdate = d_datekey
> left join customer on lo_custkey = c_custkey
> left join supplier on lo_suppkey = s_suppkey
> left join part on lo_partkey = p_partkey
> where c_region = 'AMERICA'and s_nation = 'UNITED STATES'
> and (d_year = 1997 or d_year = 1998)
> and p_category = 'MFGR#14'
> group by d_year, s_city, p_brand
> order by d_year, s_city, p_brand;

d_years_city    p_brand    profit
1998 UNITED ST9 MFGR#1440 6665681

Èç¹û¶ÁÕß¸ÐÐËÈ¤µÄ»°£¬¿ÉÒÔ²éÑ¯Ê£ÓàµÄ SQL£¬µ±È»Ò²¿ÉÒÔºÍ Spark SQL ½øÐÐ±È½Ï¡£ÁíÍâ Flink SQL Ò²Ö§³Ö EXPLAIN£¬²éÑ¯ SQL µÄÖ´ÐÐ¼Æ»®¡£

[*] 2.4 ´´½¨ÊÓÍ¼

Í¬Ñù£¬¿ÉÒÔÔÚ Flink SQL CLI ÖÐ´´½¨ºÍÉ¾³ýÊÓÍ¼£¬ÈçÏÂ£º

Flink SQL> create view p_lineorder2 as
> select lo_orderkey,
> lo_linenumber,
> lo_custkey,
> lo_partkey,
> lo_suppkey,
> lo_orderdate,
> lo_orderpriotity,
> lo_shippriotity,
> lo_quantity,
> lo_extendedprice,
> lo_ordtotalprice,
> lo_discount,
> lo_revenue,
> lo_supplycost,
> lo_tax,
> lo_commitdate,
> lo_shipmode,
> lo_extendedprice * lo_discount as v_revenue
> from ssb.lineorder;
View has been created.

ÕâÀï±ÊÕßÐèÒªÌØ±ðÇ¿µ÷µÄÊÇ£¬Ä¿Ç° Flink ÎÞ·¨É¾³ý Hive ÖÐµÄÊÓÍ¼£º

Flink SQL> drop view p_lineorder;
Could not execute SQL statement. Reason:
The given view does not exist in the current CLI session. Only views created with a CREATE VIEW statement can be accessed.

[*]2.5 ·ÖÇø²Ù×÷

Hive Êý¾Ý¿âÖÐ´´½¨Ò»ÕÅ·ÖÇø±í£º

CREATE TABLE IF NOT EXISTS flink_partition_test (
idint,
name string
) PARTITIONED BY (day string, type string)
stored as textfile;

½Ó×Å£¬Í¨¹ý Flink SQL ²åÈëºÍ²éÑ¯Êý¾Ý£º

# ²åÈë¾²Ì¬·ÖÇøµÄÊý¾Ý
Flink SQL> INSERT INTO flink_partition_test PARTITION (type='Flink', `day`='2020-02-01') SELECT 100001, 'Flink001';

# ²éÑ¯
Flink SQL> select * from flink_partition_test;

id    name    day          type
100001 Flink001 2020-02-01 Flink

# ²åÈë¶¯Ì¬·ÖÇø
Flink SQL> INSERT INTO flink_partition_test SELECT 100002, 'Spark', '2020-02-02', 'SparkSQL';

# ²éÑ¯
Flink SQL> select * from flink_partition_test;

id    name       day       type
100002 Spark       2020-02-02 SparkSQL
100001 FlinkSQL    2020-02-01 Flink

# ¶¯Ì¬ºÍ¾²Ì¬·ÖÇø½áºÏÊ¹ÓÃÀàËÆ£¬²»ÔÙÑÝÊ¾
# ¸²¸Ç²åÈëÊý¾Ý
Flink SQL> INSERT OVERWRITE flink_partition_test PARTITION (type='Flink') SELECT 100002, 'Spark', '2020-02-08', 'SparkSQL-2.4';

id    name    day          type
100002Spark    2020-02-02    SparkSQL
100001FlinkSQL 2020-02-01    Flink

×Ö¶Î day ÔÚ Flink ÊôÓÚ¹Ø¼ü×Ö£¬ÒªÌØÊâ´¦Àí¡£

[*]2.6 ÆäËû¹¦ÄÜ

[*]2.6.1 º¯Êý

Flink SQL Ö§³ÖÄÚÖÃµÄº¯ÊýºÍ×Ô¶¨Òåº¯Êý¡£¶ÔÓÚÄÚÖÃµÄº¯Êý£¬¿ÉÒÔÖ´ÐÐ show functions ½øÐÐ²é¿´£¬ÕâÒ»¿é±ÊÕßÒÔºó»áµ¥¶À½éÉÜÈçºÎ´´½¨×Ô¶¨Òåº¯Êý¡£

[*]2.6.2 ÉèÖÃ²ÎÊý

Flink SQL Ö§³ÖÉèÖÃ»·¾³²ÎÊý£¬¿ÉÒÔÊ¹ÓÃ set ÃüÁî²é¿´ºÍÉèÖÃ²ÎÊý£º

Flink SQL> set;
deployment.gateway-address=
deployment.gateway-port=0
deployment.m=yarn-cluster
deployment.response-timeout=5000
deployment.yjm=1024
deployment.yn=2
deployment.ys=5
deployment.ytm=2048
execution.current-catalog=staginghive
execution.current-database=ssb
execution.max-idle-state-retention=0
execution.max-parallelism=128
execution.max-table-result-rows=1000000
execution.min-idle-state-retention=0
execution.parallelism=1
execution.periodic-watermarks-interval=200
execution.planner=blink
execution.restart-strategy.type=fallback
execution.result-mode=table
execution.time-characteristic=event-time
execution.type=batch

Flink SQL> set deployment.yjm = 2048;

×Ü½á

ÔÚ±¾ÎÄÖÐ£¬±ÊÕßÍ¨¹ý Flink SQL ±È½ÏÏêÏ¸µØÈ¥²Ù×÷ Hive Êý¾Ý¿â£¬ÒÔ¼° Flink SQL Ìá¹©µÄÒ»Ð©¹¦ÄÜ¡£

µ±È»£¬Ä¿Ç° Flink SQL ²Ù×÷ Hive Êý¾Ý¿â»¹ÊÇ´æÔÚÒ»Ð©ÎÊÌâ£º

[*]Ä¿Ç°Ö»Ö§³Ö TextFile ´æ´¢¸ñÊ½£¬»¹ÎÞ·¨Ö¸¶¨ÆäËû´æ´¢¸ñÊ½ ,Ö»Ö§³Ö Hive Êý¾Ý¿âÖÐ TextFile ´æ´¢¸ñÊ½µÄ±í£¬¶øÇÒ row format serde ÊÇ org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe¡£ËäÈ»ÊµÏÖÁË RCFile¡¢ORC¡¢Parquet¡¢Sequence µÈ´æ´¢¸ñÊ½£¬µ«ÊÇÎÞ·¨×Ô¶¯Ê¶±ð Hive ±íµÄ´æ´¢¸ñÊ½¡£Èç¹ûÒªÊ¹ÓÃÆäËû´æ´¢¸ñÊ½£¬ÐèÒªÐÞ¸ÄÔ´Âë£¬ÖØÐÂ±àÒë¡£²»¹ýÉçÇøÒÑ¾¶ÔÕâÐ©´æ´¢¸ñÊ½½øÐÐÁË²âÊÔ£¬ÏàÐÅ²»¾ÃÒÔºó¾Í¿ÉÒÔÔÚ Flink SQL ÖÐÊ¹ÓÃ¡£
[*]OpenCSVSerde Ö§³Ö²»ÍêÉÆ£ºÈç¹û¶ÁÕßÊ¹ÓÃ TextFile µÄ row format serde Îª org.apache.hadoop.hive.serde2.OpenCSVSerde Ê±£¬ÎÞ·¨ÕýÈ·Ê¶±ð×Ö¶ÎÀàÐÍ£¬»á°Ñ Hive ±íµÄ×Ö¶ÎÈ«²¿Ó³ÉäÎª String ÀàÐÍ¡£
[*]ÔÝÊ±²»Ö§³Ö Bucket ±í
[*]ÔÝÊ±²»Ö§³Ö ACID ±í
[*]Flink SQL ÓÅ»¯·½Ãæ¹¦ÄÜ½ÏÉÙ
[*]È¨ÏÞ¿ØÖÆ·½Ãæ£ºÕâ·½ÃæºÍ Spark SQL ÀàËÆ£¬Ä¿Ç°»ùÓÚ HDFS ACL ¿ØÖÆ£¬ÔÝÊ±»¹Ã»ÓÐÊµÏÖ Sentry »ò Ranger ¿ØÖÆÈ¨ÏÞ£¬²»¹ýÄ¿Ç° Cloudera ÕýÔÚ¿ª·¢»ùÓÚ Ranger ÉèÖÃ Spark SQL ºÍ Hive ¹²Ïí·ÃÎÊÈ¨ÏÞµÄ²ßÂÔ£¬ÊµÏÖÐÐ/ÁÐ¼¶¿ØÖÆÒÔ¼°Éó¼ÆÐÅÏ¢¡£

Flink ÉçÇø·¢Õ¹ºÜ¿ì£¬ËùÓÐÕâÐ©ÎÊÌâÖ»ÊÇÔÝÊ±µÄ£¬Ëæ×ÅÐÂ°æ±¾µÄ·¢²¼»á±»Öð¸ö½â¾ö¡£

Èç¹û Flink SQL Ä¿Ç°²»Âú×ãµÄÐèÇó£¬½¨ÒéÊ¹ÓÃ API ·½Ê½À´½â¾öÎÊÌâ¡£

×îÐÂ¾µäÎÄÕÂ£¬»¶Ó¹Ø×¢¹«ÖÚºÅhttp://www.aboutyun.com/data/attachment/forum/201903/18/215536lzpn7n3u7m7u90vm.jpg

×÷Õß£ºFlinkÖÐÎÄÉçÇø
ÔÎÄÁ´½Ó£ºhttps://mp.weixin.qq.com/s/TH3TXKebXJ0nAKUh8wfxUw

ÃÀÀöÌì¿Õ ·¢±íÓÚ 2020-5-19 10:13:03

¸ÐÐ»·ÖÏí

Ò³: [1]

AboutÔÆ-ËóÂ×¿Æ¼¼'s Archiver

FlinkÓëHiveµÄÄ¥ºÏÆÚ