°éÓã»ùÓÚ Flink ¹¹½¨Êý¾Ý¼¯³ÉÆ½Ì¨µÄÉè¼ÆÓëÊµÏÖ-Flink-AboutÔÆ-ËóÂ×¿Æ¼¼

levycui ·¢±íÓÚ 2021-12-8 17:55:16

°éÓã»ùÓÚ Flink ¹¹½¨Êý¾Ý¼¯³ÉÆ½Ì¨µÄÉè¼ÆÓëÊµÏÖ

ÎÊÌâµ¼¶Á£º
1¡¢Êý¾Ý¼¯³É VS Êý¾ÝÍ¬²½ÓÐÊ²Ã´¹ØÏµ£¿
2¡¢ÈçºÎÉè¼ÆÊý¾Ý¼¯³É¼Ü¹¹£¿
3¡¢ÓÃ»§Ìá½»¼¯³ÉÈÎÎñºó´´½¨ÄÄÈý¸öÈÎÎñ£¿
4¡¢ÈÝ´íÐÔÓëÊý¾ÝÒ»ÖÂÐÔÈçºÎ±£Ö¤£¿

ÕªÒª£ºÊý¾Ý²Ö¿âÓÐËÄ¸ö»ù±¾µÄÌØÕ÷£ºÃæÏòÖ÷ÌâµÄ¡¢¼¯³ÉµÄ¡¢Ïà¶ÔÎÈ¶¨µÄ¡¢·´Ó³ÀúÊ·±ä»¯µÄ¡£ÆäÖÐÊý¾Ý¼¯³ÉÊÇÊý¾Ý²Ö¿â¹¹½¨µÄÊ×ÒªÇ°Ìá£¬Ö¸½«¶à¸ö·ÖÉ¢µÄ¡¢Òì¹¹µÄÊý¾ÝÔ´ÕûºÏÔÚÒ»ÆðÒÔ±ãÓÚºóÐøµÄÊý¾Ý·ÖÎö¡£½«Êý¾Ý¼¯³É¹ý³ÌÆ½Ì¨»¯£¬½«¼«´óÌáÉýÊý¾Ý¿ª·¢ÈËÔ±µÄÐ§ÂÊ£¬±¾ÎÄÖ÷ÒªÄÚÈÝÎª£º

[*] Êý¾Ý¼¯³É VS Êý¾ÝÍ¬²½
[*] ¼¯³ÉÐèÇó
[*] Êý¾Ý¼¯³É V1
[*] Êý¾Ý¼¯³É V2
[*] ÏßÉÏÐ§¹û
[*] ×Ü½á

Ò»¡¢Êý¾Ý¼¯³É VS Êý¾ÝÍ¬²½

¡¸Êý¾Ý¼¯³É¡¹ÍùÍùºÍ¡¸Êý¾ÝÍ¬²½¡¹ÔÚ¸ÅÄîÉÏ´æÔÚÒ»¶¨µÄ»ìÏý£¬Îª´ËÎÒÃÇ¶ÔÕâ¶þÕß½øÐÐÁËÇø·Ö£º

[*] ¡¸Êý¾Ý¼¯³É¡¹ÌØÖ¸ÃæÏòÊý¾Ý²Ö¿â ODS ²ãµÄÊý¾ÝÍ¬²½¹ý³Ì£»
[*] ¡¸Êý¾ÝÍ¬²½¡¹ÃæÏòµÄÊÇÒ»°ã»¯µÄ Source µ½ Sink µÄÊý¾Ý´«Êä¹ý³Ì¡£

¶þÕßµÄ¹ØÏµÈçÏÂÍ¼ËùÊ¾£º

[*] ¡¸Êý¾ÝÍ¬²½Æ½Ì¨¡¹Ìá¹©»ù´¡ÄÜÁ¦£¬²»²ôÔÓ¾ßÌåµÄÒµÎñÂß¼¡£
[*] ¡¸Êý¾Ý¼¯³ÉÆ½Ì¨¡¹ÊÇ¹¹½¨ÔÚ¡¸Êý¾ÝÍ¬²½Æ½Ì¨¡¹Ö®ÉÏµÄ£¬³ýÁË½«ÔÊ¼Êý¾ÝÍ¬²½Ö®Íâ»¹°üº¬ÁËÒ»Ð©¾ÛºÏµÄÂß¼ (ÈçÍ¨¹ýÊý¾Ý¿âµÄÈÕÖ¾Êý¾Ý¶Ô¿ìÕÕÊý¾Ý½øÐÐ»Ö¸´£¬ÏÂÎÄ½«»áÏêÏ¸Õ¹¿ª) ÒÔ¼°Êý²Ö¹æ·¶Ïà¹ØµÄÄÚÈÝ (ÈçÊý²Ö ODS ²ã¿â±íÃüÃû¹æ·¶) µÈ¡£

Ä¿Ç°¡¸Êý¾ÝÍ¬²½Æ½Ì¨¡¹µÄ½¨ÉèÕýÔÚÎÒÃÇµÄ¹æ»®Ö®ÖÐ£¬µ«Õâ²¢²»Ó°Ïì¡¸Êý¾Ý¼¯³ÉÆ½Ì¨¡¹µÄ´î½¨£¬Ò»Ð©Í¬²½µÄÐèÇó¿ÉÌáÇ°ÔÚ¡¸ÊµÊ±¼ÆËãÆ½Ì¨¡¹´´½¨£¬ÒÔ¡¸Ô¼¶¨¡¹µÄ·½Ê½½âñî¡£

ÖµµÃÒ»ÌáµÄÊÇ¡¸Êý¾Ý¼¯³É¡¹Ò²Ó¦µ±º¸Ç¡¸Êý¾Ý²É¼¯¡¹(ÓÉÌØ¶¨µÄ¹¤¾ßÖ§³Ö) ºÍ¡¸Êý¾ÝÇåÏ´¡¹(ÓÉ²É¼¯Á£¶È¡¢ÈÕÖ¾¹æ·¶µÈÒòËØ¾ö¶¨) Á½²¿·ÖÄÚÈÝ£¬ÕâÁ½²¿·ÖÄÚÈÝ¸÷¸ö¹«Ë¾¶¼ÓÐ×Ô¼ºµÄÊµÏÖ£¬±¾ÎÄ½«²»×öÏêÏ¸½éÉÜ¡£

¶þ¡¢¼¯³ÉÐèÇó

Ä¿Ç°°éÓãÄÚ²¿Êý¾ÝµÄ¼¯³ÉÐèÇóÖ÷ÒªÌåÏÖÔÚÈý¿é£ºStat Log (ÒµÎñ±ê×¼»¯ÈÕÖ¾»ò³ÆÍ³¼ÆÈÕÖ¾)¡¢TiDB ¼° MongoDB¡£³ý´ËÖ®Íâ»¹ÓÐÒ»Ð© Service Log¡¢Nginx Log µÈ£¬´ËÀà²»¾ß±¸´ú±íÐÔ²»ÔÚ±¾ÎÄ½éÉÜ¡£ÁíÍâ£¬ÓÉÓÚÊµÊ±Êý²ÖÕý´¦ÓÚ½¨Éè¹ý³ÌÖÐ£¬Ä¿Ç°¡¸Êý¾Ý¼¯³ÉÆ½Ì¨¡¹Ö»º¸ÇÀëÏßÊý²Ö (Hive)¡£

[*] Stat Log£ºÒµÎñÂäÅÌµÄÈÕÖ¾½«ÓÉ FileBeat ×é¼þÊÕ¼¯ÖÁ Kafka¡£ÓÉÓÚÈÕÖ¾Îª Append Only ÀàÐÍ£¬ Òò´Ë Stat Log ¼¯³ÉÏà¶Ô¼òµ¥£¬Ö»Ðè½« Kafka Êý¾ÝÍ¬²½ÖÁ Hive ¼´¿É¡£
[*] DB (TiDB¡¢MongoDB)£ºDB Êý¾ÝÏà¶ÔÂé·³£¬ºËÐÄËßÇóÊÇÊý²ÖÖÐÄÜ¹»´æÔÚÒµÎñÊý¾Ý¿âµÄ¾µÏñ£¬¼´´æÔÚÒµÎñÊý¾Ý¿âÖÐÄ³Ò»Ê±¿Ì£¨Ìì¼¶ or Ð¡Ê±¼¶£©µÄÊý¾Ý¿ìÕÕ£¬µ±È»ÓÐÊ±Ò²ÓÐ¶ÔÊý¾Ý±ä¸ü¹ý³ÌµÄ·ÖÎöÐèÇó¡£Òò´Ë DB Êý¾Ý¼¯³ÉÐèÒª½«ÕâÁ½¸ö·½Ãæ¶¼¿¼ÂÇ½øÈ¥¡£

ÓÉÓÚÒÔÉÏÁ½ÖÖÀàÐÍµÄÊý¾Ý¼¯³É·½Ê½²îÒì½Ï´ó£¬ÏÂÎÄ½«·Ö±ðÓèÒÔÌÖÂÛ¡£

Èý¡¢Êý¾Ý¼¯³É V1

°éÓãÔçÆÚ¡¸Êý¾Ý¼¯³ÉÆ½Ì¨¡¹ÒÑ¾ß±¸³ûÐÎ£¬Õâ¸ö½×¶ÎÖ÷ÒªÊÇ½èÖúÒ»ÏµÁÐ¿ªÔ´µÄ¹¤¾ßÊµÏÖ¡£Ëæ×ÅÊ±¼äÍÆ½ø£¬Õâ¸ö°æ±¾±©Â¶µÄÎÊÌâÒ²Öð½¥Ôö¶à£¬½ÓÏÂÀ´½«Ö÷Òª´ÓÊý¾ÝÁ÷µÄ½Ç¶È¶Ô V1 ½øÐÐ²ûÊö£¬¸ü¶àµÄÏ¸½ÚÎÊÌâ½«ÔÚ V2 °æ±¾µÄÉè¼ÆÖÐÌåÏÖ¡£

3.1 Stat Log

ÈÕÖ¾µÄ¼¯³É²¢Î´½ÓÈëÆ½Ì¨£¬¶øÊÇÑÌ´ÑÊ½µÄ¿ª·¢·½Ê½£¬Êý¾Ý¼¯³ÉµÄÁ´Â·ÈçÏÂÍ¼ËùÊ¾£º

Kafka ÖÐµÄÊý¾ÝÏÈ¾¹ý Flume Í¬²½ÖÁ HDFS£¬ÔÙÓÉ Spark ÈÎÎñ½«Êý¾Ý´Ó HDFS µ¼ÈëÖÁ Hive ²¢´´½¨·ÖÇø¡£ÕûÌåÁ´Â·½Ï³¤ÇÒÒýÈëÁËµÚÈý·½×é¼þ£¨Flume£©Ôö¼ÓÁËÔËÎ¬µÄ³É±¾£¬ÁíÍâ Kafka µÄÔÊ¼Êý¾ÝÔÚ HDFS ÈßÓà´æ´¢Ò²Ôö¼ÓÁË´æ´¢µÄ¿ªÏú¡£

3.2 DB

DB Êý¾ÝµÄ¼¯³ÉÖ÷ÒªÊÇ»ùÓÚ²éÑ¯µÄ·½Ê½£¨ÅúµÄ·½Ê½£¬Í¨¹ý Select ²éÑ¯½øÐÐÈ«±íÉ¨ÃèµÃµ½¿ìÕÕÊý¾Ý£©ÊµÏÖ£¬ÆäÁ´Â·ÈçÏÂÍ¼ËùÊ¾£º

ÓÃ»§Í¨¹ýÆ½Ì¨Ìá½»¼¯³ÉÈÎÎñ£¬ÓÉ Airflow ¶¨Ê±ÈÎÎñÉ¨Ãè¼¯³ÉÆ½Ì¨ÔªÊý¾Ý¿â£¬Éú³É¶ÔÓ¦µÄÈ¡ÊýÈÎÎñ (TiDB µÄÊý¾ÝÍ¨¹ý Sqoop ¹¤¾ß£¬MongoDB µÄÊý¾ÝÔòÍ¨¹ý Mongoexport ¹¤¾ß)¡£¿ÉÒÔ¿´µ½ V1 °æ±¾²¢Ã»ÓÐ»ñÈ¡Êý¾Ý¿âµÄ±ä¸üµÄÈÕÖ¾Êý¾Ý£¬²»ÄÜÂú×ã¶ÔÊý¾Ý±ä¸ü¹ý³ÌµÄ·ÖÎöËßÇó¡£

ÓÉÓÚ Sqoop ÈÎÎñ×îÖÕÒª´Ó TiDB Éú²ú»·¾³µÄÒµÎñÊý¾Ý¿â»ñÈ¡Êý¾Ý£¬Êý¾ÝÁ¿´óµÄÇé¿öÏÂÊÆ±Ø¶ÔÒµÎñÊý¾Ý¿âÔì³ÉÒ»¶¨µÄÓ°Ïì¡£Mongoexport ÈÎÎñÖ±½Ó×÷ÓÃÔÚ MongoDB µÄÒþ²Ø½Úµã (ÎÞÒµÎñÊý¾ÝÇëÇó)£¬¶ÔÓÚÏßÉÏÒµÎñµÄÓ°Ïì¿ÉÒÔºöÂÔ²»¼Æ¡£»ùÓÚ´Ë£¬DBA µ¥¶À´î½¨ÁËÒ»Ì× TiDB ´óÊý¾Ý¼¯Èº£¬ÓÃÓÚ½«ÌåÁ¿½Ï´óµÄÒµÎñÊý¾Ý¿âÍ¬²½ÖÁ´Ë (»ùÓÚ TiDB Pump ºÍ Drainer ×é¼þ)£¬Òò´Ë²¿·Ö Sqoop ÈÎÎñ¿ÉÒÔ´Ó´Ë¼¯ÈºÀÈºÊý¾ÝÒÔÏû³ý¶ÔÒµÎñÊý¾Ý¿âµÄÓ°Ïì¡£´ÓÊý¾ÝÁ÷µÄ½Ç¶È£¬Õû¸ö¹ý³ÌÈçÏÂÍ¼ËùÊ¾£º

ÊÇ·ñ½«Éú²ú»·¾³ TiDB ÒµÎñÊý¾Ý¿âÍ¬²½ÖÁ TiDB ´óÊý¾Ý¼¯ÈºÓÉÊý²ÖµÄÐèÇóÒÔ¼° DBA ¶ÔÓÚÊý¾ÝÁ¿ÆÀ¹À¾ö¶¨¡£¿ÉÒÔ¿´³ö£¬ÕâÖÖÐÎÊ½Ò²´æÔÚ×Å´óÁ¿Êý¾ÝµÄÈßÓà£¬¼¯ÈºµÄ×ÊÔ´Ëæ×ÅÍ¬²½ÈÎÎñµÄÔö¼ÓÊ±³¤´ïµ½Æ¿¾±¡£²¢ÇÒËæ×ÅºóÐøµÄÑÝ½ø£¬TiDB ´óÊý¾Ý¼¯ÈºÒ²º¸ÇÒ»²¿·ÖÊý¾ÝÓ¦ÓÃÉú²ú»·¾³µÄÒµÎñÊý¾Ý¿â£¬¼¯Èº×÷ÓÃÓòÖð½¥Ä£ºý¡£

ËÄ¡¢Êý¾Ý¼¯³É V2

V2 °æ±¾ÎÒÃÇÒýÈëÁË Flink£¬½«Í¬²½µÄÁ´Â·½øÐÐÁË¼ò»¯£¬DB Êý¾Ý¼¯³É´ÓÖ®Ç°µÄ»ùÓÚ²éÑ¯µÄ·½Ê½¸Ä³ÉÁË»ùÓÚÈÕÖ¾µÄ·½Ê½ (Á÷µÄ·½Ê½)£¬´ó´ó½µµÍÁËÈßÓàµÄ´æ´¢¡£

4.1 Stat Log

½èÖú Flink 1.11 °æ±¾ºó¶ÔÓÚ Hive Integration µÄÖ§³Ö£¬ÎÒÃÇ¿ÉÒÔÇáËÉµÄ½« Kafka µÄÊý¾ÝÐ´Èë Hive£¬Òò´Ë Stat Log µÄ¼¯³ÉÒ²¾Í±äµÃÒì³£¼òµ¥ (Ïà±È V1 °æ±¾£¬È¥³ýÁË¶Ô Flume ×é¼þµÄÒÀÀµ£¬Êý¾ÝÈßÓàÒ²Ïû³ýÁË)£¬Í¬Ê± Flink Exactly-Once µÄÓïÒåÒ²È·±£ÁËÊý¾ÝµÄ×¼È·ÐÔ¡£´ÓÊý¾ÝÁ÷µÄ½Ç¶È£¬Õû¸ö¹ý³ÌÈçÏÂÍ¼ËùÊ¾£º

Ä¿Ç°°´ÕÕÐ¡Ê±Á£¶ÈÉú³ÉÈÕÖ¾·ÖÇø£¬¼¸Ïî Flink ÈÎÎñÅäÖÃ²ÎÊýÈçÏÂ£º

checkpoint: 10 min
watermark: 1 min
partition.time-extractor.kind: ¡®custom¡¯
sink.partition-commit.delay: ¡®3600s¡¯
sink.partition-commit.policy.kind: ¡®metastore,success-file¡¯
sink.partition-commit.trigger: ¡®partition-time¡¯
4.2 DB

»ùÓÚÈÕÖ¾µÄ·½Ê½¶Ô DB Êý¾Ý½øÐÐ¼¯³É£¬ÒâÎ¶×ÅÐèÒª²É¼¯ DB µÄÈÕÖ¾Êý¾Ý£¬ÔÚÎÒÃÇÄ¿Ç°µÄÊµÏÖÖÐ TiDB »ùÓÚ Pump ºÍ Drainer ×é¼þ£¨Ä¿Ç°Éú²ú»·¾³Êý¾Ý¿â¼¯Èº°æ±¾ÔÝ²»Ö§³Ö¿ªÆô TICDC£©£¬MongoDB »ùÓÚ MongoShake ×é¼þ£¬²É¼¯µÄÊý¾Ý½«ÊäËÍÖÁ Kafka¡£

²ÉÓÃÕâÖÖ·½Ê½£¬Ò»·½Ãæ½µµÍÁËÒµÎñÊý¾Ý¿âµÄ²éÑ¯Ñ¹Á¦£¬ÁíÒ»·½Ãæ¿ÉÒÔ²¶×½Êý¾ÝµÄ±ä¸ü¹ý³Ì£¬Í¬Ê±ÈßÓàµÄÊý¾Ý´æ´¢Ò²Ïû³ýÁË¡£²»¹ýÓÉÓÚÔÊ¼Êý¾ÝÊÇÈÕÖ¾Êý¾Ý£¬ÐèÒªÍ¨¹ýÒ»¶¨µÄÊÖ¶Î»¹Ô³ö¿ìÕÕÊý¾Ý¡£ÐÂµÄÁ´Â·ÈçÏÂÍ¼ËùÊ¾£º

ÓÃ»§Ìá½»¼¯³ÉÈÎÎñºó½«Í¬²½´´½¨Èý¸öÈÎÎñ£º

[*] ÔöÁ¿ÈÎÎñ (Á÷)£º¡¸ÔöÁ¿ÈÎÎñ¡¹½« DB ÈÕÖ¾Êý¾ÝÓÉ Kafka Í¬²½ÖÁ Hive¡£ÓÉÓÚ²É¼¯×é¼þ¶¼ÊÇ°´ÕÕ¼¯ÈºÁ£¶È½øÐÐ²É¼¯£¬ÇÒ¼¯ÈºÊýÁ¿ÓÐÏÞ£¬Ä¿Ç°¶¼ÊÇÊÖ¶¯µÄ·½Ê½½«Í¬²½µÄÈÎÎñÔÚ¡¸ÊµÊ±¼ÆËãÆ½Ì¨¡¹´´½¨£¬¼¯³ÉÈÎÎñ´´½¨Ê±Ä¬ÈÏ¼Ù¶¨Í¬²½ÈÎÎñÒÑ¾ ready£¬´ý¡¸Êý¾ÝÍ¬²½Æ½Ì¨¡¹ÂäµØºó¿ÉÒÔÍ¬²½×ö¸ü¶àµÄ×Ô¶¯»¯²Ù×÷ºÍÐ£Ñé¡£
[*] ´æÁ¿ÈÎÎñ (Åú)£ºÒªÏë»¹Ô³ö¿ìÕÕÊý¾ÝÔòÖÁÉÙÐèÒªÒ»·Ý³õÊ¼µÄ¿ìÕÕÊý¾Ý£¬Òò´Ë¡¸´æÁ¿ÈÎÎñ¡¹µÄÄ¿µÄÊÇ´ÓÒµÎñÊý¾Ý¿âÀÈ¡¼¯³ÉÊ±Êý¾ÝµÄ³õÊ¼¿ìÕÕÊý¾Ý¡£
[*] Merge ÈÎÎñ (Åú)£º¡¸Merge ÈÎÎñ¡¹½«´æÁ¿Êý¾ÝºÍÔöÁ¿Êý¾Ý½øÐÐ¾ÛºÏÒÔ»¹Ô¿ìÕÕÊý¾Ý¡£»¹ÔºóµÄ¿ìÕÕÊý¾Ý¿É×÷ÎªÏÂÒ»ÈÕµÄ´æÁ¿£¬Òò´Ë¡¸´æÁ¿ÈÎÎñ¡¹Ö»Ðèµ÷¶ÈÖ´ÐÐÒ»´Î£¬»ñÈ¡³õÊ¼¿ìÕÕÊý¾Ý¼´¿É¡£

¡¸´æÁ¿ÈÎÎñ¡¹ºÍ¡¸Merge ÈÎÎñ¡¹ÓÉÀëÏßµ÷¶ÈÆ½Ì¨ Dolphinscheduler (¼ò³Æ DS) µ÷¶ÈÖ´ÐÐ£¬ÈÎÎñÖ´ÐÐ¹ý³ÌÖÐ½«´Ó¼¯³ÉÈÎÎñµÄÔªÊý¾Ý¿âÖÐ»ñÈ¡ËùÐèµÄÐÅÏ¢¡£Ä¿Ç°¡¸Merge ÈÎÎñ¡¹°´Ð¡Ê±Á£¶Èµ÷¶È£¬¼´Ã¿Ð¡Ê±»¹Ô¿ìÕÕÊý¾Ý¡£

´ÓÊý¾ÝÁ÷µÄ½Ç¶È£¬Õû¸ö¹ý³ÌÈçÏÂÍ¼ËùÊ¾£º

DB µÄÊý¾Ý¼¯³ÉÏà½ÏÓÚ Stat Log ¸´ÔÓÐÔ¸ß£¬½ÓÏÂÀ´ÒÔ TiDB µÄÊý¾Ý¼¯³ÉÎªÀý½²ÊöÉè¼Æ¹ý³ÌÖÐµÄÒ»Ð©Òªµã (MongoDB Á÷³ÌÀàËÆ£¬Çø±ðÔÚÓÚ´æÁ¿Í¬²½¹¤¾ß¼°Êý¾Ý½âÎö)¡£

¡ö 4.2.1 ÐèÇó±í´ï

¶ÔÓÚÓÃ»§¶øÑÔ£¬¼¯³ÉÈÎÎñÐèÒªÌá¹©ÒÔÏÂÁ½ÀàÐÅÏ¢£º

[*] TiDB Ô´ÐÅÏ¢£º°üÀ¨¼¯Èº¡¢¿â¡¢±í¡£
[*] ¼¯³É·½Ê½£º¼¯³É·½Ê½±íÊ¾µÄÊÇ¿ìÕÕÊý¾ÝµÄ¾ÛºÏÁ£¶È£¬°üÀ¨È«Á¿ºÍÔöÁ¿¡£È«Á¿±íÊ¾ÐèÒª½«´æÁ¿µÄ¿ìÕÕÊý¾ÝÓë½ñÈÕµÄÔöÁ¿ÈÕÖ¾Êý¾Ý¾ÛºÏ£¬¶øÔöÁ¿±íÊ¾Ö»ÐèÒª½«½ñÈÕµÄÔöÁ¿ÈÕÖ¾Êý¾Ý¾ÛºÏ (¼´±ãÔöÁ¿·½Ê½ÎÞÐèºÍ´æÁ¿µÄ¿ìÕÕÊý¾Ý¾ÛºÏ£¬µ«³õÊ¼´æÁ¿µÄ»ñÈ¡ÒÀ¾ÉÊÇÓÐ±ØÒªµÄ£¬¾ßÌåµÄÊ¹ÓÃÐÎÊ½ÓÉÊý²ÖÈËÔ±×ÔÐÐ¾ö¶¨)¡£

¡ö 4.2.2 ´æÁ¿ÈÎÎñ

´æÁ¿ÈÎÎñËäÈ»ÓÐÇÒ½öÖ´ÐÐÒ»´Î£¬µ«ÎªÁËÍêÈ«Ïû³ýÊý¾Ý¼¯³É¶ÔÒµÎñÊý¾Ý¿âµÄÓ°Ïì£¬ÎÒÃÇÑ¡ÔñÊý¾Ý¿âµÄ±¸·Ý-»Ö¸´»úÖÆÀ´ÊµÏÖ¡£¹«Ë¾ÄÚ²¿Êý¾Ý¿âµÄ±¸·ÝºÍ»Ö¸´²Ù×÷ÒÑ¾Æ½Ì¨»¯£¬¼¯Èº½«¶¨ÆÚ½øÐÐ±¸·Ý (ÌìÁ£¶È)£¬Í¨¹ýÆ½Ì¨¿ÉÒÔ²éÑ¯µ½¼¯ÈºµÄ×îÐÂ±¸·Ý£¬²¢ÇÒ¿ÉÓÉ½Ó¿Ú´¥·¢±¸·Ý»Ö¸´²Ù×÷£¬¹Ê´æÁ¿µÄ»ñÈ¡¿ÉÖ±½Ó×÷ÓÃÓÚ»Ö¸´µÄÊý¾Ý¿â¡£

ÓÉÓÚÊý¾Ý¿â±¸·ÝµÄÊ±¼äµãÓë¼¯³ÉÈÎÎñÌá½»µÄÊ±¼äµã²¢²»Ò»¶¨ÊÇÍ¬Ò»Ìì£¬ÕâÖ®¼ä´æÔÚ×ÅÒ»¶¨µÄÊ±¼ä²î½«µ¼ÖÂ´æÁ¿¿ìÕÕÊý¾Ý²»·ûºÏÎÒÃÇµÄÔ¤ÆÚ£¬¸÷Ê±¼äµãµÄ¹ØÏµÈçÏÂÍ¼ËùÊ¾£º

°´ÕÕÎÒÃÇµÄÉè¶¨£¬´æÁ¿¿ìÕÕÊý¾ÝÓ¦µ±ÊÇ°üº¬ T4 Ö®Ç°µÄÈ«²¿Êý¾Ý£¬¶øÊµ¼Ê±¸·ÝµÄ¿ìÕÕÊý¾Ý½ö°üº¬ T1 Ö®Ç°µÄÈ«²¿Êý¾Ý£¬ÕâÖ®¼ä´æÔÚÕâ N ÌìµÄÊý¾Ý²î¡£

×¢£ºÕâÀïÖ®ËùÒÔ²»ËµÊý¾Ý²î¼¯Îª T1 ÖÁ T4 Çø¼äµÄÊý¾Ý£¬ÊÇÒòÎªÔöÁ¿µÄ Binlog Êý¾ÝÊÇÒÔÕûµãÎª·ÖÇøµÄ£¬ÔÚ Merge µÄÊ±ºòÒ²ÊÇ½«ÕûµãµÄ·ÖÇøÊý¾ÝÓë´æÁ¿Êý¾Ý½øÐÐ¾ÛºÏ£¬²¢Ö§³ÖÁËÊý¾ÝÈ¥ÖØ¡£Òò´Ë T1 Ê±¿ÌµÄ´æÁ¿Êý¾ÝÓë T0-T3 Ö®¼äµÄÔöÁ¿Êý¾ÝµÄ Merge ½á¹ûµÈÐ§ÓÚ T0 Ê±¿ÌµÄ´æÁ¿Êý¾ÝÓë T0-T3 Ö®¼äµÄÔöÁ¿Êý¾ÝµÄ Merge ½á¹û¡£ËùÒÔ T1 ÖÁ T4 µÄÊý¾Ý²î¼¯µÈÐ§ T0 ÖÁ T3 µÄÊý¾Ý²î¼¯£¬¼´Í¼Ê¾ÖÐµÄ N ÌìÊý¾Ý¡£

¶ÔÓÚÈ±Ê§µÄÕâ²¿·ÖÊý¾ÝÊµÔòÊÇ¿ÉÒÔÔÚ¡¸´æÁ¿ÈÎÎñ¡¹ÖÐ½øÐÐ²¹È«£¬×ÐÏ¸·ÖÎöÕâÆäÊµÊÇ¿ÉÒÔÍ¨¹ýÖ´ÐÐµÄ ¡¸Merge ÈÎÎñ¡¹µÄ²¹Êý²Ù×÷ÊµÏÖ¡£

Õû¸ö¡¸´æÁ¿ÈÎÎñ¡¹µÄ¹¤×÷Á÷ÈçÏÂÍ¼ËùÊ¾£º

[*] Í¬²½´¥·¢Êý¾Ý¿âÆ½Ì¨½øÐÐ±¸·Ý»Ö¸´£¬²úÉú»ØÖ´ ID£»
[*] Í¨¹ý»ØÖ´ ID ÂÖÑµ±¸·Ý»Ö¸´×´Ì¬£¬»Ö¸´Ê§°ÜÐèÒª DBA ¶¨Î»Òì³££¬¹Ê½«ÏÂÏßÕû¸ö¹¤×÷Á÷£¬´ý»Ö¸´³É¹¦¿ÉÔÚÆ½Ì¨ÖØÐÂ»Ö¸´Ö´ÐÐ¡¸´æÁ¿ÈÎÎñ¡¹¡£»Ö¸´½øÐÐÖÐ£¬¹¤×÷Á÷Ö±½ÓÍË³ö£¬½èÖú DS ¶¨Ê±µ÷¶ÈµÈ´ýÏÂ´Î»½ÐÑ¡£»Ö¸´³É¹¦£¬½øÈëºóÐøÂß¼£»
[*] ´Ó»Ö¸´¿âÖÐÀÈ¡´æÁ¿£¬ÅÐ¶¨´æÁ¿ÊÇ·ñ´æÔÚÊý¾Ý²î£¬Èô´æÔÚÔòÖ´ÐÐ Merge ÈÎÎñµÄ²¹Êý²Ù×÷£¬Õû¸ö²Ù×÷¿ÉÃÝµÈÖ´ÐÐ£¬ÈçÈôÊ§°ÜÍË³ö´Ë´Î¹¤×÷Á÷£¬µÈ´ýÏÂ´Îµ÷¶È£»
[*] ³É¹¦£¬ÏÂÏßÕû¸ö¹¤×÷Á÷£¬ÈÎÎñÍê³É¡£

¡ö 4.2.3 Merge ÈÎÎñ

Merge ÈÎÎñµÄÇ°ÌáÊÇ´æÁ¿Êý¾ÝÓëÔöÁ¿Êý¾Ý¶¼ÒÑ¾ ready£¬ÎÒÃÇÍ¨¹ý _SUCCESS ÎÄ¼þ½øÐÐ±ê¼Ç¡£Õû¸ö¡¸Merge ÈÎÎñ¡¹µÄ¹¤×÷Á÷ÈçÏÂÍ¼ËùÊ¾£º

[*] Ð£ÑéÎÄ¼þ±ê¼ÇÊÇ·ñ´æÔÚ£¬Èô²»´æÔÚËµÃ÷Êý¾ÝÎ´ ready £¬½øÐÐ±¨¾¯²¢ÍË³ö¹¤×÷Á÷µÈ´ýÏÂ´Îµ÷¶È£»
[*] Ö´ÐÐ Merge ²Ù×÷£¬Ê§°Ü±¨¾¯²¢ÍË³ö¹¤×÷Á÷µÈ´ýÏÂ´Îµ÷¶È£»
[*] ³É¹¦£¬ÍË³ö¹¤×÷Á÷µÈ´ýÏÂ´Îµ÷¶È¡£

Merge ²Ù×÷Í¨¹ý Flink DataSet API ÊµÏÖ¡£ºËÐÄÂß¼ÈçÏÂ£º

¼ÓÔØ´æÁ¿¡¢ÔöÁ¿Êý¾Ý£¬Í³Ò»Êý¾Ý¸ñÊ½£¨ºËÐÄ×Ö¶Î£ºÖ÷¼ü Key ×÷ÎªÍ¬Ò»ÌõÊý¾ÝµÄ¾ÛºÏ×Ö¶Î£»CommitTs ±êÊ¶ binlog µÄÌá½»Ê±¼ä£¬´æÁ¿Êý¾ÝÄ¬ÈÏÎª 0 ÔçÓÚÔöÁ¿Êý¾Ý£»OpType ±êÊ¶Êý¾Ý²Ù×÷ÀàÐÍ£¬°üÀ¨£ºInsert¡¢Update¡¢Delete£¬´æÁ¿Êý¾ÝÄ¬ÈÏÎª Insert ÀàÐÍ£©£¬½«Á½·ÝÊý¾Ý½øÐÐ union£»

[*] °´ÕÕÖ÷¼ü¾ÛºÏ£»
[*] ±£Áô¾ÛºÏºó CommitTs ×î´óµÄÊý¾ÝÌõÄ¿£¬ÆäÓà¶ªÆú£»
[*] ¹ýÂË OpType Îª Delete ÀàÐÍµÄÊý¾ÝÌõÄ¿£»
[*] Êä³ö¾ÛºÏ½á¹û¡£

ºËÐÄ´úÂë£º

allMergedData.groupBy(x -> x.getKeyCols())
         .reduce(new ReduceFunction<MergeTransform>() {

            public MergeTransform reduce(MergeTransform value1, MergeTransform value2) throws Exception {
                  if (value1.getCommitTS() > value2.getCommitTS()){
                     return value1;
                  }
                  return value2;
            }
         })
         .filter(new FilterFunction<MergeTransform>() { //ÔöÁ¿£º¹ýÂËµô op=delete

            public boolean filter(MergeTransform merge) throws Exception {
                  if (merge.getOpType().equals(OPType.DELETE)){
                     return false;
                  }
                  return true;
            }
         })
         .map(x -> x.getHiveColsText())
         .writeAsText(outPath);

Ö÷ÒªË¼ÏëÎª¡¸ºóÀ´Õß¾ÓÉÏ¡¹£¬Õë¶ÔÓÚ Insert¡¢Update ²Ù×÷£¬×îÐÂÖµÖ±½Ó¸²¸Ç¾ÉÖµ£¬Õë¶Ô Delete ²Ù×÷£¬Ö±½Ó¶ªÆú¡£ÕâÖÖ·½Ê½Ò²ÌìÈ»µÄÊµÏÖÁËÊý¾ÝÈ¥ÖØ²Ù×÷¡£

¡ö 4.2.4 ÈÝ´íÐÔÓëÊý¾ÝÒ»ÖÂÐÔ±£Ö¤

ÎÒÃÇ´óÌå¿ÉÒÔ´ÓÈý¸öÈÎÎñ¹ÊÕÏ³¡¾°ÏÂµÄ´¦Àí·½Ê½À´ÑéÖ¤·½°¸µÄÈÝ´íÐÔ¡£

[*] ¡¸´æÁ¿ÈÎÎñ¡¹Òì³£Ê§°Ü£ºÍ¨³£ÊÇ±¸·Ý»Ö¸´Ê§°Üµ¼ÖÂ£¬DS ÈÎÎñ½«·¢ËÍÊ§°Ü±¨¾¯£¬Òò¡¸Êý¾Ý¿âÆ½Ì¨¡¹ÔÝ²»Ö§³Ö»Ö¸´ÖØÊÔ£¬ÐèÈË¹¤½éÈë´¦Àí¡£Í¬Ê±¡¸Merge ÈÎÎñ¡¹¼ì²â²»µ½´æÁ¿µÄ _SUCCESS ±ê¼Ç£¬¹¤×÷Á÷²»»áÏòºóÍÆ½ø¡£
[*] ¡¸ÔöÁ¿ÈÎÎñ¡¹Òì³£Ê§°Ü£ºFlink ×ÔÉíµÄÈÝ´í»úÖÆÒÔ¼°¡¸ÊµÊ±¼ÆËãÆ½Ì¨¡¹µÄÍâ²¿¼ì²â»úÖÆ±£ÕÏ¡¸ÔöÁ¿ÈÎÎñ¡¹µÄÈÝ´íÐÔ¡£ÈôÔÚ¡¸Merge ÈÎÎñ¡¹µ÷¶ÈÖ´ÐÐÆÚ¼ä¡¸ÔöÁ¿ÈÎÎñ¡¹ÉÐÎ´»Ö¸´£¬½«ÎóÒÔÎª¸ÃÐ¡Ê±ÎÞÔöÁ¿Êý¾ÝÌø¹ýÖ´ÐÐ£¬´ËÊ±Ïàµ±ÓÚ¿ìÕÕ¸üÐÂÑÓ³Ù£¨Merge ÊÇ½«È«ÌìµÄÔöÁ¿Êý¾ÝÓë´æÁ¿¾ÛºÏ£¬ÔÚÖ®ºóµÄµ÷¶ÈÊ±¼äµãÈç¹û¡¸ÔöÁ¿ÈÎÎñ¡¹»Ö¸´ÓÖ¿ÉÒÔ¾ÛºÏµÃµ½×îÐÂµÄ¿ìÕÕ£©£¬»òÕßÔÚ¡¸ÔöÁ¿ÈÎÎñ¡¹»Ö¸´ºó¿ÉÈËÎª´¥·¢¡¸Merge ÈÎÎñ¡¹²¹Êý¡£
[*] ¡¸Merge ÈÎÎñ¡¹Òì³£Ê§°Ü£ºÈÎÎñ¾ßÓÐÃÝµÈÐÔ£¬Í¨¹ýÉèÖÃ DS ÈÎÎñÊ§°ÜºóµÄÖØÊÔ»úÖÆ±£ÕÏÈÝ´íÐÔ£¬Í¬Ê±·¢ËÍÊ§°Ü±¨¾¯¡£

ÒÔÉÏ£¬Í¨¹ý×Ô¶¯»Ö¸´»úÖÆºÍ±¨¾¯»úÖÆÈ·±£ÁËÕû¸ö¹¤×÷Á÷µÄÕýÈ·Ö´ÐÐ¡£½ÓÏÂÀ´ÎÒÃÇ¿ÉÒÔ´ÓÊý¾ÝµÄ½Ç¶È¿´Ò»ÏÂ·½°¸¶ÔÓÚÒ»ÖÂÐÔµÄ±£ÕÏ¡£

Êý¾ÝµÄÒ»ÖÂÐÔÌåÏÖÔÚ Merge ²Ù×÷¡£Á½·ÝÊý¾Ý¾ÛºÏ£¬´Ó´úÂë²ãÃæÒ»¶¨¿ÉÒÔÈ·±£Ëã·¨µÄÕýÈ·ÐÔ (ÕâÊÇ¿ÉÑéÖ¤µÄ¡¢¿É²âÊÔµÄ)£¬ÄÇÃ´Î¨Ò»¿ÉÄÜµ¼ÖÂÊý¾Ý²»Ò»ÖÂµÄÇé¿ö³öÏÖÔÚÁ½·ÝÊäÈëµÄÊý¾ÝÉÏ£¬¼´´æÁ¿ºÍÔöÁ¿£¬´æÔÚÁ½ÖÖÇé¿ö£º

[*] ´æÁ¿ºÍÔöÁ¿Êý¾ÝÓÐ½»µþ£ºÌåÏÖÔÚ³õÊ¼´æÁ¿ÓëÕûµãµÄÔöÁ¿Êý¾Ý¾ÛºÏ³¡¾°£¬ÓÉÓÚËã·¨ÌìÈ»µÄÈ¥ÖØÐÔ¿ÉÒÔ±£Ö¤Êý¾ÝµÄÒ»ÖÂ¡£
[*] ´æÁ¿ºÍÔöÁ¿Êý¾ÝÓÐÈ±Ê§£ºÌåÏÖÔÚÔöÁ¿Êý¾ÝµÄÈ±Ê§ÉÏ£¬¶øÔöÁ¿Êý¾ÝÊÇÓÉ Flink ½« Kafka Êý¾ÝÐ´Èë Hive µÄ£¬Õâ¸ö¹ý³ÌÖÐÊÇÓÐÒ»¶¨µÄ¿ÉÄÜÐÔÔì³ÉÊý¾ÝµÄ²»Ò»ÖÂ£¬¼´·ÖÇøÌá½»ºóµÄÂÒÐòÊý¾Ý¡£ËäÈ»ËµÂÒÐòÊý¾Ýµ½À´ºóµÄÏÂÒ»´Î checkpoint Ê±¼äµã·ÖÇø½«ÔÙ´ÎÌá½»£¬µ«ÏÂÓÎÈÎÎñÒ»°ãÊÇ¼ì²âµ½Ê×´Î·ÖÇøÌá½»¾Í»á´¥·¢Ö´ÐÐ£¬Ôì³ÉÏÂÓÎÈÎÎñµÄÊý¾Ý²»Ò»ÖÂ¡£

Õë¶Ô Flink Á÷Ê½Ð´ Hive ¹ý³ÌÖÐµÄÂÒÐòÊý¾Ý´¦Àí¿ÉÒÔ²ÉÈ¡Á½ÖÖÊÖ¶Î£º

[*] Ò»ÊÇ Kafka ÉèÖÃµ¥·ÖÇø£¬¶à·ÖÇøÊÇ²úÉúµ¼ÖÂÂÒÐòµÄ¸ùÒò£¬Í¨¹ý±ÜÃâ¶à·ÖÇøÏû³ýÊý¾ÝÂÒÐò¡£
[*] ¶þÊÇ±¨¾¯²¹³¥£¬ÂÒÐòÒ»µ©²úÉúÁ÷Ê½ÈÎÎñÊÇÎÞ·¨ÍêÈ«±ÜÃâµÄ (¿ÉÍ¨¹ý watermark ÉèÖÃÂÒÐòÈÝÈÌÊ±¼ä£¬µ«ÖÕÓÐÒ»¸ö½çÏÞ)£¬ÄÇÃ´Ö»ÄÜÍ¨¹ý±¨¾¯×öÊÂºó²¹³¥¡£

ÎÊÌâ×ª»»³ÉÁËÈçºÎ¸ÐÖªµ½ÂÒÐò£¬ÎÒÃÇ¿ÉÒÔ½øÒ»²½·ÖÎö£¬¼ÈÈ»ÂÒÐòÊý¾Ý»á´¥·¢Ç°Ò»¸ö·ÖÇøµÄ¶þ´ÎÌá½»£¬ÄÇÃ´Ö»ÐèÒªÔÚÌá½»·ÖÇøµÄÊ±ºò¼ì²âÇ°Ò»¸ö·ÖÇøÊÇ·ñ´æÔÚ _SUCCESS ±ê¼Ç±ã¿ÉÒÔÖªÏþÊÇ·ñÊÇÂÒÐòÊý¾ÝÒÔ¼°´¥·¢±¨¾¯¡£

Îå¡¢ÏßÉÏÐ§¹û

×ÜÀÀ

´æÁ¿ÈÎÎñ

Merge ÈÎÎñ

Áù¡¢×Ü½á

±¾ÎÄ²ûÊöÁË°éÓã¡¸Êý¾Ý¼¯³ÉÆ½Ì¨¡¹ºËÐÄÉè¼ÆË¼Â·£¬Õû¸ö·½°¸»¹ÓÐÒ»Ð©Ï¸½ÚÎ´ÔÚÎÄÕÂÖÐÌåÏÖ£¬ÈçÊý¾Ý Schema µÄ±ä¸ü¡¢DB ÈÕÖ¾Êý¾ÝµÄ½âÎöµÈ£¬ÕâÐ©Ï¸½Ú¶ÔÓÚÆ½Ì¨¹¹½¨Ò²ÖÁ¹ØÖØÒª¡£Ä¿Ç°°éÓã¾ø´ó²¿·ÖµÄ¼¯³ÉÈÎÎñÒÑÇÐ»»ÖÁÐÂµÄ·½Ê½²¢ÎÈ¶¨ÔËÐÐ¡£ÎÒÃÇÒ²ÕýÔÚÍÆ½øÊµÊ±Êý²Ö¼¯³ÉÈÎÎñµÄ½ÓÈë£¬ÒÔÌá¹©¸üÍ³Ò»µÄÌåÑé¡£

×÷Õß£ºÀî»Ô@°éÓã
À´Ô´£ºhttps://mp.weixin.qq.com/s/THWRYEgfXwP6-pRYFQorkg

×îÐÂ¾µäÎÄÕÂ£¬»¶Ó¹Ø×¢¹«ÖÚºÅhttp://www.aboutyun.com/data/attachment/forum/201903/18/215536lzpn7n3u7m7u90vm.jpg

Ò³: [1]

AboutÔÆ-ËóÂ×¿Æ¼¼'s Archiver

°éÓã»ùÓÚ Flink ¹¹½¨Êý¾Ý¼¯³ÉÆ½Ì¨µÄÉè¼ÆÓëÊµÏÖ