È«ÃæÁË½âFlume°üÀ¨°¸Àý-Flume-AboutÔÆ-ËóÂ×¿Æ¼¼

BGnv5 ·¢±íÓÚ 2019-4-13 10:18:52

È«ÃæÁË½âFlume°üÀ¨°¸Àý

ÎÊÌâµ¼¶Á

1.Ê²Ã´ÊÇFlume£¿2.Flume×é³É¼Ü¹¹°üÀ¨ÄÄÐ©£¿3.FlumeÍØÆË½á¹¹ÊÇÔõÑùµÄ£¿4.Flume AgentÄÚ²¿ÔÀíÊÇÔõÑùµÄ£¿5.HadoopÈý´ó·¢ÐÐ°æ±¾ÊÇÊ²Ã´£¿6.FlumeµÄÔõÃ´°²×°£¿7.FlumeÆóÒµÊÇÈçºÎ¿ª·¢µÄ£¿8.GangliaÊÇÈçºÎ°²×°Óë²¿Êð£¿9.ÈçºÎ²Ù×÷Flume²âÊÔ¼à¿Ø£¿10.×Ô¶¨ÒåMySQLSourceËµÃ÷¡¢×é³ÉºÍ²½ÖèÊÇÔõÑùµÄ£¿11.³£¼ûÕýÔò±í´ïÊ½Óï·¨ÓÐÄÄÐ©£¿12.ÄãÊÇÈçºÎÊµÏÖFlumeÊý¾Ý´«ÊäµÄ¼à¿ØµÄ£¿13. FlumeµÄSource£¬Sink£¬ChannelµÄ×÷ÓÃÊÇÊ²Ã´£¿ÄãÃÇSourceÊÇÊ²Ã´ÀàÐÍ£¿14.Flume²É¼¯Êý¾Ý»á¶ªÊ§Âð£¿15. FlumeµÄChannel Selectors¡¢²ÎÊýµ÷ÓÅ¡¢ÊÂÎñ»úÖÆÊÇÔõÑùµÄ£¿

µÚ1ÕÂ Flume¸ÅÊö

1.1 Flume¶¨Òå

Flume(Ë®²Û) ÊÇ Cloudera Ìá¹©µÄÒ»¸ö¸ß¿ÉÓÃµÄ£¬¸ß¿É¿¿µÄ£¬·Ö²¼Ê½µÄº£Á¿ÈÕÖ¾²É¼¯¡¢¾ÛºÏºÍ´«ÊäµÄÏµÍ³¡£Flume»ùÓÚÁ÷Ê½¼Ü¹¹£¬Áé»î¼òµ¥¡£

ÔÚ2009ÄêFlume±»¾èÔùÁËapacheÈí¼þ»ù½ð»á£¬ÎªhadoopÏà¹Ø×é¼þÖ®Ò»¡£ÓÈÆä½ü¼¸ÄêËæ×ÅflumeµÄ²»¶Ï±»ÍêÉÆÒÔ¼°Éý¼¶°æ±¾µÄÖðÒ»ÍÆ³ö£¬ÌØ±ðÊÇflume-ng;£¬Í¬Ê±flumeÄÚ²¿µÄ¸÷ÖÖ×é¼þ²»¶Ï·á¸»£¬ÓÃ»§ÔÚ¿ª·¢µÄ¹ý³ÌÖÐÊ¹ÓÃµÄ±ãÀûÐÔµÃµ½ºÜ´óµÄ¸ÄÉÆ£¬ÏÖÒÑ³ÉÎªapache topÏîÄ¿Ö®Ò»¡£

1.2 Flume×é³É¼Ü¹¹Flume×é³É¼Ü¹¹ÈçÏÂÍ¼ËùÊ¾£º

Flume×é³É¼Ü¹¹

ÏÂÃæÎÒÃÇÀ´ÏêÏ¸½éÉÜÒ»ÏÂFlume¼Ü¹¹ÖÐµÄ×é¼þ¡£

1.2.1 Agent

AgentÊÇÒ»¸öJVM½ø³Ì£¬ËüÒÔÊÂ¼þµÄÐÎÊ½½«Êý¾Ý´ÓÔ´Í·ËÍÖÁÄ¿µÄµØ£¬ÊÇFlumeÊý¾Ý´«ÊäµÄ»ù±¾µ¥Ôª¡£

AgentÖ÷ÒªÓÐ3¸ö²¿·Ö×é³É£¬Source¡¢Channel¡¢Sink¡£

1.2.2 Source
SourceÊÇ¸ºÔð½ÓÊÕÊý¾Ýµ½Flume AgentµÄ×é¼þ¡£Source×é¼þ¿ÉÒÔ´¦Àí¸÷ÖÖÀàÐÍ¡¢¸÷ÖÖ¸ñÊ½µÄÈÕÖ¾Êý¾Ý£¬°üÀ¨avro¡¢thrift¡¢exec(LinuxÃüÁî)¡¢jms¡¢spooling directory¡¢netcat¡¢sequence generator¡¢syslog¡¢http¡¢legacy¡£

1.2.3 Channel

ChannelÊÇÎ»ÓÚSourceºÍSinkÖ®¼äµÄ»º³åÇø¡£Òò´Ë£¬ChannelÔÊÐíSourceºÍSinkÔË×÷ÔÚ²»Í¬µÄËÙÂÊÉÏ¡£ChannelÊÇÏß³Ì°²È«µÄ£¬¿ÉÒÔÍ¬Ê±´¦Àí¼¸¸öSourceµÄÐ´Èë²Ù×÷ºÍ¼¸¸öSinkµÄ¶ÁÈ¡²Ù×÷¡£
Flume×Ô´øÁ½ÖÖChannel£ºMemory Channel ºÍ File Channel¡£

Memory ChannelÊÇÄÚ´æÖÐµÄ¶ÓÁÐ¡£Memory Channel ÔÚ²»ÐèÒª¹ØÐÄÊý¾Ý¶ªÊ§µÄÇé¾°ÏÂÊÊÓÃ¡£Èç¹ûÐèÒª¹ØÐÄÊý¾Ý¶ªÊ§£¬ÄÇÃ´Memory Channel¾Í²»Ó¦¸ÃÊ¹ÓÃ£¬ÒòÎª³ÌÐòËÀÍö¡¢»úÆ÷å´»ú»òÕßÖØÆô¶¼»áµ¼ÖÂÊý¾Ý¶ªÊ§¡£

File Channel½«ËùÓÐÊÂ¼þÐ´µ½´ÅÅÌ¡£Òò´ËÔÚ³ÌÐò¹Ø±Õ»ò»úÆ÷å´»úµÄÇé¿öÏÂ²»»á¶ªÊ§Êý¾Ý¡£

1.2.4 Sink

Sink²»¶ÏµØÂÖÑ¯ChannelÖÐµÄÊÂ¼þÇÒÅúÁ¿µØÒÆ³ýËüÃÇ£¬²¢½«ÕâÐ©ÊÂ¼þÅúÁ¿Ð´Èëµ½´æ´¢»òË÷ÒýÏµÍ³¡¢»òÕß±»·¢ËÍµ½ÁíÒ»¸öFlume Agent¡£

SinkÊÇÍêÈ«ÊÂÎñÐÔµÄ¡£ÔÚ´ÓChannelÅúÁ¿É¾³ýÊý¾ÝÖ®Ç°£¬Ã¿¸öSinkÓÃChannelÆô¶¯Ò»¸öÊÂÎñ¡£ÅúÁ¿ÊÂ¼þÒ»µ©³É¹¦Ð´³öµ½´æ´¢ÏµÍ³»òÏÂÒ»¸öFlume Agent£¬Sink¾ÍÀûÓÃChannelÌá½»ÊÂÎñ¡£ÊÂÎñÒ»µ©±»Ìá½»£¬¸ÃChannel´Ó×Ô¼ºµÄÄÚ²¿»º³åÇøÉ¾³ýÊÂ¼þ¡£

Sink×é¼þÄ¿µÄµØ°üÀ¨hdfs¡¢logger¡¢avro¡¢thrift¡¢ipc¡¢file¡¢null¡¢HBase¡¢solr¡¢×Ô¶¨Òå¡£

1.2.5 Event

´«Êäµ¥Ôª£¬FlumeÊý¾Ý´«ÊäµÄ»ù±¾µ¥Ôª£¬ÒÔÊÂ¼þµÄÐÎÊ½½«Êý¾Ý´ÓÔ´Í·ËÍÖÁÄ¿µÄµØ¡£

1.3 FlumeÍØÆË½á¹¹

FlumeµÄÍØÆË½á¹¹ÈçÏÂÍ¼ËùÊ¾£º

Flume AgentÁ¬½Ó

µ¥source£¬¶àchannel¡¢sink

Flume¸ºÔØ¾ùºâ

Flume Agent¾ÛºÏ

1.4 Flume AgentÄÚ²¿ÔÀí

1.5 HadoopÈý´ó·¢ÐÐ°æ±¾

Hadoop£¨¹þµÀÆÕ£©Èý´ó·¢ÐÐ°æ±¾£ºApache¡¢Cloudera¡¢Hortonworks¡£
Apache °æ±¾×îÔÊ¼£¨×î»ù´¡£©µÄ°æ±¾£¬¶ÔÓÚÈëÃÅÑ§Ï°×îºÃ¡£
Cloudera ÔÚ´óÐÍ»¥ÁªÍøÆóÒµÖÐÓÃµÄ½Ï¶à¡££¨¼ò³Æ£ºCDH°æ£¬ÊÕ·Ñ£©
Hortonworks ÎÄµµ½ÏºÃ¡£

1¡¢Apache Hadoop
¹ÙÍøµØÖ·£ºhttp://hadoop.apache.org/releases.html
ÏÂÔØµØÖ·£ºhttps://archive.apache.org/dist/hadoop/common/

2¡¢Cloudera Hadoop
¹ÙÍøµØÖ·£ºhttps://www.cloudera.com/downloads/cdh/5-10-0.html
ÏÂÔØµØÖ·£ºhttp://archive-primary.cloudera.com/cdh5/cdh/5/

£¨1£©2008Äê³ÉÁ¢µÄClouderaÊÇ×îÔç½«HadoopÉÌÓÃµÄ¹«Ë¾£¬ÎªºÏ×÷»ï°éÌá¹©HadoopµÄÉÌÓÃ½â¾ö·½°¸£¬Ö÷ÒªÊÇ°üÀ¨Ö§³Ö¡¢×ÉÑ¯·þÎñ¡¢ÅàÑµ¡£
£¨2£©2009ÄêHadoopµÄ´´Ê¼ÈËDoug CuttingÒ²¼ÓÃËCloudera¹«Ë¾¡£Cloudera²úÆ·Ö÷ÒªÎªCDH£¬Cloudera Manager£¬Cloudera Support¡£
£¨3£©CDHÊÇClouderaµÄHadoop·¢ÐÐ°æ£¬ÍêÈ«¿ªÔ´£¬±ÈApache HadoopÔÚ¼æÈÝÐÔ£¬°²È«ÐÔ£¬ÎÈ¶¨ÐÔÉÏÓÐËùÔöÇ¿¡£
£¨4£©Cloudera ManagerÊÇ¼¯ÈºµÄÈí¼þ·Ö·¢¼°¹ÜÀí¼à¿ØÆ½Ì¨£¬¿ÉÒÔÔÚ¼¸¸öÐ¡Ê±ÄÚ²¿ÊðºÃÒ»¸öHadoop¼¯Èº£¬²¢¶Ô¼¯ÈºµÄ½Úµã¼°·þÎñ½øÐÐÊµÊ±¼à¿Ø¡£Cloudera Support¼´ÊÇ¶ÔHadoopµÄ¼¼ÊõÖ§³Ö¡£
£¨5£©ClouderaµÄ±ê¼ÛÎªÃ¿ÄêÃ¿¸ö½Úµã4000ÃÀÔª¡£Cloudera¿ª·¢²¢¹±Ï×ÁË¿ÉÊµÊ±´¦Àí´óÊý¾ÝµÄImpalaÏîÄ¿¡£

3¡¢Hortonworks Hadoop
¹ÙÍøµØÖ·£ºhttps://hortonworks.com/products/data-center/hdp/
ÏÂÔØµØÖ·£ºhttps://hortonworks.com/downloads/#data-platform

£¨1£©2011Äê³ÉÁ¢µÄHortonworksÊÇÑÅ»¢Óë¹è¹È·çÍ¶¹«Ë¾Benchmark CapitalºÏ×Ê×é½¨¡£
£¨2£©¹«Ë¾³ÉÁ¢Ö®³õ¾ÍÎüÄÉÁË´óÔ¼25ÃûÖÁ30Ãû×¨ÃÅÑÐ¾¿HadoopµÄÑÅ»¢¹¤³ÌÊ¦£¬ÉÏÊö¹¤³ÌÊ¦¾ùÔÚ2005Äê¿ªÊ¼ÐÖúÑÅ»¢¿ª·¢Hadoop£¬¹±Ï×ÁËHadoop80%µÄ´úÂë¡£
£¨3£©ÑÅ»¢¹¤³Ì¸±×Ü²Ã¡¢ÑÅ»¢Hadoop¿ª·¢ÍÅ¶Ó¸ºÔðÈËEric Baldeschwieler³öÈÎHortonworksµÄÊ×Ï¯Ö´ÐÐ¹Ù¡£
£¨4£©HortonworksµÄÖ÷´ò²úÆ·ÊÇHortonworks Data Platform£¨HDP£©£¬Ò²Í¬ÑùÊÇ100%¿ªÔ´µÄ²úÆ·£¬HDP³ý³£¼ûµÄÏîÄ¿Íâ»¹°üÀ¨ÁËAmbari£¬Ò»¿î¿ªÔ´µÄ°²×°ºÍ¹ÜÀíÏµÍ³¡£
£¨5£©HCatalog£¬Ò»¸öÔªÊý¾Ý¹ÜÀíÏµÍ³£¬HCatalogÏÖÒÑ¼¯³Éµ½Facebook¿ªÔ´µÄHiveÖÐ¡£HortonworksµÄStinger¿ª´´ÐÔµÄ¼«´óµÄÓÅ»¯ÁËHiveÏîÄ¿¡£HortonworksÎªÈëÃÅÌá¹©ÁËÒ»¸ö·Ç³£ºÃµÄ£¬Ò×ÓÚÊ¹ÓÃµÄÉ³ºÐ¡£
£¨6£©Hortonworks¿ª·¢ÁËºÜ¶àÔöÇ¿ÌØÐÔ²¢Ìá½»ÖÁºËÐÄÖ÷¸É£¬ÕâÊ¹µÃApache HadoopÄÜ¹»ÔÚ°üÀ¨Window ServerºÍWindows AzureÔÚÄÚµÄMicrosoft WindowsÆ½Ì¨ÉÏ±¾µØÔËÐÐ¡£¶¨¼ÛÒÔ¼¯ÈºÎª»ù´¡£¬Ã¿10¸ö½ÚµãÃ¿ÄêÎª12500ÃÀÔª¡£

µÚ2ÕÂ Flume¿ìËÙÈëÃÅ

2.1 Flume°²×°µØÖ·

1£© Flume¹ÙÍøµØÖ·
http://flume.apache.org/
2£©ÎÄµµ²é¿´µØÖ·
http://flume.apache.org/FlumeUserGuide.html
3£©ÏÂÔØµØÖ·
http://archive.apache.org/dist/flume/

2.2 °²×°²¿Êð

1£©½«apache-flume-1.7.0-bin.tar.gzÉÏ´«µ½linuxµÄ/opt/softwareÄ¿Â¼ÏÂ

2£©½âÑ¹apache-flume-1.7.0-bin.tar.gzµ½/opt/module/Ä¿Â¼ÏÂ
$ tar -zxf apache-flume-1.7.0-bin.tar.gz -C /opt/module/

3£©ÐÞ¸Äapache-flume-1.7.0-binµÄÃû³ÆÎªflume
$ mv apache-flume-1.7.0-bin flume

4£©½«flume/confÏÂµÄflume-env.sh.templateÎÄ¼þÐÞ¸ÄÎªflume-env.sh£¬²¢ÅäÖÃflume-env.shÎÄ¼þ
$ mv flume-env.sh.template flume-env.sh
$ vim flume-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

µÚ3ÕÂ FlumeÆóÒµ¿ª·¢°¸Àý

3.1 ¼à¿Ø¶Ë¿ÚÊý¾Ý¹Ù·½°¸Àý

1£©°¸ÀýÐèÇó£ºÊ×ÏÈ£¬Flume¼à¿Ø±¾»ú44444¶Ë¿Ú£¬È»ºóÍ¨¹ýtelnet¹¤¾ßÏò±¾»ú44444¶Ë¿Ú·¢ËÍÏûÏ¢£¬×îºóFlume½«¼àÌýµÄÊý¾ÝÊµÊ±ÏÔÊ¾ÔÚ¿ØÖÆÌ¨¡£

2£©ÐèÇó·ÖÎö£º

3£©ÊµÏÖ²½Öè£º

1£®°²×°telnet¹¤¾ß
½«rpmÈí¼þ°ü(xinetd-2.3.14-40.el6.x86_64.rpm¡¢telnet-0.17-48.el6.x86_64.rpmºÍtelnet-server-0.17-48.el6.x86_64.rpm)¿½Èë/opt/softwareÎÄ¼þ¼ÐÏÂÃæ¡£Ö´ÐÐRPMÈí¼þ°ü°²×°ÃüÁî£º
$ sudo rpm -ivh xinetd-2.3.14-40.el6.x86_64.rpm
$ sudo rpm -ivh telnet-0.17-48.el6.x86_64.rpm
$ sudo rpm -ivh telnet-server-0.17-48.el6.x86_64.rpm

2£®ÅÐ¶Ï44444¶Ë¿ÚÊÇ·ñ±»Õ¼ÓÃ
$ sudo netstat -tunlp | grep 44444

¹¦ÄÜÃèÊö£ºnetstatÃüÁîÊÇÒ»¸ö¼à¿ØTCP/IPÍøÂçµÄ·Ç³£ÓÐÓÃµÄ¹¤¾ß£¬Ëü¿ÉÒÔÏÔÊ¾Â·ÓÉ±í¡¢Êµ¼ÊµÄÍøÂçÁ¬½ÓÒÔ¼°Ã¿Ò»¸öÍøÂç½Ó¿ÚÉè±¸µÄ×´Ì¬ÐÅÏ¢¡£
»ù±¾Óï·¨£ºnetstat [Ñ¡Ïî]
Ñ¡Ïî²ÎÊý£º
-t»ò¨Ctcp£ºÏÔÊ¾TCP´«ÊäÐÒéµÄÁ¬Ïß×´¿ö£»
-u»ò¨Cudp£ºÏÔÊ¾UDP´«ÊäÐÒéµÄÁ¬Ïß×´¿ö£»
-n»ò¨Cnumeric£ºÖ±½ÓÊ¹ÓÃipµØÖ·£¬¶ø²»Í¨¹ýÓòÃû·þÎñÆ÷£»
-l»ò¨Clistening£ºÏÔÊ¾¼à¿ØÖÐµÄ·þÎñÆ÷µÄSocket£»
-p»ò¨Cprograms£ºÏÔÊ¾ÕýÔÚÊ¹ÓÃSocketµÄ³ÌÐòÊ¶±ðÂëºÍ³ÌÐòÃû³Æ£»

3£®´´½¨Flume AgentÅäÖÃÎÄ¼þflume-telnet-logger.conf
ÔÚflumeÄ¿Â¼ÏÂ´´½¨jobÎÄ¼þ¼Ð²¢½øÈëjobÎÄ¼þ¼Ð¡£
$ pwd
/opt/module/flume
$ mkdir job
$ cd job/

ÔÚjobÎÄ¼þ¼ÐÏÂ´´½¨Flume AgentÅäÖÃÎÄ¼þflume-telnet-logger.conf
$ touch flume-telnet-logger.conf

ÔÚflume-telnet-logger.confÎÄ¼þÖÐÌí¼ÓÈçÏÂÄÚÈÝ£º
$ vim flume-telnet-logger.conf

Ìí¼ÓÄÚÈÝÈçÏÂ£º
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# Describe the sink
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

×¢£ºÅäÖÃÎÄ¼þÀ´Ô´ÓÚ¹Ù·½ÊÖ²á£ºhttp://flume.apache.org/FlumeUserGuide.html

4. ÏÈ¿ªÆôflume¼àÌý¶Ë¿Ú
$ bin/flume-ng agent --conf conf/ --name a1 --conf-file job/flume-telnet-logger.conf -Dflume.root.logger=INFO,console

²ÎÊýËµÃ÷£º
--conf conf/ £º±íÊ¾ÅäÖÃÎÄ¼þ´æ´¢ÔÚconf/Ä¿Â¼
--name a1 £º±íÊ¾¸øagentÆðÃûÎªa1£¨ÒªÓëÅäÖÃÎÄ¼þÒ»ÖÂ£©
--conf-file job/flume-telnet.conf £ºflume±¾´ÎÆô¶¯¶ÁÈ¡µÄÅäÖÃÎÄ¼þÊÇÔÚjobÎÄ¼þ¼ÐÏÂµÄflume-telnet.confÎÄ¼þ
-Dflume.root.logger==INFO,console £º-D±íÊ¾flumeÔËÐÐÊ±¶¯Ì¬ÐÞ¸Äflume.root.logger²ÎÊýÊôÐÔÖµ£¬²¢½«¿ØÖÆÌ¨ÈÕÖ¾´òÓ¡¼¶±ðÉèÖÃÎªINFO¼¶±ð¡£ÈÕÖ¾¼¶±ð°üÀ¨:log¡¢info¡¢warn¡¢error

5£®Ê¹ÓÃtelnet¹¤¾ßÏò±¾»úµÄ44444¶Ë¿Ú·¢ËÍÄÚÈÝ
$ telnet localhost 44444

ÈçÏÂÍ¼ËùÊ¾£º

6£®ÔÚFlume¼àÌýÒ³Ãæ¹Û²ì½ÓÊÕÊý¾ÝÇé¿ö

3.2 ÊµÊ±¶ÁÈ¡±¾µØÎÄ¼þµ½HDFS°¸Àý

1£©°¸ÀýÐèÇó£ºÊµÊ±¼à¿ØHiveÈÕÖ¾£¬²¢ÉÏ´«µ½HDFSÖÐ¡££¨Êµ¼Ê¿ª·¢ÖÐÊÇtomcatÖÐ²úÉúµÄÈÕÖ¾£º¶©µ¥ÈÕÖ¾¡¢µã»÷Á÷ÈÕÖ¾µÈ£©

2£©ÐèÇó·ÖÎö£º

3£©ÊµÏÖ²½Öè£º

1£®FlumeÒªÏë½«Êý¾ÝÊä³öµ½HDFS£¬±ØÐë³ÖÓÐHadoopÏà¹Øjar°ü
½«
commons-configuration-1.6.jar
hadoop-auth-2.7.2.jar
hadoop-common-2.7.2.jar
hadoop-hdfs-2.7.2.jar
commons-io-2.4.jar
htrace-core-3.1.0-incubating.jar

¿½±´µ½/opt/module/flume/libÎÄ¼þ¼ÐÏÂ¡£

2£®´´½¨flume-file-hdfs.confÎÄ¼þ
´´½¨ÎÄ¼þ
$ touch flume-file-hdfs.conf

×¢£ºÒªÏë¶ÁÈ¡LinuxÏµÍ³ÖÐµÄÎÄ¼þ£¬¾ÍµÃ°´ÕÕLinuxÃüÁîµÄ¹æÔòÖ´ÐÐÃüÁî¡£ÓÉÓÚHiveÈÕÖ¾ÔÚLinuxÏµÍ³ÖÐ£¬ËùÒÔ¶ÁÈ¡ÎÄ¼þµÄÀàÐÍÑ¡Ôñ£ºexec¼´executeÖ´ÐÐµÄÒâË¼¡£±íÊ¾Ö´ÐÐLinuxÃüÁîÀ´¶ÁÈ¡ÎÄ¼þ¡£
$ vim flume-file-hdfs.conf

Ìí¼ÓÈçÏÂÄÚÈÝ£º
# Name the components on this agent
a2.sources = r2
a2.sinks = k2
a2.channels = c2

# Describe/configure the source
a2.sources.r2.type = exec
a2.sources.r2.command = tail -F /opt/module/hive/logs/hive.log
a2.sources.r2.shell = /bin/bash -c

# Describe the sink
a2.sinks.k2.type = hdfs
a2.sinks.k2.hdfs.path = hdfs://hadoop102:9000/flume/%Y%m%d/%H
#ÉÏ´«ÎÄ¼þµÄÇ°×º
a2.sinks.k2.hdfs.filePrefix = logs-
#ÊÇ·ñ°´ÕÕÊ±¼ä¹ö¶¯ÎÄ¼þ¼Ð
a2.sinks.k2.hdfs.round = true
#¶àÉÙÊ±¼äµ¥Î»´´½¨Ò»¸öÐÂµÄÎÄ¼þ¼Ð
a2.sinks.k2.hdfs.roundValue = 1
#ÖØÐÂ¶¨ÒåÊ±¼äµ¥Î»
a2.sinks.k2.hdfs.roundUnit = hour
#ÊÇ·ñÊ¹ÓÃ±¾µØÊ±¼ä´Á
a2.sinks.k2.hdfs.useLocalTimeStamp = true
#»ýÔÜ¶àÉÙ¸öEvent²Åflushµ½HDFSÒ»´Î
a2.sinks.k2.hdfs.batchSize = 1000
#ÉèÖÃÎÄ¼þÀàÐÍ£¬¿ÉÖ§³ÖÑ¹Ëõ
a2.sinks.k2.hdfs.fileType = DataStream
#¶à¾ÃÉú³ÉÒ»¸öÐÂµÄÎÄ¼þ
a2.sinks.k2.hdfs.rollInterval = 600
#ÉèÖÃÃ¿¸öÎÄ¼þµÄ¹ö¶¯´óÐ¡
a2.sinks.k2.hdfs.rollSize = 134217700
#ÎÄ¼þµÄ¹ö¶¯ÓëEventÊýÁ¿ÎÞ¹Ø
a2.sinks.k2.hdfs.rollCount = 0
#×îÐ¡ÈßÓàÊý
a2.sinks.k2.hdfs.minBlockReplicas = 1

# Use a channel which buffers events in memory
a2.channels.c2.type = memory
a2.channels.c2.capacity = 1000
a2.channels.c2.transactionCapacity = 100

# Bind the source and sink to the channel
a2.sources.r2.channels = c2
a2.sinks.k2.channel = c2

ÅäÖÃÎÄ¼þ½âÎö£º

3£®Ö´ÐÐ¼à¿ØÅäÖÃ
$ bin/flume-ng agent --conf conf/ --name a2 --conf-file job/flume-file-hdfs.conf

4£®¿ªÆôHadoopºÍHive²¢²Ù×÷Hive²úÉúÈÕÖ¾
$ sbin/start-dfs.sh
$ sbin/start-yarn.sh
$ bin/hive
hive (default)>

5£®ÔÚHDFSÉÏ²é¿´ÎÄ¼þ¡£

3.3 ÊµÊ±¶ÁÈ¡Ä¿Â¼ÎÄ¼þµ½HDFS°¸Àý

1£©°¸ÀýÐèÇó£ºÊ¹ÓÃFlume¼àÌýÕû¸öÄ¿Â¼µÄÎÄ¼þ¡£

2£©ÐèÇó·ÖÎö£º

3£©ÊµÏÖ²½Öè£º

1£®´´½¨ÅäÖÃÎÄ¼þflume-dir-hdfs.conf
´´½¨Ò»¸öÎÄ¼þ
$ touch flume-dir-hdfs.conf

´ò¿ªÎÄ¼þ
$ vim flume-dir-hdfs.conf

Ìí¼ÓÈçÏÂÄÚÈÝ£º
# Name the components on this agent
a3.sources = r3
a3.sinks = k3
a3.channels = c3

# Describe/configure the source
a3.sources.r3.type = spooldir
a3.sources.r3.spoolDir = /opt/module/flume/upload
a3.sources.r3.fileSuffix = .COMPLETED
a3.sources.r3.fileHeader = true
#ºöÂÔËùÓÐÒÔ.tmp½áÎ²µÄÎÄ¼þ£¬²»ÉÏ´«
a3.sources.r3.ignorePattern = ([^ ]*\.tmp)

# Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = hdfs://hadoop102:9000/flume/upload/%Y%m%d/%H
#ÉÏ´«ÎÄ¼þµÄÇ°×º
a3.sinks.k3.hdfs.filePrefix = upload-
#ÊÇ·ñ°´ÕÕÊ±¼ä¹ö¶¯ÎÄ¼þ¼Ð
a3.sinks.k3.hdfs.round = true
#¶àÉÙÊ±¼äµ¥Î»´´½¨Ò»¸öÐÂµÄÎÄ¼þ¼Ð
a3.sinks.k3.hdfs.roundValue = 1
#ÖØÐÂ¶¨ÒåÊ±¼äµ¥Î»
a3.sinks.k3.hdfs.roundUnit = hour
#ÊÇ·ñÊ¹ÓÃ±¾µØÊ±¼ä´Á
a3.sinks.k3.hdfs.useLocalTimeStamp = true
#»ýÔÜ¶àÉÙ¸öEvent²Åflushµ½HDFSÒ»´Î
a3.sinks.k3.hdfs.batchSize = 100
#ÉèÖÃÎÄ¼þÀàÐÍ£¬¿ÉÖ§³ÖÑ¹Ëõ
a3.sinks.k3.hdfs.fileType = DataStream
#¶à¾ÃÉú³ÉÒ»¸öÐÂµÄÎÄ¼þ
a3.sinks.k3.hdfs.rollInterval = 600
#ÉèÖÃÃ¿¸öÎÄ¼þµÄ¹ö¶¯´óÐ¡´ó¸ÅÊÇ128M
a3.sinks.k3.hdfs.rollSize = 134217700
#ÎÄ¼þµÄ¹ö¶¯ÓëEventÊýÁ¿ÎÞ¹Ø
a3.sinks.k3.hdfs.rollCount = 0
#×îÐ¡ÈßÓàÊý
a3.sinks.k3.hdfs.minBlockReplicas = 1

# Use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 1000
a3.channels.c3.transactionCapacity = 100

# Bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3

ÅäÖÃÎÄ¼þ½âÎö£º

2. Æô¶¯¼à¿ØÎÄ¼þ¼ÐÃüÁî
$ bin/flume-ng agent --conf conf/ --name a3 --conf-file job/flume-dir-hdfs.conf

ËµÃ÷£º ÔÚÊ¹ÓÃSpooling Directory SourceÊ±
1) ²»ÒªÔÚ¼à¿ØÄ¿Â¼ÖÐ´´½¨²¢³ÖÐøÐÞ¸ÄÎÄ¼þ
2) ÉÏ´«Íê³ÉµÄÎÄ¼þ»áÒÔ.COMPLETED½áÎ²
3) ±»¼à¿ØÎÄ¼þ¼ÐÃ¿500ºÁÃëÉ¨ÃèÒ»´ÎÎÄ¼þ±ä¶¯

3. ÏòuploadÎÄ¼þ¼ÐÖÐÌí¼ÓÎÄ¼þ
ÔÚ/opt/module/flumeÄ¿Â¼ÏÂ´´½¨uploadÎÄ¼þ¼Ð
$ mkdir upload

4.ÏòuploadÎÄ¼þ¼ÐÖÐÌí¼ÓÎÄ¼þ
$ touch atguigu.txt
$ touch atguigu.tmp
$ touch atguigu.log

²é¿´Êý¾Ý

5. ²é¿´HDFSÉÏµÄÊý¾Ý

6. µÈ´ý1s£¬ÔÙ´Î²éÑ¯uploadÎÄ¼þ¼Ð
$ pwd
/opt/module/flume/upload
$ ll
×ÜÓÃÁ¿ 0
-rw-rw-r--. 1 atguigu atguigu 0 3ÔÂ 4 00:09 atguigu.log.COMPLETED
-rw-rw-r--. 1 atguigu atguigu 0 3ÔÂ 4 00:09 atguigu.tmp
-rw-rw-r--. 1 atguigu atguigu 0 3ÔÂ 4 00:09 atguigu.txt.COMPLETED

3.4 µ¥Êý¾ÝÔ´¶à³ö¿Ú°¸Àý(Ñ¡ÔñÆ÷)
µ¥Source¶àChannel¡¢Sink£¬ÈçÏÂÍ¼ËùÊ¾£º

1£©°¸ÀýÐèÇó£ºÊ¹ÓÃFlume-1¼à¿ØÎÄ¼þ±ä¶¯£¬Flume-1½«±ä¶¯ÄÚÈÝ´«µÝ¸øFlume-2£¬Flume-2¸ºÔð´æ´¢µ½HDFS¡£Í¬Ê±Flume-1½«±ä¶¯ÄÚÈÝ´«µÝ¸øFlume-3£¬Flume-3¸ºÔðÊä³öµ½Local FileSystem¡£

2£©ÐèÇó·ÖÎö£º

3£©ÊµÏÖ²½Öè£º
0£®×¼±¸¹¤×÷
ÔÚ/opt/module/flume/jobÄ¿Â¼ÏÂ´´½¨group1ÎÄ¼þ¼Ð

$ mkdir group1
$ cd group1/

ÔÚ/opt/module/datas/Ä¿Â¼ÏÂ´´½¨flume3ÎÄ¼þ¼Ð
$ mkdir flume3

1£®´´½¨flume-file-flume.conf
ÅäÖÃ1¸ö½ÓÊÕÈÕÖ¾ÎÄ¼þµÄsourceºÍ2¸öchannel¡¢2¸ösink£¬·Ö±ðÊäËÍ¸øflume-flume-hdfsºÍflume-flume-dir¡£
´´½¨ÅäÖÃÎÄ¼þ²¢´ò¿ª£º
$ touch flume-file-flume.conf
$ vim flume-file-flume.conf

Ìí¼ÓÈçÏÂÄÚÈÝ£º
# Name the components on this agent
a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1 c2
# ½«Êý¾ÝÁ÷¸´ÖÆ¸øËùÓÐchannel
a1.sources.r1.selector.type = replicating

# Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /opt/module/hive/logs/hive.log
a1.sources.r1.shell = /bin/bash -c

# Describe the sink
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop102
a1.sinks.k1.port = 4141

a1.sinks.k2.type = avro
a1.sinks.k2.hostname = hadoop102
a1.sinks.k2.port = 4142

# Describe the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

a1.channels.c2.type = memory
a1.channels.c2.capacity = 1000
a1.channels.c2.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1 c2
a1.sinks.k1.channel = c1
a1.sinks.k2.channel = c2

×¢£ºAvroÊÇÓÉHadoop´´Ê¼ÈËDoug Cutting´´½¨µÄÒ»ÖÖ¸úÓïÑÔÎÞ¹ØµÄÊý¾ÝÐòÁÐ»¯ºÍRPC¿ò¼Ü¡£
×¢£ºRPC£¨Remote Procedure Call£©¡ªÔ¶³Ì¹ý³Ìµ÷ÓÃ£¬ËüÊÇÒ»ÖÖÍ¨¹ýÍøÂç´ÓÔ¶³Ì¼ÆËã»ú³ÌÐòÉÏÇëÇó·þÎñ£¬¶ø²»ÐèÒªÁË½âµ×²ãÍøÂç¼¼ÊõµÄÐÒé¡£

2£®´´½¨flume-flume-hdfs.conf
ÅäÖÃÉÏ¼¶FlumeÊä³öµÄSource£¬Êä³öÊÇµ½HDFSµÄSink¡£
´´½¨ÅäÖÃÎÄ¼þ²¢´ò¿ª
$ touch flume-flume-hdfs.conf
$ vim flume-flume-hdfs.conf

Ìí¼ÓÈçÏÂÄÚÈÝ£º
# Name the components on this agent
a2.sources = r1
a2.sinks = k1
a2.channels = c1

# Describe/configure the source
a2.sources.r1.type = avro
a2.sources.r1.bind = hadoop102
a2.sources.r1.port = 4141

# Describe the sink
a2.sinks.k1.type = hdfs
a2.sinks.k1.hdfs.path = hdfs://hadoop102:9000/flume2/%Y%m%d/%H
#ÉÏ´«ÎÄ¼þµÄÇ°×º
a2.sinks.k1.hdfs.filePrefix = flume2-
#ÊÇ·ñ°´ÕÕÊ±¼ä¹ö¶¯ÎÄ¼þ¼Ð
a2.sinks.k1.hdfs.round = true
#¶àÉÙÊ±¼äµ¥Î»´´½¨Ò»¸öÐÂµÄÎÄ¼þ¼Ð
a2.sinks.k1.hdfs.roundValue = 1
#ÖØÐÂ¶¨ÒåÊ±¼äµ¥Î»
a2.sinks.k1.hdfs.roundUnit = hour
#ÊÇ·ñÊ¹ÓÃ±¾µØÊ±¼ä´Á
a2.sinks.k1.hdfs.useLocalTimeStamp = true
#»ýÔÜ¶àÉÙ¸öEvent²Åflushµ½HDFSÒ»´Î
a2.sinks.k1.hdfs.batchSize = 100
#ÉèÖÃÎÄ¼þÀàÐÍ£¬¿ÉÖ§³ÖÑ¹Ëõ
a2.sinks.k1.hdfs.fileType = DataStream
#¶à¾ÃÉú³ÉÒ»¸öÐÂµÄÎÄ¼þ
a2.sinks.k1.hdfs.rollInterval = 600
#ÉèÖÃÃ¿¸öÎÄ¼þµÄ¹ö¶¯´óÐ¡´ó¸ÅÊÇ128M
a2.sinks.k1.hdfs.rollSize = 134217700
#ÎÄ¼þµÄ¹ö¶¯ÓëEventÊýÁ¿ÎÞ¹Ø
a2.sinks.k1.hdfs.rollCount = 0
#×îÐ¡ÈßÓàÊý
a2.sinks.k1.hdfs.minBlockReplicas = 1

# Describe the channel
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a2.sources.r1.channels = c1
a2.sinks.k1.channel = c1

3£®´´½¨flume-flume-dir.conf
ÅäÖÃÉÏ¼¶FlumeÊä³öµÄSource£¬Êä³öÊÇµ½±¾µØÄ¿Â¼µÄSink¡£
´´½¨ÅäÖÃÎÄ¼þ²¢´ò¿ª

$ touch flume-flume-dir.conf
$ vim flume-flume-dir.conf

Ìí¼ÓÈçÏÂÄÚÈÝ£º
# Name the components on this agent
a3.sources = r1
a3.sinks = k1
a3.channels = c2

# Describe/configure the source
a3.sources.r1.type = avro
a3.sources.r1.bind = hadoop102
a3.sources.r1.port = 4142

# Describe the sink
a3.sinks.k1.type = file_roll
a3.sinks.k1.sink.directory = /opt/module/datas/flume3

# Describe the channel
a3.channels.c2.type = memory
a3.channels.c2.capacity = 1000
a3.channels.c2.transactionCapacity = 100

# Bind the source and sink to the channel
a3.sources.r1.channels = c2
a3.sinks.k1.channel = c2

ÌáÊ¾£ºÊä³öµÄ±¾µØÄ¿Â¼±ØÐëÊÇÒÑ¾´æÔÚµÄÄ¿Â¼£¬Èç¹û¸ÃÄ¿Â¼²»´æÔÚ£¬²¢²»»á´´½¨ÐÂµÄÄ¿Â¼¡£

4£®Ö´ÐÐÅäÖÃÎÄ¼þ
·Ö±ð¿ªÆô¶ÔÓ¦ÅäÖÃÎÄ¼þ£ºflume-flume-dir£¬flume-flume-hdfs£¬flume-file-flume¡£

$ bin/flume-ng agent --conf conf/ --name a3 --conf-file job/group1/flume-flume-dir.conf

$ bin/flume-ng agent --conf conf/ --name a2 --conf-file job/group1/flume-flume-hdfs.conf

$ bin/flume-ng agent --conf conf/ --name a1 --conf-file job/group1/flume-file-flume.conf

5£®Æô¶¯HadoopºÍHive
$ sbin/start-dfs.sh
$ sbin/start-yarn.sh

$ bin/hive
hive (default)>

6£®¼ì²éHDFSÉÏÊý¾Ý

7. ¼ì²é/opt/module/datas/flume3Ä¿Â¼ÖÐÊý¾Ý
$ pwd
/opt/module/datas/flume3
$ ll
×ÜÓÃÁ¿ 4
-rw-rw-r--. 1 atguigu atguigu 0 3ÔÂ 4 01:01 1551632490229-1
-rw-rw-r--. 1 atguigu atguigu 1594 3ÔÂ 4 01:02 1551632490229-2
$ ll
×ÜÓÃÁ¿ 4
-rw-rw-r--. 1 atguigu atguigu 0 3ÔÂ 4 01:01 1551632490229-1
-rw-rw-r--. 1 atguigu atguigu 3808 3ÔÂ 4 01:02 1551632490229-2
-rw-rw-r--. 1 atguigu atguigu 0 3ÔÂ 4 01:02 1551632490229-3
$ ll
×ÜÓÃÁ¿ 8
-rw-rw-r--. 1 atguigu atguigu 0 3ÔÂ 4 01:01 1551632490229-1
-rw-rw-r--. 1 atguigu atguigu 3808 3ÔÂ 4 01:02 1551632490229-2
-rw-rw-r--. 1 atguigu atguigu538 3ÔÂ 4 01:02 1551632490229-3
-rw-rw-r--. 1 atguigu atguigu 0 3ÔÂ 4 01:03 1551632490229-4
-rw-rw-r--. 1 atguigu atguigu 0 3ÔÂ 4 01:03 1551632490229-5

3.5 µ¥Êý¾ÝÔ´¶à³ö¿Ú°¸Àý(Sink×é)

µ¥Source¡¢Channel¶àSink(¸ºÔØ¾ùºâ)£¬ÈçÏÂÍ¼ËùÊ¾¡£

1£©°¸ÀýÐèÇó£ºÊ¹ÓÃFlume-1¼à¿ØÎÄ¼þ±ä¶¯£¬Flume-1½«±ä¶¯ÄÚÈÝ´«µÝ¸øFlume-2£¬Flume-2¸ºÔð´æ´¢µ½HDFS¡£Í¬Ê±Flume-1½«±ä¶¯ÄÚÈÝ´«µÝ¸øFlume-3£¬Flume-3Ò²¸ºÔð´æ´¢µ½HDFS

2£©ÐèÇó·ÖÎö£º

3£©ÊµÏÖ²½Öè£º

0£®×¼±¸¹¤×÷
ÔÚ/opt/module/flume/jobÄ¿Â¼ÏÂ´´½¨group2ÎÄ¼þ¼Ð

$ mkdir group2
$ cd group2/

1£®´´½¨flume-netcat-flume.conf
ÅäÖÃ1¸ö½ÓÊÕÈÕÖ¾ÎÄ¼þµÄsourceºÍ1¸öchannel¡¢2¸ösink£¬·Ö±ðÊäËÍ¸øflume-flume-console1ºÍflume-flume-console2¡£
´´½¨ÅäÖÃÎÄ¼þ²¢´ò¿ª
$ touch flume-netcat-flume.conf
$ vim flume-netcat-flume.conf

Ìí¼ÓÈçÏÂÄÚÈÝ£º
# Name the components on this agent
a1.sources = r1
a1.channels = c1
a1.sinkgroups = g1
a1.sinks = k1 k2

# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# ÅäÖÃsink×éÏà¹ØÐÅÏ¢
a1.sinkgroups.g1.processor.type = load_balance
a1.sinkgroups.g1.processor.backoff = true
a1.sinkgroups.g1.processor.selector = round_robin
a1.sinkgroups.g1.processor.selector.maxTimeOut=10000

# Describe the sink
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop102
a1.sinks.k1.port = 4141

a1.sinks.k2.type = avro
a1.sinks.k2.hostname = hadoop102
a1.sinks.k2.port = 4142

# Describe the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinkgroups.g1.sinks = k1 k2
a1.sinks.k1.channel = c1
a1.sinks.k2.channel = c1

×¢£ºAvroÊÇÓÉHadoop´´Ê¼ÈËDoug Cutting´´½¨µÄÒ»ÖÖÓïÑÔÎÞ¹ØµÄÊý¾ÝÐòÁÐ»¯ºÍRPC¿ò¼Ü¡£
×¢£ºRPC£¨Remote Procedure Call£©¡ªÔ¶³Ì¹ý³Ìµ÷ÓÃ£¬ËüÊÇÒ»ÖÖÍ¨¹ýÍøÂç´ÓÔ¶³Ì¼ÆËã»ú³ÌÐòÉÏÇëÇó·þÎñ£¬¶ø²»ÐèÒªÁË½âµ×²ãÍøÂç¼¼ÊõµÄÐÒé¡£

2£®´´½¨flume-flume-console1.conf
ÅäÖÃÉÏ¼¶FlumeÊä³öµÄSource£¬Êä³öÊÇµ½±¾µØ¿ØÖÆÌ¨¡£
´´½¨ÅäÖÃÎÄ¼þ²¢´ò¿ª
$ touch flume-flume-console1.conf
$ vim flume-flume-console1.conf

Ìí¼ÓÈçÏÂÄÚÈÝ£º
# Name the components on this agent
a2.sources = r1
a2.sinks = k1
a2.channels = c1

# Describe/configure the source
a2.sources.r1.type = avro
a2.sources.r1.bind = hadoop102
a2.sources.r1.port = 4141

# Describe the sink
a2.sinks.k1.type = logger

# Describe the channel
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a2.sources.r1.channels = c1
a2.sinks.k1.channel = c1

3£®´´½¨flume-flume-console2.conf
ÅäÖÃÉÏ¼¶FlumeÊä³öµÄSource£¬Êä³öÊÇµ½±¾µØ¿ØÖÆÌ¨¡£
´´½¨ÅäÖÃÎÄ¼þ²¢´ò¿ª

$ touch flume-flume-console2.conf
$ vim flume-flume-console2.conf

Ìí¼ÓÈçÏÂÄÚÈÝ£º
# Name the components on this agent
a3.sources = r1
a3.sinks = k1
a3.channels = c2

# Describe/configure the source
a3.sources.r1.type = avro
a3.sources.r1.bind = hadoop102
a3.sources.r1.port = 4142

# Describe the sink
a3.sinks.k1.type = logger

# Describe the channel
a3.channels.c2.type = memory
a3.channels.c2.capacity = 1000
a3.channels.c2.transactionCapacity = 100

# Bind the source and sink to the channel
a3.sources.r1.channels = c2
a3.sinks.k1.channel = c2

4£®Ö´ÐÐÅäÖÃÎÄ¼þ
·Ö±ð¿ªÆô¶ÔÓ¦ÅäÖÃÎÄ¼þ£ºflume-flume-console2£¬flume-flume-console1£¬flume-netcat-flume¡£

$ bin/flume-ng agent --conf conf/ --name a3 --conf-file job/group2/flume-flume-console2.conf -Dflume.root.logger=INFO,console

$ bin/flume-ng agent --conf conf/ --name a2 --conf-file job/group2/flume-flume-console1.conf -Dflume.root.logger=INFO,console

$ bin/flume-ng agent --conf conf/ --name a1 --conf-file job/group2/flume-netcat-flume.conf

5£®Ê¹ÓÃtelnet¹¤¾ßÏò±¾»úµÄ44444¶Ë¿Ú·¢ËÍÄÚÈÝ
$ telnet localhost 44444

6£®²é¿´Flume2¼°Flume3µÄ¿ØÖÆÌ¨´òÓ¡ÈÕÖ¾

3.6 ¶àÊý¾ÝÔ´»ã×Ü°¸Àý

¶àSource»ã×ÜÊý¾Ýµ½µ¥Flume£¬ÈçÏÂÍ¼ËùÊ¾¡£

1£©°¸ÀýÐèÇó£º
hadoop103ÉÏµÄFlume-1¼à¿ØÎÄ¼þ/opt/module/group.log£¬
hadoop102ÉÏµÄFlume-2¼à¿ØÄ³Ò»¸ö¶Ë¿ÚµÄÊý¾ÝÁ÷£¬
Flume-1ÓëFlume-2½«Êý¾Ý·¢ËÍ¸øhadoop104ÉÏµÄFlume-3£¬Flume-3½«×îÖÕÊý¾Ý´òÓ¡µ½¿ØÖÆÌ¨¡£

2£©ÐèÇó·ÖÎö£º

3£©ÊµÏÖ²½Öè£º

0£®×¼±¸¹¤×÷
·Ö·¢Flume

$ xsync flume

ÔÚhadoop102¡¢hadoop103ÒÔ¼°hadoop104µÄ/opt/module/flume/jobÄ¿Â¼ÏÂ´´½¨Ò»¸ögroup3ÎÄ¼þ¼Ð¡£
$ mkdir group3
$ mkdir group3
$ mkdir group3

1£®´´½¨flume1-logger-flume.conf
ÅäÖÃSourceÓÃÓÚ¼à¿Øhive.logÎÄ¼þ£¬ÅäÖÃSinkÊä³öÊý¾Ýµ½ÏÂÒ»¼¶Flume¡£
ÔÚhadoop103ÉÏ´´½¨ÅäÖÃÎÄ¼þ²¢´ò¿ª

$ touch flume1-logger-flume.conf
$ vim flume1-logger-flume.conf

Ìí¼ÓÈçÏÂÄÚÈÝ£º
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /opt/module/group.log
a1.sources.r1.shell = /bin/bash -c

# Describe the sink
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop104
a1.sinks.k1.port = 4141

# Describe the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

2£®´´½¨flume2-netcat-flume.conf
ÅäÖÃSource¼à¿Ø¶Ë¿Ú44444Êý¾ÝÁ÷£¬ÅäÖÃSinkÊý¾Ýµ½ÏÂÒ»¼¶Flume£º
ÔÚhadoop102ÉÏ´´½¨ÅäÖÃÎÄ¼þ²¢´ò¿ª

$ touch flume2-netcat-flume.conf
$ vim flume2-netcat-flume.conf

Ìí¼ÓÈçÏÂÄÚÈÝ£º
# Name the components on this agent
a2.sources = r1
a2.sinks = k1
a2.channels = c1

# Describe/configure the source
a2.sources.r1.type = netcat
a2.sources.r1.bind = hadoop102
a2.sources.r1.port = 44444

# Describe the sink
a2.sinks.k1.type = avro
a2.sinks.k1.hostname = hadoop104
a2.sinks.k1.port = 4141

# Use a channel which buffers events in memory
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a2.sources.r1.channels = c1
a2.sinks.k1.channel = c1

3£®´´½¨flume3-flume-logger.conf
ÅäÖÃsourceÓÃÓÚ½ÓÊÕflume1Óëflume2·¢ËÍ¹ýÀ´µÄÊý¾ÝÁ÷£¬×îÖÕºÏ²¢ºósinkµ½¿ØÖÆÌ¨¡£
ÔÚhadoop104ÉÏ´´½¨ÅäÖÃÎÄ¼þ²¢´ò¿ª

$ touch flume3-flume-logger.conf
$ vim flume3-flume-logger.conf

Ìí¼ÓÈçÏÂÄÚÈÝ£º
# Name the components on this agent
a3.sources = r1
a3.sinks = k1
a3.channels = c1

# Describe/configure the source
a3.sources.r1.type = avro
a3.sources.r1.bind = hadoop104
a3.sources.r1.port = 4141

# Describe the sink
# Describe the sink
a3.sinks.k1.type = logger

# Describe the channel
a3.channels.c1.type = memory
a3.channels.c1.capacity = 1000
a3.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a3.sources.r1.channels = c1
a3.sinks.k1.channel = c1

4£®Ö´ÐÐÅäÖÃÎÄ¼þ
·Ö±ð¿ªÆô¶ÔÓ¦ÅäÖÃÎÄ¼þ£ºflume3-flume-logger.conf£¬flume2-netcat-flume.conf£¬flume1-logger-flume.conf¡£

$ bin/flume-ng agent --conf conf/ --name a3 --conf-file job/group3/flume3-flume-logger.conf -Dflume.root.logger=INFO,console

$ bin/flume-ng agent --conf conf/ --name a2 --conf-file job/group3/flume2-netcat-flume.conf

$ bin/flume-ng agent --conf conf/ --name a1 --conf-file job/group3/flume1-logger-flume.conf

5£®ÔÚhadoop103ÉÏÏò/opt/moduleÄ¿Â¼ÏÂµÄgroup.log×·¼ÓÄÚÈÝ
$ echo 'hello' > group.log

6£®ÔÚhadoop102ÉÏÏò44444¶Ë¿Ú·¢ËÍÊý¾Ý
$ telnet hadoop102 44444

7£®ÔÚhadoop102ÉÏÏò44444¶Ë¿Ú·¢ËÍÊý¾Ý

µÚ4ÕÂ Flume¼à¿ØÖ®Ganglia

4.1 GangliaµÄ°²×°Óë²¿Êð

1.°²×°httpd·þÎñÓëphp
$ sudo yum -y install httpd php

2.°²×°ÆäËûÒÀÀµ
$ sudo yum -y install rrdtool perl-rrdtool rrdtool-devel
$ sudo yum -y install apr-devel

3.°²×°ganglia
$ sudo rpm -Uvh http://dl.fedoraproject.org/pub/ ... ease-6-8.noarch.rpm
$ sudo yum -y install ganglia-gmetad
$ sudo yum -y install ganglia-web
$ sudo yum install -y ganglia-gmond

4.ÐÞ¸ÄÅäÖÃÎÄ¼þ/etc/httpd/conf.d/ganglia.conf
$ sudo vim /etc/httpd/conf.d/ganglia.conf

ÐÞ¸ÄÎªÈçÏÂµÄÅäÖÃ£º
# Ganglia monitoring system php web frontend
Alias /ganglia /usr/share/ganglia
<Location /ganglia>
Order deny,allow
Deny from all
Allow from all
# Allow from 127.0.0.1
# Allow from ::1
# Allow from .example.com
</Location>

5.ÐÞ¸ÄÅäÖÃÎÄ¼þ/etc/ganglia/gmetad.conf
$ sudo vim /etc/ganglia/gmetad.conf

ÐÞ¸ÄÎª£º
data_source "hadoop102" 192.168.25.102

6.ÐÞ¸ÄÅäÖÃÎÄ¼þ/etc/ganglia/gmond.conf
$ sudo vim /etc/ganglia/gmond.conf

ÐÞ¸ÄÎª£º
cluster {
name = "hadoop102"
owner = "unspecified"
latlong = "unspecified"
url = "unspecified"
}

udp_send_channel {
#bind_hostname = yes # Highly recommended, soon to be default.
                  # This option tells gmond to use a source address
                  # that resolves to the machine's hostname.Without
                  # this, the metrics may appear to come from any
                  # interface and the DNS names associated with
                  # those IPs will be used to create the RRDs.
# mcast_join = 239.2.11.71
host = 192.168.25.102
port = 8649
ttl = 1
}

udp_recv_channel {
# mcast_join = 239.2.11.71
port = 8649
# bind = 239.2.11.71
bind = 192.168.25.102
retry_bind = true
# Size of the UDP buffer. If you are handling lots of metrics you really
# should bump it up to e.g. 10MB or even higher.
# buffer = 10485760
}

7.ÐÞ¸ÄÅäÖÃÎÄ¼þ/etc/selinux/config
$ sudo vim /etc/selinux/config

ÐÞ¸ÄÎª£º
# This file controls the state of SELinux on the system.
# SELINUX= can take one of these three values:
# enforcing - SELinux security policy is enforced.
# permissive - SELinux prints warnings instead of enforcing.
# disabled - No SELinux policy is loaded.
# SELINUX=enforcing
SELINUX=disabled
# SELINUXTYPE= can take one of these two values:
# targeted - Targeted processes are protected,
# mls - Multi Level Security protection.
SELINUXTYPE=targeted

¼â½ÐÌáÊ¾£ºselinux±¾´ÎÉúÐ§¹Ø±Õ±ØÐëÖØÆô£¬Èç¹û´ËÊ±²»ÏëÖØÆô£¬¿ÉÒÔÁÙÊ±ÉúÐ§Ö®£º
$ sudo setenforce 0

8.Æô¶¯ganglia
$ sudo service httpd start
$ sudo service gmetad start
$ sudo service gmond start

9.´ò¿ªÍøÒ³ä¯ÀÀgangliaÒ³Ãæ
http://192.168.25.102/ganglia
¼â½ÐÌáÊ¾£ºÈç¹ûÍê³ÉÒÔÉÏ²Ù×÷ÒÀÈ»³öÏÖÈ¨ÏÞ²»×ã´íÎó£¬ÇëÐÞ¸Ä/var/lib/gangliaÄ¿Â¼µÄÈ¨ÏÞ£º
$ sudo chmod -R 777 /var/lib/ganglia

4.2 ²Ù×÷Flume²âÊÔ¼à¿Ø

ÐÞ¸Ä/opt/module/flume/confÄ¿Â¼ÏÂµÄflume-env.shÅäÖÃ£º

JAVA_OPTS="-Dflume.monitoring.type=ganglia
-Dflume.monitoring.hosts=192.168.25.102:8649
-Xms100m
-Xmx200m"

Æô¶¯FlumeÈÎÎñ
$ bin/flume-ng agent \
--conf conf/ \
--name a1 \
--conf-file job/flume-telnet-logger.conf \
-Dflume.root.logger==INFO,console \
-Dflume.monitoring.type=ganglia \
-Dflume.monitoring.hosts=192.168.25.102:8649

·¢ËÍÊý¾Ý¹Û²ìganglia¼à²âÍ¼
$ telnet localhost 44444

ÑùÊ½ÈçÍ¼£º

Í¼ÀýËµÃ÷£º

µÚ5ÕÂ Flume¸ß¼¶Ö®×Ô¶¨ÒåMySQLSource

5.1 ×Ô¶¨ÒåSourceËµÃ÷

SourceÊÇ¸ºÔð½ÓÊÕÊý¾Ýµ½Flume AgentµÄ×é¼þ¡£Source×é¼þ¿ÉÒÔ´¦Àí¸÷ÖÖÀàÐÍ¡¢¸÷ÖÖ¸ñÊ½µÄÈÕÖ¾Êý¾Ý£¬°üÀ¨avro¡¢thrift¡¢exec¡¢jms¡¢spooling directory¡¢netcat¡¢sequence generator¡¢syslog¡¢http¡¢legacy¡£¹Ù·½Ìá¹©µÄsourceÀàÐÍÒÑ¾ºÜ¶à£¬µ«ÊÇÓÐÊ±ºò²¢²»ÄÜÂú×ãÊµ¼Ê¿ª·¢µ±ÖÐµÄÐèÇó£¬´ËÊ±ÎÒÃÇ¾ÍÐèÒª¸ù¾ÝÊµ¼ÊÐèÇó×Ô¶¨ÒåÄ³Ð©Source¡£

Èç£ºÊµÊ±¼à¿ØMySQL£¬´ÓMySQLÖÐ»ñÈ¡Êý¾Ý´«Êäµ½HDFS»òÕßÆäËû´æ´¢¿ò¼Ü£¬ËùÒÔ´ËÊ±ÐèÒªÎÒÃÇ×Ô¼ºÊµÏÖMySQLSource¡£
¹Ù·½Ò²Ìá¹©ÁË×Ô¶¨ÒåsourceµÄ½Ó¿Ú£º
¹ÙÍøËµÃ÷£ºhttps://flume.apache.org/FlumeDeveloperGuide.html#source

5.2 ×Ô¶¨ÒåMySQLSource×é³É

5.3 ×Ô¶¨ÒåMySQLSource²½Öè

¸ù¾Ý¹Ù·½ËµÃ÷×Ô¶¨ÒåMySqlSourceÐèÒª¼Ì³ÐAbstractSourceÀà²¢ÊµÏÖConfigurableºÍPollableSource½Ó¿Ú¡£
ÊµÏÖÏàÓ¦·½·¨£º
getBackOffSleepIncrement() // ÔÝ²»ÓÃ
getMaxBackOffSleepInterval() // ÔÝ²»ÓÃ
configure(Context context) // ³õÊ¼»¯context
process() // »ñÈ¡Êý¾Ý£¨´ÓMySql»ñÈ¡Êý¾Ý£¬ÒµÎñ´¦Àí±È½Ï¸´ÔÓ£¬ËùÒÔÎÒÃÇ¶¨ÒåÒ»¸ö×¨ÃÅµÄÀàSQLSourceHelperÀ´´¦Àí¸úMySqlµÄ½»»¥£©£¬·â×°³ÉEvent²¢Ð´ÈëChannel£¬Õâ¸ö·½·¨±»Ñ»·µ÷ÓÃ£©
stop() // ¹Ø±ÕÏà¹ØµÄ×ÊÔ´

5.4 ´úÂëÊµÏÖ
5.4.1 µ¼ÈëpomÒÀÀµ
<dependencies>
<dependency>
   <groupId>org.apache.flume</groupId>
   <artifactId>flume-ng-core</artifactId>
   <version>1.7.0</version>
</dependency>
<dependency>
   <groupId>mysql</groupId>
   <artifactId>mysql-connector-java</artifactId>
   <version>5.1.27</version>
</dependency>
</dependencies>

5.4.2 Ìí¼ÓÅäÖÃÐÅÏ¢
ÔÚClassPathÏÂÌí¼Ójdbc.propertiesºÍlog4j. properties
jdbc.properties:

dbDriver=com.mysql.jdbc.Driver
dbUrl=jdbc:mysql://hadoop102:3306/mysqlsource?useUnicode=true&characterEncoding=utf-8
dbUser=root
dbPassword=123456

log4j. properties:
#--------console-----------
log4j.rootLogger=info,myconsole,myfile
log4j.appender.myconsole=org.apache.log4j.ConsoleAppender
log4j.appender.myconsole.layout=org.apache.log4j.SimpleLayout
#log4j.appender.myconsole.layout.ConversionPattern =%d [%t] %-5p [%c] - %m%n

#log4j.rootLogger=error,myfile
log4j.appender.myfile=org.apache.log4j.DailyRollingFileAppender
log4j.appender.myfile.File=/tmp/flume.log
log4j.appender.myfile.layout=org.apache.log4j.PatternLayout
log4j.appender.myfile.layout.ConversionPattern =%d [%t] %-5p [%c] - %m%n

5.4.3 SQLSourceHelper
1£©ÊôÐÔËµÃ÷£º

2£©·½·¨ËµÃ÷£º

3£©´úÂë·ÖÎö£º

4£©´úÂëÊµÏÖ£º
package com.atguigu;

import org.apache.flume.Context;
import org.apache.flume.conf.ConfigurationException;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.IOException;
import java.sql.*;
import java.text.ParseException;
import java.util.ArrayList;
import java.util.List;
import java.util.Properties;

public class SQLSourceHelper {

   private static final Logger LOG = LoggerFactory.getLogger(SQLSourceHelper.class);

   private int runQueryDelay,       // Á½´Î²éÑ¯µÄÊ±¼ä¼ä¸ô
                     startFrom,                      // ¿ªÊ¼id
                     currentIndex,             // µ±Ç°id
                     recordSixe = 0,       // Ã¿´Î²éÑ¯·µ»Ø½á¹ûµÄÌõÊý
                     maxRow;                      // Ã¿´Î²éÑ¯µÄ×î´óÌõÊý

   private String table,             // Òª²Ù×÷µÄ±í
                     columnsToSelect,       // ÓÃ»§´«ÈëµÄ²éÑ¯µÄÁÐ
                     customQuery,             // ÓÃ»§´«ÈëµÄ²éÑ¯Óï¾ä
                     query,                               // ¹¹½¨µÄ²éÑ¯Óï¾ä
                     defaultCharsetResultSet;    // ±àÂë¼¯

   // ÉÏÏÂÎÄ£¬ÓÃÀ´»ñÈ¡ÅäÖÃÎÄ¼þ
   private Context context;

   // Îª¶¨ÒåµÄ±äÁ¿¸³Öµ£¨Ä¬ÈÏÖµ£©£¬¿ÉÔÚflumeÈÎÎñµÄÅäÖÃÎÄ¼þÖÐÐÞ¸Ä
   private static final int DEFAULT_QUERY_DELAY = 10000;
   private static final int DEFAULT_START_VALUE = 0;
   private static final int DEFAULT_MAX_ROWS = 2000;
   private static final String DEFAULT_COLUMNS_SELECT = "*";
   private static final String DEFAULT_CHARSET_RESULTSET = "UTF-8";

   private static Connection conn = null;
   private static PreparedStatement ps = null;
   private static String connectionURL, connectionUserName, connectionPassword;

   // ¼ÓÔØ¾²Ì¬×ÊÔ´
   static {

            Properties p = new Properties();

            try {
                     p.load(SQLSourceHelper.class.getClassLoader().getResourceAsStream("jdbc.properties"));
                     connectionURL = p.getProperty("dbUrl");
                     connectionUserName = p.getProperty("dbUser");
                     connectionPassword = p.getProperty("dbPassword");
                     Class.forName(p.getProperty("dbDriver"));

            } catch (IOException | ClassNotFoundException e) {
                     LOG.error(e.toString());
            }
   }

   // »ñÈ¡JDBCÁ¬½Ó
   private static Connection InitConnection(String url, String user, String pw) {
            try {

                     Connection conn = DriverManager.getConnection(url, user, pw);

                     if (conn == null)
                           throw new SQLException();

                     return conn;

            } catch (SQLException e) {
                     e.printStackTrace();
            }

            return null;
   }

   // ¹¹Ôì·½·¨
   SQLSourceHelper(Context context) throws ParseException {

            // ³õÊ¼»¯ÉÏÏÂÎÄ
            this.context = context;

            // ÓÐÄ¬ÈÏÖµ²ÎÊý£º»ñÈ¡flumeÈÎÎñÅäÖÃÎÄ¼þÖÐµÄ²ÎÊý£¬¶Á²»µ½µÄ²ÉÓÃÄ¬ÈÏÖµ
            this.columnsToSelect = context.getString("columns.to.select", DEFAULT_COLUMNS_SELECT);

            this.runQueryDelay = context.getInteger("run.query.delay", DEFAULT_QUERY_DELAY);

            this.startFrom = context.getInteger("start.from", DEFAULT_START_VALUE);

            this.defaultCharsetResultSet = context.getString("default.charset.resultset", DEFAULT_CHARSET_RESULTSET);

            // ÎÞÄ¬ÈÏÖµ²ÎÊý£º»ñÈ¡flumeÈÎÎñÅäÖÃÎÄ¼þÖÐµÄ²ÎÊý
            this.table = context.getString("table");

            this.customQuery = context.getString("custom.query");

            connectionURL = context.getString("connection.url");

            connectionUserName = context.getString("connection.user");

            connectionPassword = context.getString("connection.password");

            conn = InitConnection(connectionURL, connectionUserName, connectionPassword);

            // Ð£ÑéÏàÓ¦µÄÅäÖÃÐÅÏ¢£¬Èç¹ûÃ»ÓÐÄ¬ÈÏÖµµÄ²ÎÊýÒ²Ã»¸³Öµ£¬Å×³öÒì³£
            checkMandatoryProperties();

            // »ñÈ¡µ±Ç°µÄid
            currentIndex = getStatusDBIndex(startFrom);

            // ¹¹½¨²éÑ¯Óï¾ä
            query = buildQuery();
   }

   // Ð£ÑéÏàÓ¦µÄÅäÖÃÐÅÏ¢£¨±í£¬²éÑ¯Óï¾äÒÔ¼°Êý¾Ý¿âÁ¬½ÓµÄ²ÎÊý£©
   private void checkMandatoryProperties() {

            if (table == null) {
                     throw new ConfigurationException("property table not set");
            }

            if (connectionURL == null) {
                     throw new ConfigurationException("connection.url property not set");
            }

            if (connectionUserName == null) {
                     throw new ConfigurationException("connection.user property not set");
            }

            if (connectionPassword == null) {
                     throw new ConfigurationException("connection.password property not set");
            }
   }

   // ¹¹½¨sqlÓï¾ä
   private String buildQuery() {

            String sql = "";

            // »ñÈ¡µ±Ç°id
            currentIndex = getStatusDBIndex(startFrom);
            LOG.info(currentIndex + "");

            if (customQuery == null) {
                     sql = "SELECT " + columnsToSelect + " FROM " + table;
            } else {
                     sql = customQuery;
            }

            StringBuilder execSql = new StringBuilder(sql);

            // ÒÔid×÷Îªoffset
            if (!sql.contains("where")) {
                     execSql.append(" where ");
                     execSql.append("id").append(">").append(currentIndex);

                     return execSql.toString();
            } else {
                     int length = execSql.toString().length();

                     return execSql.toString().substring(0, length - String.valueOf(currentIndex).length()) + currentIndex;
            }
   }

   // Ö´ÐÐ²éÑ¯
   List<List<Object>> executeQuery() {

            try {
                     // Ã¿´ÎÖ´ÐÐ²éÑ¯Ê±¶¼ÒªÖØÐÂÉú³Ésql£¬ÒòÎªid²»Í¬
                     customQuery = buildQuery();

                     // ´æ·Å½á¹ûµÄ¼¯ºÏ
                     List<List<Object>> results = new ArrayList<>();

                     if (ps == null) {
                           //
                           ps = conn.prepareStatement(customQuery);
                     }

                     ResultSet result = ps.executeQuery(customQuery);

                     while (result.next()) {

                           // ´æ·ÅÒ»ÌõÊý¾ÝµÄ¼¯ºÏ£¨¶à¸öÁÐ£©
                           List<Object> row = new ArrayList<>();

                           // ½«·µ»Ø½á¹û·ÅÈë¼¯ºÏ
                           for (int i = 1; i <= result.getMetaData().getColumnCount(); i++) {
                                    row.add(result.getObject(i));
                           }

                           results.add(row);
                     }

                     LOG.info("execSql:" + customQuery + "\nresultSize:" + results.size());

                     return results;
            } catch (SQLException e) {
                     LOG.error(e.toString());

                     // ÖØÐÂÁ¬½Ó
                     conn = InitConnection(connectionURL, connectionUserName, connectionPassword);

            }

            return null;
   }

   // ½«½á¹û¼¯×ª»¯Îª×Ö·û´®£¬Ã¿Ò»ÌõÊý¾ÝÊÇÒ»¸ölist¼¯ºÏ£¬½«Ã¿Ò»¸öÐ¡µÄlist¼¯ºÏ×ª»¯Îª×Ö·û´®
   List<String> getAllRows(List<List<Object>> queryResult) {

            List<String> allRows = new ArrayList<>();

            if (queryResult == null || queryResult.isEmpty())
                     return allRows;

            StringBuilder row = new StringBuilder();

            for (List<Object> rawRow : queryResult) {

                     Object value = null;

                     for (Object aRawRow : rawRow) {

                           value = aRawRow;

                           if (value == null) {
                                    row.append(",");
                           } else {
                                    row.append(aRawRow.toString()).append(",");
                           }
                     }

                     allRows.add(row.toString());
                     row = new StringBuilder();
            }

            return allRows;
   }

   // ¸üÐÂoffsetÔªÊý¾Ý×´Ì¬£¬Ã¿´Î·µ»Ø½á¹û¼¯ºóµ÷ÓÃ¡£±ØÐë¼ÇÂ¼Ã¿´Î²éÑ¯µÄoffsetÖµ£¬Îª³ÌÐòÖÐ¶ÏÐøÅÜÊý¾ÝÊ±Ê¹ÓÃ£¬ÒÔidÎªoffset
   void updateOffset2DB(int size) {
            // ÒÔsource_tab×öÎªKEY£¬Èç¹û²»´æÔÚÔò²åÈë£¬´æÔÚÔò¸üÐÂ£¨Ã¿¸öÔ´±í¶ÔÓ¦Ò»Ìõ¼ÇÂ¼£©
            String sql = "insert into flume_meta(source_tab,currentIndex) VALUES('" + this.table + "','" + (recordSixe += size)
                           + "') on DUPLICATE key update source_tab=values(source_tab),currentIndex=values(currentIndex)";

            LOG.info("updateStatus Sql:" + sql);

            execSql(sql);
   }

   // Ö´ÐÐsqlÓï¾ä
   private void execSql(String sql) {

            try {
                     ps = conn.prepareStatement(sql);

                     LOG.info("exec::" + sql);

                     ps.execute();
            } catch (SQLException e) {
                     e.printStackTrace();
            }
   }

   // »ñÈ¡µ±Ç°idµÄoffset
   private Integer getStatusDBIndex(int startFrom) {

            // ´Óflume_meta±íÖÐ²éÑ¯³öµ±Ç°µÄidÊÇ¶àÉÙ
            String dbIndex = queryOne("select currentIndex from flume_meta where source_tab='" + table + "'");

            if (dbIndex != null) {
                     return Integer.parseInt(dbIndex);
            }

            // Èç¹ûÃ»ÓÐÊý¾Ý£¬ÔòËµÃ÷ÊÇµÚÒ»´Î²éÑ¯»òÕßÊý¾Ý±íÖÐ»¹Ã»ÓÐ´æÈëÊý¾Ý£¬·µ»Ø×î³õ´«ÈëµÄÖµ
            return startFrom;
   }

   // ²éÑ¯Ò»ÌõÊý¾ÝµÄÖ´ÐÐÓï¾ä(µ±Ç°id)
   private String queryOne(String sql) {

            ResultSet result = null;

            try {
                     ps = conn.prepareStatement(sql);
                     result = ps.executeQuery();

                     while (result.next()) {
                           return result.getString(1);
                     }
            } catch (SQLException e) {
                     e.printStackTrace();
            }

            return null;
   }

   // ¹Ø±ÕÏà¹Ø×ÊÔ´
   void close() {

            try {
                     ps.close();
                     conn.close();
            } catch (SQLException e) {
                     e.printStackTrace();
            }
   }

   int getCurrentIndex() {
            return currentIndex;
   }

   void setCurrentIndex(int newValue) {
            currentIndex = newValue;
   }

   int getRunQueryDelay() {
            return runQueryDelay;
   }

   String getQuery() {
            return query;
   }

   String getConnectionURL() {
            return connectionURL;
   }

   private boolean isCustomQuerySet() {
            return (customQuery != null);
   }

   Context getContext() {
            return context;
   }

   public String getConnectionUserName() {
            return connectionUserName;
   }

   public String getConnectionPassword() {
            return connectionPassword;
   }

   String getDefaultCharsetResultSet() {
            return defaultCharsetResultSet;
   }
}

5.4.4 MySQLSource
´úÂëÊµÏÖ£º

package com.atguigu;

import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.EventDeliveryException;
import org.apache.flume.PollableSource;
import org.apache.flume.conf.Configurable;
import org.apache.flume.event.SimpleEvent;
import org.apache.flume.source.AbstractSource;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.text.ParseException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;

public class SQLSource extends AbstractSource implements Configurable, PollableSource {

   // ´òÓ¡ÈÕÖ¾
   private static final Logger LOG = LoggerFactory.getLogger(SQLSource.class);

   // ¶¨ÒåsqlHelper
   private SQLSourceHelper sqlSourceHelper;

   @Override
   public long getBackOffSleepIncrement() {
            return 0;
   }

   @Override
   public long getMaxBackOffSleepInterval() {
            return 0;
   }

   @Override
   public void configure(Context context) {

            try {
                     // ³õÊ¼»¯
                     sqlSourceHelper = new SQLSourceHelper(context);
            } catch (ParseException e) {
                     e.printStackTrace();
            }
   }

   @Override
   public Status process() throws EventDeliveryException {

            try {
                     // ²éÑ¯Êý¾Ý±í
                     List<List<Object>> result = sqlSourceHelper.executeQuery();

                     // ´æ·ÅeventµÄ¼¯ºÏ
                     List<Event> events = new ArrayList<>();

                     // ´æ·ÅeventÍ·¼¯ºÏ
                     HashMap<String, String> header = new HashMap<>();

                     // Èç¹ûÓÐ·µ»ØÊý¾Ý£¬Ôò½«Êý¾Ý·â×°Îªevent
                     if (!result.isEmpty()) {

                           List<String> allRows = sqlSourceHelper.getAllRows(result);

                           Event event = null;

                           for (String row : allRows) {
                                    event = new SimpleEvent();
                                    event.setBody(row.getBytes());
                                    event.setHeaders(header);
                                    events.add(event);
                           }

                           // ½«eventÐ´Èëchannel
                           this.getChannelProcessor().processEventBatch(events);

                           // ¸üÐÂÊý¾Ý±íÖÐµÄoffsetÐÅÏ¢
                           sqlSourceHelper.updateOffset2DB(result.size());
                     }

                     // µÈ´ýÊ±³¤
                     Thread.sleep(sqlSourceHelper.getRunQueryDelay());

                     return Status.READY;
            } catch (InterruptedException e) {
                     LOG.error("Error procesing row", e);

                     return Status.BACKOFF;
            }
   }

   @Override
   public synchronized void stop() {

            LOG.info("Stopping sql source {} ...", getName());

            try {
                     // ¹Ø±Õ×ÊÔ´
                     sqlSourceHelper.close();
            } finally {
                     super.stop();
            }
   }
}

5.5 ²âÊÔ

5.5.1 Jar°ü×¼±¸

1.½«MySqlÇý¶¯°ü·ÅÈëFlumeµÄlibÄ¿Â¼ÏÂ
$ cp \
/opt/sorfware/mysql-libs/mysql-connector-java-5.1.27/mysql-connector-java-5.1.27-bin.jar \
/opt/module/flume/lib/

2.´ò°üÏîÄ¿²¢½«Jar°ü·ÅÈëFlumeµÄlibÄ¿Â¼ÏÂ

5.5.2 ÅäÖÃÎÄ¼þ×¼±¸
1£©´´½¨ÅäÖÃÎÄ¼þ²¢´ò¿ª
$ touch mysql.conf
$ vim mysql.conf

2£©Ìí¼ÓÈçÏÂÄÚÈÝ
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = com.atguigu.source.SQLSource
a1.sources.r1.connection.url = jdbc:mysql://192.168.9.102:3306/mysqlsource
a1.sources.r1.connection.user = root
a1.sources.r1.connection.password = 000000
a1.sources.r1.table = student
a1.sources.r1.columns.to.select = *
#a1.sources.r1.incremental.column.name = id
#a1.sources.r1.incremental.value = 0
a1.sources.r1.run.query.delay=5000

# Describe the sink
a1.sinks.k1.type = logger

# Describe the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

5.5.3 MySql±í×¼±¸

´´½¨MySqlSourceÊý¾Ý¿â

CREATE DATABASE mysqlsource£»

ÔÚMySqlSourceÊý¾Ý¿âÏÂ´´½¨Êý¾Ý±íStudentºÍÔªÊý¾Ý±íFlume_meta
CREATE TABLE `student` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(255) NOT NULL,
PRIMARY KEY (`id`)
);
CREATE TABLE `flume_meta` (
`source_tab` varchar(255) NOT NULL,
`currentIndex` varchar(255) NOT NULL,
PRIMARY KEY (`source_tab`)
);

3)ÏòÊý¾Ý±íÖÐÌí¼ÓÊý¾Ý
1 zhangsan
2 lisi
3 wangwu
4 zhaoliu

5.5.4²âÊÔ²¢²é¿´½á¹û

1)ÈÎÎñÖ´ÐÐ

$ bin/flume-ng agent --conf conf/ --name a1 \
--conf-file job/mysql.conf -Dflume.root.logger=INFO,console

2)½á¹ûÕ¹Ê¾£¬ÈçÏÂÍ¼ËùÊ¾£º

µÚ6ÕÂ ÖªÊ¶À©Õ¹

6.1 ³£¼ûÕýÔò±í´ïÊ½Óï·¨

6.2 Á·Ï°

°¸ÀýÐèÇó£º
1£©flume-1¼à¿Øhive.logÈÕÖ¾£¬flume-1µÄÊý¾Ý´«ËÍ¸øflume-2£¬flume-2½«Êý¾Ý×·¼Óµ½±¾µØÎÄ¼þ£¬Í¬Ê±½«Êý¾Ý´«Êäµ½flume-3¡£
2£©flume-4¼à¿Ø±¾µØÁíÒ»¸ö×Ô¼º´´½¨µÄÎÄ¼þany.txt£¬²¢½«Êý¾Ý´«ËÍ¸øflume-3¡£
3£©flume-3½«»ã×ÜÊý¾ÝÐ´Èëµ½HDFS¡£
ÇëÏÈ»³ö½á¹¹Í¼£¬ÔÙ¿ªÊ¼±àÐ´ÈÎÎñ½Å±¾¡£

µÚ7ÕÂ FlumeÆóÒµÕæÊµÃæÊÔÌâ£¨ÖØµã£©

7.1 ÄãÊÇÈçºÎÊµÏÖFlumeÊý¾Ý´«ÊäµÄ¼à¿ØµÄ£¿

Ê¹ÓÃµÚÈý·½¿ò¼ÜGangliaÊµÊ±¼à¿ØFlume¡£

7.2 FlumeµÄSource£¬Sink£¬ChannelµÄ×÷ÓÃ£¿ÄãÃÇSourceÊÇÊ²Ã´ÀàÐÍ£¿

1¡¢×÷ÓÃ
£¨1£©Source×é¼þÊÇ×¨ÃÅÓÃÀ´ÊÕ¼¯Êý¾ÝµÄ£¬¿ÉÒÔ´¦Àí¸÷ÖÖÀàÐÍ¡¢¸÷ÖÖ¸ñÊ½µÄÈÕÖ¾Êý¾Ý£¬°üÀ¨avro¡¢thrift¡¢exec¡¢jms¡¢spooling directory¡¢netcat¡¢sequence generator¡¢syslog¡¢http¡¢legacy¡£
£¨2£©Channel×é¼þ¶Ô²É¼¯µ½µÄÊý¾Ý½øÐÐ»º´æ£¬¿ÉÒÔ´æ·ÅÔÚMemory»òFileÖÐ¡£
£¨3£©Sink×é¼þÊÇÓÃÓÚ°ÑÊý¾Ý·¢ËÍµ½Ä¿µÄµØµÄ×é¼þ£¬Ä¿µÄµØ°üÀ¨Hdfs¡¢Logger¡¢avro¡¢thrift¡¢ipc¡¢file¡¢Hbase¡¢solr¡¢×Ô¶¨Òå¡£

2¡¢ÎÒ¹«Ë¾²ÉÓÃµÄSourceÀàÐÍÎª£º
£¨1£©¼à¿ØºóÌ¨ÈÕÖ¾£ºexec
£¨2£©¼à¿ØºóÌ¨²úÉúÈÕÖ¾µÄ¶Ë¿Ú£ºnetcat
Exec spooldir

7.3 FlumeµÄChannel Selectors

7.4 Flume²ÎÊýµ÷ÓÅ

1. Source
Ôö¼Ó Source¸ö£¨Ê¹ÓÃ Tair Dir Source Ê±¿ÉÔö¼Ó FileGroups ¸öÊý£©¿ÉÒÔÔö´ó Source µÄ¶ÁÈ¡Êý¾ÝµÄÄÜÁ¦¡£ÀýÈç£ºµ±Ä³Ò»¸öÄ¿Â¼²úÉúµÄÎÄ¼þ¹ý¶àÊ±ÐèÒª½«Õâ¸öÎÄ¼þÄ¿Â¼²ð·Ö³É¶à¸öÎÄ¼þÄ¿Â¼£¬Í¬Ê±ÅäÖÃºÃ¶à¸ö Source ÒÔ±£Ö¤ Source ÓÐ×ã¹»µÄÄÜÁ¦»ñÈ¡µ½ÐÂ²úÉúµÄÊý¾Ý¡£
batchSize ²ÎÊý¾ö¶¨ Source Ò»´ÎÅúÁ¿ÔËÊäµ½ Channel µÄ Event ÌõÊý£¬ÊÊµ±µ÷´óÕâ¸ö²ÎÊý¿ÉÒÔÌá¸ß Source °áÔË Event µ½ Channel Ê±µÄÐÔÄÜ¡£

2. Channel
type Ñ¡Ôñ memory Ê± Channel µÄÐÔÄÜ×îºÃ£¬µ«ÊÇÈç¹û Flume ½ø³ÌÒâÍâ¹Òµô¿ÉÄÜ»á¶ªÊ§Êý¾Ý¡£type Ñ¡Ôñ file Ê± Channel µÄÈÝ´íÐÔ¸üºÃ£¬µ«ÊÇÐÔÄÜÉÏ»á±È memory Channel ²î¡£
Ê¹ÓÃ file Channel Ê± dataDirs ÅäÖÃ¶à¸ö²»Í¬ÅÌÏÂµÄÄ¿Â¼¿ÉÒÔÌá¸ßÐÔÄÜ¡£
Capacity ²ÎÊý¾ö¶¨ Channel ¿ÉÈÝÄÉ×î´óµÄ Event ÌõÊý¡£transactionCapacity ²ÎÊý¾ö¶¨Ã¿´Î Source Íù Channel ÀïÃæÐ´µÄ×î´ó Event ÌõÊýºÍÃ¿´Î Sink ´Ó Channel ÀïÃæ¶ÁµÄ×î´ó Event ÌõÊý¡£transactionCapacity ÐèÒª´óÓÚ Source ºÍ Sink µÄ batchSize ²ÎÊý¡£

3. Sink
Ôö¼Ó Sink µÄ¸öÊý¿ÉÒÔÔö¼Ó Sink Ïû·Ñ Event µÄÄÜÁ¦¡£Sink Ò²²»ÊÇÔ½¶àÔ½ºÃ¹»ÓÃ¾ÍÐÐ£¬¹ý¶àµÄ Sink »áÕ¼ÓÃÏµÍ³×ÊÔ´£¬Ôì³ÉÏµÍ³×ÊÔ´²»±ØÒªµÄÀË·Ñ¡£
batchSize ²ÎÊý¾ö¶¨ Sink Ò»´ÎÅúÁ¿´Ó Channel ¶ÁÈ¡µÄ Event ÌõÊý£¬ÊÊµ±µ÷´óÕâ¸ö²ÎÊý¿ÉÒÔÌá¸ß Sink ´Ó Channel °á³ö Event µÄÐÔÄÜ¡£

7.5 FlumeµÄÊÂÎñ»úÖÆ

FlumeµÄÊÂÎñ»úÖÆ£¨ÀàËÆÊý¾Ý¿âµÄÊÂÎñ»úÖÆ£©£ºFlume Ê¹ÓÃÁ½¸ö¶ÀÁ¢µÄÊÂÎñ·Ö±ð¸ºÔð´Ó Soucrce µ½ Channel£¬ÒÔ¼°´Ó Channel µ½ Sink µÄÊÂ¼þ´«µÝ¡£±ÈÈç spooling directory source ÎªÎÄ¼þµÄÃ¿Ò»ÐÐ´´½¨Ò»¸öÊÂ¼þ£¬Ò»µ©ÊÂÎñÖÐËùÓÐµÄÊÂ¼þÈ«²¿´«µÝµ½ Channel ÇÒÌá½»³É¹¦£¬ÄÇÃ´ Soucrce ¾Í½«¸ÃÎÄ¼þ±ê¼ÇÎªÍê³É¡£Í¬Àí£¬ÊÂÎñÒÔÀàËÆµÄ·½Ê½´¦Àí´Ó Channel µ½ Sink µÄ´«µÝ¹ý³Ì£¬Èç¹ûÒòÎªÄ³ÖÖÔÒòÊ¹µÃÊÂ¼þÎÞ·¨¼ÇÂ¼£¬ÄÇÃ´ÊÂÎñ½«»á»Ø¹ö¡£ÇÒËùÓÐµÄÊÂ¼þ¶¼»á±£³Öµ½ Channel ÖÐ£¬µÈ´ýÖØÐÂ´«µÝ¡£
ÈçÏÂÍ¼ËùÊ¾£º

7.6 Flume²É¼¯Êý¾Ý»á¶ªÊ§Âð£¿

²»»á£¬Channel´æ´¢¿ÉÒÔ´æ´¢ÔÚFileÖÐ£¬Êý¾Ý´«Êä×ÔÉíÓÐÊÂÎñ¡£
µ«ÊÇÈç¹ûÊ¹ÓÃÄÚ´æ´æ´¢µÄ»°£¬µôµç¿ÉÄÜ»á¶ªÊ§Êý¾Ý¡£

×îÐÂ¾µäÎÄÕÂ£¬»¶Ó¹Ø×¢¹«ÖÚºÅhttp://www.aboutyun.com/data/attachment/forum/201903/18/215536lzpn7n3u7m7u90vm.jpg

×÷Õß£ºLan&Jun
ÔÎÄÁ´½Ó£º
https://blog.csdn.net/u012990179/article/details/88120310

ËêÔÂ¾²ºÃ ·¢±íÓÚ 2019-4-15 11:21:01

ÔÚÊ¹ÓÃMySourceµÄÊ±ºò£¬¿ÉÒÔ×Ô¶¨ÒåÊÕÈ¡µÄÎÄ¼þ¼ÐµÄÃû×ÖÂð£¿¾ÍÊÇ°´ÌìÀ´ÊÕ¼¯£¿
Èç¹ûMySource¿ÉÒÔµÄ»°£¬MySinkÊÇ²»ÊÇÒ²¿ÉÒÔ£¿

ËêÔÂ¾²ºÃ ·¢±íÓÚ 2019-4-15 11:22:12

ÔÚÊ¹ÓÃMySourceµÄÊ±ºò£¬ÊÇ²»ÊÇ¿ÉÒÔ×Ô¶¨ÒåÎÄ¼þ¼ÐµÄÃû×Ö£¿¾ÍÊÇ°´Ã¿ÌìµÄÈÕÆÚÀ´ÊÕ¼¯£¿
Èç¹ûMySource¿ÉÒÔµÄ»°£¬ÊÇ²»ÊÇMySinkÒ²¿ÉÒÔ£¿

ÃÀÀöÌì¿Õ ·¢±íÓÚ 2019-4-15 23:45:41

¸ÐÐ»·ÖÏí

a501900309 ·¢±íÓÚ 2019-11-13 17:08:17

Ð»Ð»·ÖÏí

ÑýÄ§ ·¢±íÓÚ 2020-6-19 10:49:42

ÈçºÎ±£Ö¤flumeÔÚÔËÐÐ7*24³ö´íµÄÇé¿öÏÂ£¬³¢ÊÔ×ÔÆô£¬Ê§°Üºó±¨´í¸øÔËÎ¬£¿

Ò³: [1]

AboutÔÆ-ËóÂ×¿Æ¼¼'s Archiver

È«ÃæÁË½âFlume°üÀ¨°¸Àý