GPUÔÚÍâÂô³¡¾°¾«ÅÅÄ£ÐÍÔ¤¹ÀÖÐµÄÓ¦ÓÃÊµ¼ù-Éî¶ÈÑ§Ï°-AboutÔÆ-ËóÂ×¿Æ¼¼

levycui ·¢±íÓÚ 2022-3-8 22:41:10

GPUÔÚÍâÂô³¡¾°¾«ÅÅÄ£ÐÍÔ¤¹ÀÖÐµÄÓ¦ÓÃÊµ¼ù

ÎÊÌâµ¼¶Á£º
1¡¢ÍâÂôËÑÍÆ³¡¾°ÏÂµÄ¾«ÅÅÄ£ÐÍÓÐÄÄÐ©ÌØµã£¿
2¡¢Ä£ÐÍÓ¦ÓÃµÄÌØµãÓëÌôÕ½ÓÐÄÄÐ©£¿
3¡¢Ä£ÐÍ·þÎñ¼Ü¹¹ÈçºÎÉè¼Æ£¿
4¡¢GPUÓÐÄÄÐ©ÓÅ»¯Êµ¼ù£¿

GPUµÈ×¨ÓÃÐ¾Æ¬ÒÔ½ÏµÍµÄ³É±¾Ìá¹©º£Á¿ËãÁ¦£¬ÒÑ¾³ÉÎª»úÆ÷Ñ§Ï°ÁìÓòµÄºËÐÄÀûÆ÷£¬ÔÚÈË¹¤ÖÇÄÜÊ±´ú·¢»Ó×ÅÔ½À´Ô½ÖØÒªµÄ×÷ÓÃ¡£ÈçºÎÀûÓÃGPUÕâÒ»ÀûÆ÷¸³ÄÜÒµÎñ³¡¾°£¬ÊÇºÜ¶à¼¼ÊõÑÐ·¢Õß¶¼ÒªÃæÁÙµÄÎÊÌâ¡£±¾ÎÄ·ÖÏíÁËÃÀÍÅÍâÂôËÑË÷/ÍÆ¼öÒµÎñÖÐÄ£ÐÍÔ¤¹ÀµÄGPU¼Ü¹¹Éè¼Æ¼°ÂäµØµÄ¹ý³Ì£¬Ï£ÍûÄÜ¶Ô´ÓÊÂÏà¹ØÓ¦ÓÃÑÐ·¢µÄÍ¬Ñ§ÓÐËù°ïÖú»òÆô·¢¡£

1 Ç°ÑÔ

½üÐ©Äê£¬Ëæ×Å»úÆ÷Ñ§Ï°¼¼ÊõµÄÅî²ª·¢Õ¹£¬ÒÔGPUÎª´ú±íµÄÒ»ÏµÁÐ×¨ÓÃÐ¾Æ¬ÒÔÓÅÔ½µÄ¸ßÐÔÄÜ¼ÆËãÄÜÁ¦ºÍÓú·¢µÍÁ®µÄ³É±¾£¬ÔÚ»úÆ÷Ñ§Ï°ÁìÓòµÃµ½¹ã·ºÈÏ¿ÉºÍÇàíù£¬ÇÒÓë´«Í³µÄCPUÌåÏµ²»¶ÏÈÚºÏ£¬ÐÎ³ÉÁËÐÂµÄÒì¹¹Ó²¼þÉúÌ¬¡£

ÔÚÕâÖÖ¼¼ÊõÀË³±Ö®ÖÐ£¬ºÜ¶à¼¼ÊõÑÐ·¢Õß»áÃæÁÙ×ÅÕâÑùµÄÎÊÌâ£ºÔÚÎÒÃÇµÄÒµÎñÉÏÓ¦ÓÃGPUÓ²¼þÄÜ»ñµÃÊ²Ã´£¿ÈçºÎ¿ìËÙ¡¢Æ½»¬µØ´Ó´«Í³CPUÌåÏµ»ù´¡ÉÏÍê³ÉÇÐ»»£¿Õ¾ÔÚ»úÆ÷Ñ§Ï°Ëã·¨Éè¼ÆµÄ½Ç¶È£¬ÓÖ»á´øÀ´Ê²Ã´Ó°ÏìºÍ¸Ä±ä£¿ÔÚGPUÉúÌ¬ÏÂÖÚ¶àµÄ¼¼ÊõÂ·ÏßºÍ¼Ü¹¹Ñ¡ÐÍÖÐ£¬ÈçºÎÕÒµ½Ò»Ìõ×îÊÊºÏ×ÔÉí³¡¾°µÄÂ·¾¶£¿

ÃÀÍÅÍâÂôËÑË÷ÍÆ¼öÍÅ¶Ó£¬Ò²ÃæÁÙ×ÅÀàËÆµÄÌôÕ½ºÍÎÊÌâ¡£±¾ÎÄÎÒÃÇ»á·ÖÏíÃÀÍÅÍâÂôËÑË÷/ÍÆ¼öÒµÎñÖÐ£¬Ä£ÐÍÔ¤¹ÀµÄGPU¼Ü¹¹Éè¼ÆÓëÂäµØ¹ý³Ì£¬²¢½«Ò»Ð©¼¼ÊõÏ¸½ÚºÍ²âÊÔÊý¾Ý×öÁËÏê¾¡µÄÅûÂ¶£¬Ï£ÍûÄÜÎª¹ã´óµÄ¼¼ÊõÍ¬ÐÐÌá¹©Ò»Ð©ÓÐ¼ÛÖµµÄ²Î¿¼¡£

2 ±³¾°

µ±Ç°£¬ÃÀÍÅÍâÂôÖ÷ÒªÍ¨¹ýËÑË÷ºÍÍÆ¼öÁ½ÖÖÁ÷Á¿·Ö·¢·½Ê½£¬Âú×ãÓÃ»§¶Ô¡°ÍòÎïµ½¼Ò¡±µÄÐèÇó¡£³ýÁËÊ×Ò³µÄËÑË÷¡¢ÍÆ¼ö¹¦ÄÜÍâ£¬ÖØµãÆ·Àà»áÔÚÊ×Ò³Ôö¼Ó¶ÀÁ¢Èë¿Ú£¨ÏÂÎÄ³ÆÖ®Îª¡°½ð¸Õ¡±£©£¬Ã¿¸ö½ð¸ÕÈë¿ÚÖÐ¶¼ÓÐÀàËÆÓÚÊ×Ò³ËÑË÷¡¢ÍÆ¼öµÄÇøÓò£¬¶ø²»Í¬³¡¾°Èë¿Ú¹²Í¬·þÎñÓÚÍâÂôµÄ×îÖÕ³Éµ¥¡£Ê×Ò³¡¢½ð¸Õ¡¢µêÄÚµÄÁª¶¯¹ØÏµÈçÏÂÍ¼ËùÊ¾£º

ÃæÏòµã»÷ÂÊ£¨CTR£©/×ª»¯ÂÊ£¨CVR£©Ô¤¹ÀµÄÉî¶ÈÑ§Ï°£¬ÊÇÃ¿Ò»¸öµçÉÌÀàËÑË÷/ÍÆ¼ö²úÆ·ÖÐµÄºËÐÄ¼¼Êõ£¬Ö±½Ó¾ö¶¨ÁË²úÆ·µÄÓÃ»§ÌåÑéºÍ×ª»¯Ð§¹û£¬Í¬Ê±Ò²ÊÇ»úÆ÷×ÊÔ´ÏûºÄµÄ¡°´ó»§¡±¡£¶øCTR/CVR¾«ÅÅÄ£ÐÍµÄÉè¼ÆºÍÊµ¼ù£¬Ò²ÊÇÃÀÍÅÍâÂôËÑË÷ÍÆ¼ö£¨ÏÂ³ÆËÑÍÆ£©¼¼ÊõÍÅ¶Ó±ØÐëÒª¹¥¿ËÇÒ²»¶Ï×·Çó×¿Ô½µÄ±ØÕùÖ®µØ¡£

´ÓËÑÍÆÏµÍ³Éè¼ÆµÄ½Ç¶ÈÉÏ¿´£¬²»Í¬µÄËÑË÷¡¢ÍÆ¼öÈë¿Ú»á×ÔÈ»ÐÎ³É¶ÀÁ¢µÄµ÷ÓÃÁ´Â·¡£ÔÚ´«Í³µÄÄ£ÐÍÉè¼ÆË¼Â·ÏÂ£¬»á¶Ô²»Í¬Èë¿ÚÁ´Â·¡¢²»Í¬Â©¶·»·½ÚµÄCTR/CVR/PRICE¶à¸öÄ¿±ê¶ÀÁ¢Éè¼ÆÄ£ÐÍ£¬ÕâÒ²ÊÇÃÀÍÅÍâÂôËÑÍÆ¹ýÍùÄ£ÐÍÉè¼ÆµÄ¾µä·½Ê½¡£¶ø´Ó2021ÄêÆð£¬»ùÓÚ¶à³¡¾°È«¾ÖÓÅ»¯µÄ¿¼Á¿£¬ËÑÍÆ³¡¾°µÄCTR/CVRÔ¤¹ÀÄ£ÐÍ¿ªÊ¼Öð²½×ßÏò¶àÄ£ÐÍÍ³Ò»£¬×ÛºÏÀûÓÃ¶à¸öÈë¿ÚµÄÊý¾Ý¡¢½áºÏ²»Í¬Èë¿Ú×ÔÉíµÄÒµÎñÌØµãÊµÏÖ¶à¸öÈë¿ÚµÄÁª¶¯ÓÅ»¯£¬Öð²½ÊµÏÖ¡°One Model to Serve All¡±µÄÄ¿±ê¡£

´ÓÄ£ÐÍ¼ÆËãÊµ¼ùµÄ½Ç¶ÈÉÏ¿´£¬ÍâÂô¾«ÅÅÄ£ÐÍµÄ·¢Õ¹£¬ÈÃÄ£ÐÍDenseÍøÂçµÄ¼ÆËãÁ¿ÏÔÖøÅòÕÍ£¬ÒÔCPUÎª¼ÆËãÖ÷Á¦µÄÈíÓ²¼þ¼Ü¹¹ÒÑ¾ÄÑÒÔÓ¦¶ÔËã·¨µÄ·¢Õ¹ÐèÇó£¬¼´±ã³É±¾ÏûºÄ´ó·ù¼Ó¾ç£¬ËãÁ¦Ìì»¨°åÈÔÈ»¡°½üÔÚåë³ß¡±¡£¶øGPUÓ²¼þÃæÏò³íÃÜ¼ÆËãµÄËãÁ¦ÓÅÊÆ£¬Ç¡Ç¡ÎÇºÏÐÂµÄÄ£ÐÍÌØµã£¬¿ÉÒÔ´Ó¸ù±¾ÉÏ´òÆÆ¾«ÅÅÄ£ÐÍÔ¤¹À/ÑµÁ·ÖÐµÄËãÁ¦À§¾Ö¡£Òò´Ë£¬´Ó2021Äê¿ªÊ¼£¬ÃÀÍÅÍâÂôËÑÍÆ³¡¾°µÄÉî¶ÈÑ§Ï°ÌåÏµ¿ªÊ¼Öð²½´Ó´¿CPU¼Ü¹¹×ßÏòCPU+GPUµÄÒì¹¹Ó²¼þ¼ÆËãÆ½Ì¨£¬ÒÔÂú×ãÃÀÍÅÍâÂôÄ£ÐÍËã·¨ÑÝ½ø¶ÔËãÁ¦µÄÐÂÒªÇó¡£

±¾ÎÄ½ÓÏÂÀ´µÄÄÚÈÝ£¬»á´ÓÍâÂôËÑÍÆ³¡¾°µÄ¾«ÅÅÄ£ÐÍÉè¼Æ³ö·¢£¬½áºÏÃÀÍÅÊµ¼ÊµÄÈíÓ²¼þÌØµã£¬Îª´ó¼ÒÏêÏ¸·ÖÏíÔÚÍâÂô¾«ÅÅÄ£ÐÍÔ¤¹ÀÁìÓò£¬´Ó´¿CPU¼Ü¹¹×ªÐÍµ½CPU+GPUÒì¹¹Æ½Ì¨µÄÌ½Ë÷ºÍÊµ¼ù¹ý³Ì£¬¹©¹ã´ó¼¼ÊõÍ¬ÐÐ²Î¿¼¡£

3 ÍâÂôËÑÍÆ³¡¾°ÏÂµÄ¾«ÅÅÄ£ÐÍ

±¾ÕÂ½ÚÖ÷Òª½éÉÜÔÚÍâÂô³¡¾°ÏÂ¶àÄ£ÐÍÍ³Ò»µÄÑÝ½øË¼Â·¡¢Ä£ÐÍÌØµãÒÔ¼°ÔÚÊµ¼ùÖÐµÄÌôÕ½¡£±¾ÎÄÖ»¶ÔÄ£ÐÍÉè¼ÆË¼Â·×ö¼òµ¥µÄËµÃ÷£¬Òý³öºóÐøÄ£ÐÍ¼ÆËãÔÚGPUÂäµØÖÐµÄÊµ¼ùË¼¿¼¡£

3.1 ¾«ÅÅÄ£ÐÍµÄÉè¼ÆË¼Â·

ÈçÇ°ÎÄËùÊö£¬ÔÚÃÀÍÅÍâÂô¶àÈë¿ÚÁª¶¯µÄ³¡¾°ÌØµãÏÂ£¬¾µäµÄµ¥ÌåÄ£ÐÍÉè¼Æ´æÔÚ×ÅÒÔÏÂ¾ÖÏÞ£º

[*] Ê×Ò³ÍÆ¼öÓë¸÷½ð¸ÕÈë¿ÚÍÆ¼ö¸÷Î¬»¤Ò»¸ö¾«ÅÅÄ£ÐÍ£¬²»½öÎ¬»¤³É±¾¸ß¶øÇÒÑµÁ·Êý¾Ý¸îÁÑ£¬µ¼ÖÂ¾«ÅÅÄ£ÐÍ²»ÄÜ²¶×½µ½ÓÃ»§ÔÚËùÓÐÍÆ¼ö³¡¾°µÄÐËÈ¤¡£
[*] ÍÆ¼ö³¡¾°µÄ¾«ÅÅÄ£ÐÍÖ»Ê¹ÓÃÍÆ¼ö³¡¾°µÄÑµÁ·Ñù±¾£¬Î´ÀûÓÃÓÃ»§ÔÚÆäËûÖØÒªÈë¿ÚµÄÑµÁ·Ñù±¾£¬±ÈÈçËÑË÷¡¢¶©µ¥Ò³£¬Ä£ÐÍÖ»Ñ§Ï°µ½ÓÃ»§ÔÚ¾Ö²¿³¡¾°µÄÆ«ºÃÐÅÏ¢¡£
[*] ÍÆ¼ö³¡¾°µÄÑµÁ·Ñù±¾ÖÐ´æÔÚPosition BiasÎÊÌâ£¬¾ßÌåÊÇÖ¸ÓÃ»§µã»÷Ò»¸öÉÌ¼Ò£¬ÓÐ¿ÉÄÜÖ»ÊÇÒòÎª¸ÃÉÌ¼ÒÔÚÍÆ¼öFeedsÖÐÅÅÐòÎ»ÖÃ±È½Ï¿¿Ç°£¬¶ø·ÇÒòÎªÓÃ»§¶Ô´ËÉÌ¼ÒÕæÕý¸ÐÐËÈ¤£¬´ËÀàBias»áÒýÆðÄ£ÐÍÑµÁ·ÓÐÆ«¡£
[*] ¶àÄ¿±êÖ®¼ä´æÔÚ±´Ò¶Ë¹Ô¼Êø£¬ÍøÂç½á¹¹ÖÐÎ´¿¼ÂÇ£¬CXR=CTR ¡Á CVR£¬CXRÔ¤¹ÀÖµÓ¦±ÈCTRÐ¡£¬Ä£ÐÍÔÚÑéÖ¤¼¯ÉÏ»á³öÏÖCXR±ÈCTR»¹¸ßµÄÏÖÏó£¬Ô¤¹À²»×¼È·¡£

»ùÓÚ´Ë£¬ÔÚ2021Äê£¬ÃÀÍÅÍâÂôËÑÍÆ³¡¾°Ìá³öÁËÏò³¬Ô½µ¥ÌåµÄ¶àÄ£ÐÍÍ³Ò»ÑÝ½ø¡¢Öð²½ÊµÏÖ¡°One Model to Serve All¡±µÄË¼Ïë£¬ÕâÒ»ÀíÄîÔÚÄ£ÐÍÉè¼ÆÖÐ¾ßÌåÌåÏÖÔÚ£º

[*] CTR/CXR¶àÄ¿±êµÄÈÚºÏ£¬ÊµÏÖ¶àÄ¿±êÔ¤²âµÄÄ£ÐÍÍ³Ò»¡£
[*] ³¡¾°×¨¼ÒÍøÂçÓëAttentionÍøÂçµÄÈÚºÏ£¬ÊµÏÖ²»Í¬Á÷Á¿Èë¿ÚÖ®¼äµÄÄ£ÐÍ·º»¯ºÍÍ³Ò»¡£
[*] ÁìÓò×¨ÊôÍøÂçºÍ¹²ÏíÍøÂçµÄÈÚºÏ£¬ÊµÏÖÍÆ¼ö³¡¾°ÏòËÑË÷³¡¾°µÄÇ¨ÒÆÑ§Ï°¡£

ÈÚºÏ³¡¾°×¨¼ÒÍøÂçÓëAttentionµÄÄ£ÐÍÍøÂç½á¹¹Ê¾ÒâÍ¼

ÈÚºÏÁìÓò×¨ÊôÍøÂçºÍ¹²ÏíÍøÂçµÄÄ£ÐÍ½á¹¹Ê¾Òâ

Ëæ×ÅÍâÂô¾«ÅÅÄ£ÐÍµÄ·¢Õ¹ºÍÑÝ½ø£¬Ä£ÐÍDenseÍøÂçµÄ²ÎÊýÁ¿ÏÔÖøÔö¼Ó£¬µ¥´ÎÍÆÀíµÄFLOPs´ïµ½26M£¬¶ÔCPU¼ÆËã¼Ü¹¹Ôì³ÉÁË¾Þ´óÑ¹Á¦¡£ÁíÒ»·½Ãæ£¬ÎÒÃÇ²ÉÓÃFloat 16Ñ¹Ëõ¡¢ÌØÕ÷×Ô¶¯Ñ¡Ôñ¡¢ÍøÂç½»²æÌæ´úÊÖ¶¯½»²æÌØÕ÷µÈ¼¼ÊõÊÖ¶Î£¬½«Ä£ÐÍÓÉ100GËõÐ¡µ½10GÒÔÄÚ£¬²¢ÇÒ¹ý³ÌÖÐÍ¨¹ýÄ£ÐÍµÄÓÅ»¯£¬×öµ½ÁËÄ£ÐÍÐ§¹ûÎÞËð¡£

×ÛÉÏ£¬ÍâÂôËÑÍÆ¾«ÅÅÄ£ÐÍ³íÃÜ²¿·Ö¼ÆËã¸´ÔÓ¡¢Ï¡Êè²¿·ÖÌå»ý¿É¿Ø£¬ÕâÐ©Á¼ºÃµÄÌØÐÔ£¬ÎªÎÒÃÇÔÚGPUÓ²¼þ¼Ü¹¹ÉÏÂäµØÍÆÀí¼ÆËãÌá¹©ÁËÏà¶ÔÊÊÒËµÄÄ£ÐÍËã·¨»ù´¡¡£½ÓÏÂÀ´£¬ÎÒÃÇ½«Ì½ÌÖÈçºÎÔÚ¸ßÍÌÍÂ¡¢µÍºÄÊ±µÄÍâÂôËÑË÷ÍÆ¼öÏµÍ³ÖÐ£¬ÀûÓÃGPUÓ²¼þÓÐÐ§½â¾öÍâÂô¾«ÅÅÄ£ÐÍÔÚÏßÔ¤¹ÀÖÐµÄ³É±¾ºÍÐÔÄÜÎÊÌâ£¬²¢¸ø³öÎÒÃÇµÄÊµ¼ù¹ý³ÌºÍ½á¹û¡£

3.2 Ä£ÐÍÓ¦ÓÃµÄÌØµãÓëÌôÕ½

ÔÚËÑË÷/ÍÆ¼ö¼¼ÊõÁìÓòÖÐ£¬Ï¡ÊèÄ£ÐÍÔ¤¹À£¨CTR/CVR£©ÊÇ¾ö¶¨Ëã·¨Ð§¹ûµÄºËÐÄÒªËØ£¬Ä£ÐÍÔ¤¹À·þÎñÊÇËÑË÷ÍÆ¼öÏµÍ³ÖÐ±Ø²»¿ÉÉÙµÄ×é³É²¿·Ö£¬ÒµÄÚ¸÷´ó¹«Ë¾ÒÑÓÐºÜ¶à¾µäµÄÊµÏÖ·½°¸¡£ÔÚÌÖÂÛ¾ßÌåÊµ¼ùÖ®Ç°£¬ÏÈ½éÉÜÒ»ÏÂÎÒÃÇµÄ³¡¾°ÌØµã£º

¢Ù ÐèÇó²ãÃæ

[*] Ä£ÐÍ½á¹¹£ºÈçÇ°ÎÄ½éÉÜ£¬ÍâÂô³¡¾°ÏÂµÄ¾«ÅÅÄ£ÐÍµÄ³íÃÜÍøÂç²¿·ÖÏà¶Ô¸´ÔÓ£¬µ¥´ÎÍÆÀíµÄFLOPs´ïµ½26M£»¶øÄ£ÐÍµÄÏ¡Êè²¿·Ö¾¹ý´óÁ¿µÄÓÅ»¯£¬Ìå»ýµÃµ½ÁËÓÐÐ§µÄ¿ØÖÆ£¬Ä£ÐÍ¹æÄ£ÔÚ10GÒÔÄÚ¡£
[*] ·þÎñÖÊÁ¿ÒªÇó£ºÍÆ¼ö·þÎñ×÷Îª¾µäµÄ¸ßÐÔÄÜTo C³¡¾°£¬ÒµÄÚ´ó²¿·ÖÍ¬ÀàÏµÍ³µÄ³¬Ê±¿ØÖÆÔÚ°ÙºÁÃëÁ¿¼¶£¬·Ö½âµ½Ô¤¹À·þÎñ£¬³¬Ê±Ò»°ãÐèÒª¿ØÖÆÔÚÊ®ºÁÃëµÄÁ¿¼¶¡£

¢Ú Èí¼þ¿ò¼Ü²ãÃæ

[*] ¿ª·¢¿ò¼Ü£ºÄ£ÐÍ¿ª·¢²ÉÓÃTensorFlow¿ò¼Ü¡£×÷ÎªÖ÷Á÷µÄÉî¶ÈÑ§Ï°µÚ¶þ´ú¿ò¼Ü£¬TensorFlow¾ß±¸Ç¿´óµÄÄ£ÐÍ±í´ïÄÜÁ¦£¬ÕâÒ²µ¼ÖÂÆäËã×ÓÁ£¶È±È½ÏÐ¡£¬ÕâÒ»ÌØµãÎÞÂÛÊÇ¶ÔCPU»¹ÊÇGPU¼Ü¹¹¶¼»á´øÀ´ºÜ´óµÄ¶îÍâ¿ªÏú¡£
[*] ÔÚÏß·þÎñ¿ò¼Ü£º²ÉÓÃTensorFlow Serving¿ò¼Ü¡£»ùÓÚ´Ë¿ò¼Ü£¬¿É½«ÀëÏßÑµÁ·ºÃµÄ»úÆ÷Ñ§Ï°Ä£ÐÍ²¿Êðµ½ÏßÉÏ£¬²¢ÀûÓÃrpc¶ÔÍâÌá¹©ÊµÊ±Ô¤¹À·þÎñ¡£TensorFlow ServingÖ§³ÖÄ£ÐÍÈÈ¸üÐÂ¼°Ä£ÐÍ°æ±¾¹ÜÀí£¬Ö÷ÒªÌØµãÊÇÊ¹ÓÃÁé»î£¬ÐÔÄÜ½ÏºÃ¡£

¢Û Ó²¼þ²ãÃæ

[*] »úÐÍÌØÐÔ£ºÃÀÍÅ»ùÓÚÌáÉýËãÁ¦ÃÜ¶ÈµÄ¿¼Á¿£¬ÔÚÔ¤¹À·þÎñ²ÉÓÃÁËGPU BOX»úÐÍ¡£Ïà¶ÔÓÚ´«Í³µÄGPU²å¿¨»úÐÍ£¬ÕâÒ»Àà»úÐÍÃ¿ÕÅGPU¿¨ÅäÌ×µÄCPUºÍÄÚ´æÏà¶ÔÓÐÏÞ£¬ÕâÐèÒªÎÒÃÇÔÚÉè¼ÆÔÚÏß·þÎñÊ±£¬¾«Ï¸»¯µÄ¿¼Á¿CPU¡¢GPUÉÏµÄ¼ÆËãºÍÊý¾Ý·Ö²¼£¬´ïµ½¸üºÃµÄÀûÓÃÂÊ¾ùºâ¡£
[*] GPU¹ÌÓÐÊôÐÔ£ºGPU kernel´óÌåÉÏ¿ÉÒÔ»®·ÖÎª´«ÊäÊý¾Ý¡¢kernelÆô¶¯¡¢kernel¼ÆËãµÈ¼¸¸ö½×¶Î£¬ÆäÖÐÃ¿¸ökernelµÄÆô¶¯ÐèÒªÔ¼10us×óÓÒ¡£Òò´Ë£¬GPUÔ¤¹À»áÃæÁÙÒ»¸öÆÕÊÊÎÊÌâ£¬´óÁ¿µÄÐ¡Ëã×Óµ¼ÖÂÃ¿¸ökernelµÄÖ´ÐÐÊ±¼äºÜ¶Ì£¬kernelÆô¶¯µÄºÄÊ±Õ¼ÁË´ó²¿·Ö¡£ÏàÁÚµÄkernelÖ®¼äÐèÒªÍ¨¹ý¶ÁÐ´ÏÔ´æ½øÐÐÊý¾ÝµÄ´«Êä£¬²úÉú´óÁ¿µÄ·Ã´æ¿ªÏú¡£¶øGPUµÄ·Ã´æÍÌÍÂÔ¶Ô¶µÍÓÚ¼ÆËãÍÌÍÂ£¬µ¼ÖÂÐÔÄÜµÍÏÂ£¬GPUµÄÀûÓÃÂÊ²¢²»¸ß¡£

×Ü½á¶øÑÔ£¬ÓëÒµÄÚÆäËûÖ÷Á÷ËÑÍÆ³¡¾°Ïà¶Ô±È£¬ÎÒÃÇµÄCTRÄ£ÐÍÔ¤¹À³¡¾°ÓÐÁ½¸öÃ÷ÏÔÌØµã£º

[*] ³íÃÜÍøÂç²¿·Ö¼ÆËã¸´ÔÓ¶È¸ß£¬Ïà¶ÔµÄ£¬Ï¡ÊèÍøÂçÔÚÄ£ÐÍÉè¼Æ»·½Ú¾¹ýÁË´óÁ¿µÄÓÅ»¯£¬Ìå»ýÏà¶Ô½ÏÐ¡¡£
[*] Ê¹ÓÃGPU BOX»úÐÍ£¬µ¥GPU¿¨µÄCPUÅä¶îÊÜÏÞ£¬ÐèÒªÕë¶ÔÐÔÓÅ»¯CPUµÄ¼ÆËã¸ººÉ¡£

»ùÓÚÕâÁ½¸öÌØµã£¬ÎÒÃÇÔÚÃæÏòGPUµÄÓÅ»¯Êµ¼ùÖÐ¾Í¿ÉÒÔ¸ü¾ßÕë¶ÔÐÔÁË¡£

4 Ä£ÐÍ·þÎñ¼Ü¹¹¸ÅÀÀ

±¾ÕÂ½Ú¼òÒª½éÉÜÃÀÍÅÍâÂôËÑÍÆÔÚÏßÔ¤¹À·þÎñµÄÕûÌå¼Ü¹¹ºÍ½ÇÉ«·Ö¹¤£¬Ò²ÊÇÍâÂôËÑÍÆ¾«ÅÅÄ£ÐÍÔÚGPUÂäµØÊµ¼ùµÄ¹¤³ÌÏµÍ³»ù´¡¡£

ÏµÍ³¹Ø¼ü½ÇÉ«

[*] Dispatch£º³Ðµ£×ÅÌØÕ÷»ñÈ¡ºÍÌØÕ÷¼ÆËãµÄÖ°ÄÜ£¬ÈçÇ°ÎÄËùÊö£¬ÃÀÍÅÊ¹ÓÃGPU BOX»úÐÍ´î½¨Ô¤¹À·þÎñ£¬ÍÆÀí¼ÆËãµÄCPU×ÊÔ´±¾Éí¾ÍÊ®·Ö³Ô½ô£¬Òò´Ë×ÔÈ»»á¿¼ÂÇ½«ÔÚÏßÌØÕ÷¹¤³Ì²¿·Ö¶ÀÁ¢²¿Êð£¬±ÜÃâCPU×ÊÔ´µÄÇÀÕ¼¡£±¾²¿·ÖºÍGPUÊµ¼ù¹ØÏµ²»´ó£¬²»ÊÇ±¾ÎÄµÄÖØµã¡£
[*] Engine£º³Ðµ£×ÅÄ£ÐÍÔÚÏßÍÆÀíµÄÖ°ÄÜ£¬Í¨¹ýRPCµÄ·½Ê½ÊäÈëÌØÕ÷¾ØÕó¡¢Êä³öÔ¤¹À½á¹û¡£²ÉÓÃGPU BOX»úÐÍ£¨µ¥ÈÝÆ÷8ºË+1 NVIDIA Tesla T4£©£¬Æ½¾ùÏìÓ¦Ê±¼äÐè¿ØÖÆÔÚ20msÒÔÄÚ£¬ÏÂÎÄËùÊöGPUÓÅ»¯Êµ¼ùÖ÷ÒªÃæÏòÕâÒ»Ä£¿éµÄÌØµã½øÐÐ¡£
[*] Booster£ºÔÚÄ£ÐÍ¸üÐÂ¹ý³ÌÖÐÀëÏßÖ´ÐÐµÄÄ£ÐÍÓÅ»¯Æ÷£¬ÄÚ²¿ÒÔOptimizer²å¼þµÄ·½Ê½£¬»ìºÏÁËÊÖ¹¤ÓÅ»¯Æ÷²å¼þºÍDL±àÒëÓÅ»¯Æ÷²å¼þ£¬ÊÇÏÂÎÄËùÊöGPUÓÅ»¯²Ù×÷µÄÖ´ÐÐÕß¡£

5 GPUÓÅ»¯Êµ¼ù

±¾ÕÂ½Ú½«Õ¹¿ª·ÖÏí¾«ÅÅÄ£ÐÍÔ¤¹À¼ÆËãÔÚGPU¼Ü¹¹ÂäµØÖÐµÄÓÅ»¯¹ý³Ì¡£

ÓëCV¡¢NLPµÈ¾µä»úÆ÷Ñ§Ï°ÁìÓò²»Í¬£¬ÒÔCTRÄ£ÐÍÎª´ú±íµÄÏ¡ÊèÄ£ÐÍÓÉÓÚ½á¹¹¶à±ä¡¢°üº¬´óÁ¿ÒµÎñÌØ»¯µÈÔÒò£¬Ó²¼þ¹©Ó¦ÉÌÄÑÒÔ¶ÔÕâÒ»ÀàÎ´ÊÕÁ²µÄÄ£ÐÍ½á¹¹Ìá¹©¶Ëµ½¶ËÓÅ»¯¹¤¾ß¡£Òò´Ë£¬ÔÚCTRÄ£ÐÍ´ó¹æÄ£Ó¦ÓÃµÄÁìÓòÖÐ£¬Ò»°ã»á½áºÏGPUÌØÐÔ£¬ÃæÏòÊ¹ÓÃ³¡¾°¶ÔÄ£ÐÍÖ´ÐÐCase By CaseµÄÓÅ»¯´ëÊ©¡£°´Ä£ÐÍÓÅ»¯µÄÄ¿±êÀ´Çø·Ö£¬¿ÉÒÔ´óÖÂ·ÖÀàÎªÏµÍ³ÓÅ»¯ºÍ¼ÆËãÓÅ»¯£º

¢Ù ÏµÍ³ÓÅ»¯£ºÒ»°ãÖ¸Í¨¹ý¶Ô¼ÆËã¡¢´æ´¢¡¢´«ÊäµÄµ÷¶È£¬Ê¹CPU+GPUµÄÒì¹¹Ó²¼þÌåÏµ¿ÉÒÔ¸üÓÐÐ§ÂÊµÄÐÍ¬ºÍ±»Ê¹ÓÃ¡£µäÐÍµÄÏµÍ³ÓÅ»¯°üÀ¨£º

[*] Éè±¸°Ú·Å
[*] Ëã×ÓÈÚºÏ
[*] GPU²¢·¢/Á÷Ë®ÏßÓÅ»¯

¢Ú ¼ÆËãÓÅ»¯£ºÒ»°ãÖ¸ÃæÏòÓ²¼þÌØÐÔ£¬ÓÅ»¯Ä£ÐÍÇ°ÏòÍÆÀíÍøÂçµÄ½á¹¹Éè¼ÆºÍËã×ÓÖ´ÐÐÂß¼£¬Ê¹Ä£ÐÍÍÆÀí¼ÆËãÔÚGPUÉÏµÄ¼ÆËã¿ªÏú¸üÐ¡£¬Ð§ÂÊ¸ü¸ß¡£µäÐÍµÄ¼ÆËãÓÅ»¯°üÀ¨£º

[*] ÈßÓà¼ÆËãÈ¥³ý
[*] Á¿»¯¼ÆËã
[*] ¸ßÐÔÄÜ¿âµÄÓ¦ÓÃ

ÔÚ±¾ÎÄ½éÉÜµÄÓÅ»¯¹¤×÷ÖÐ£¬ÎÒÃÇ¶ÔÉÏÊö³£¼ûÓÅ»¯ÖÐµÄ´ó²¿·ÖË¼Â·½øÐÐÁËÌ½Ë÷ºÍÊµ¼ù£¬ÏÂÎÄ»áÖðÒ»½øÐÐ²ûÊö£¬²¢¸ø³öÓÅ»¯Ð§¹ûºÍÃæÏòÊµ¼Ê³¡¾°µÄ×Ü½á·ÖÎö¡£

5.1 ÏµÍ³ÓÅ»¯

5.1.1 Éè±¸°Ú·Å

TensorFlow»áÎª¼ÆËãÍ¼ÖÐÃ¿¸öNode×Ô¶¯ÉèÖÃRuntime Device£¬¼ÆËã½ÏÖØÕß·ÅÖÃÔÚGPU£¬¼ÆËã½ÏÇáÕß·ÅÖÃÔÚCPU¡£ÔÚ¸´ÔÓ¼ÆËãÍ¼ÖÐÍê³ÉÒ»´ÎÍêÕûµÄinference£¬Êý¾Ý»áÔÚCPUºÍGPUÖ®¼ä·´¸´´«Êä¡£ÓÉÓÚH2D/D2H´«ÊäºÜÖØ£¬Õâ»áÔì³ÉÊý¾Ý´«ÊäºÄÊ±Ô¶´óÓÚop£¨operator£©ÄÚ²¿¼ÆËãºÄÊ±£¬ÔÚGPUÏÂÄ£ÐÍÒ»´ÎÔ¤¹ÀºÄÊ±ÎªÃë¼¶±ð£¬Ô¶¸ßÓÚÖ»Ê¹ÓÃCPUÊ±µÄºÄÊ±¡£´ËÍâ£¬ÈçÇ°ËùÊö£¬ÎÒÃÇËùÊ¹ÓÃµÄGPU»úÐÍÉÏCPU×ÊÔ´ÊÜÏÞ£¨Ò»ÕÅT4¿¨½ö¶ÔÓ¦8ºËCPU£©£¬ÕâÒ²ÊÇÎÒÃÇÔÚÒì¹¹¼Ü¹¹Éè¼ÆÖÐÐèÒª½â¾öµÄºËÐÄ¼¼ÊõÌôÕ½¡£

Îª½â¾öTensorFlow×Ô¶¯Éè¶¨Runtime Device²»ºÏÀíµÄÎÊÌâ£¬ÎÒÃÇÎª¼ÆËãÍ¼ÖÐÃ¿¸öNodeÊÖ¶¯Set Runtime Device¡£¿¼ÂÇµ½CPU×ÊÔ´ÊÜÏÞ£¬ÎÒÃÇ¾¡Á¿µÄ½«¼ÆËã½ÏÖØµÄ×ÓÍ¼£¨°üÀ¨Attention×ÓÍ¼¡¢MLP×ÓÍ¼£©·ÅÖÃÔÚGPU¼ÆËã£¬¼ÆËã½ÏÇáµÄ×ÓÍ¼£¨Ö÷ÒªÎªEmbedding²éÑ¯×ÓÍ¼£©·ÅÖÃÔÚCPU¼ÆËã¡£

Îª½øÒ»²½¼õÉÙÉè±¸¼äÊý¾Ý´«Êä£¬ÎÒÃÇÔÚCPUºÍGPUÖ®¼äÔö¼ÓConcat opºÍSplit op£¬CPUÊý¾ÝÏÈConcatµ½Ò»ÆðÔÙ´«Êäµ½GPU£¬Ö®ºóÔÙ°´ÐèSplit³É¶à·Ý²¢´«¸ø¶ÔÓ¦op£¬½«H2D/D2H´ÓÉÏÇ§´Î½µµÍµ½Êý´Î¡£ÈçÏÂÍ¼ËùÊ¾£¬Éè±¸°Ú·ÅÓÅ»¯Ö®Ç°£¬ÓÐ´óÁ¿µÄH2DÊý¾Ý´«Êä£»ÓÅ»¯Ö®ºó£¬H2D¼õÉÙÎª3´Î£¬ÓÅ»¯Ð§¹ûÊ®·ÖÃ÷ÏÔ¡£

5.1.2 All On GPU

Íê³É»ù±¾µÄÉè±¸°Ú·ÅÓÅ»¯ºó£¬¼ÆËã½ÏÇáµÄSparse²éÑ¯²¿·ÖÔÚCPUÍê³É£¬¼ÆËã½ÏÖØµÄDense¼ÆËã²¿·ÖÔÚGPUÍê³É¡£ËäÈ»CPUÉÏ¼ÆËã½ÏÇá£¬µ«Ñ¹²â·¢ÏÖÆäÈÔ¾ÉÊÇÕûÌåÍÌÍÂÆ¿¾±¡£¿¼ÂÇµ½ÕûÌå¼ÆËãÍ¼½ÏÐ¡£¨Ô¼2G£©£¬ÎÒÃÇ×ÔÈ»µÄÏëµ½ÊÇ·ñ¿ÉÒÔ½«ÕûÍ¼·ÅÔÚGPUÖ´ÐÐ£¬ÈÆ¿ªCPUÅä¶îµÄÏÞÖÆ£¬´Ë¼´All On GPU¡£ÎªÁË½«ÔÔÚCPU½øÐÐµÄSaprse²éÑ¯¸ÄÎªÔÚGPUÖ´ÐÐ£¬ÎÒÃÇÐÂÔöÁËLookupTable opµÄGPUÊµÏÖ¡£ÈçÏÂÍ¼ËùÊ¾£¬HashTable·ÅÖÃÔÚGPU Global Memory£¬ËüµÄKeyÓëValueÍ³Ò»´æ´¢ÔÚBucketÖÐ¡£Õë¶ÔÊäÈëµÄ¶à×éKey£¬ÀûÓÃ¶à¸öBlockµÄThreads²¢ÐÐ²éÑ¯¡£

Í¬Ê±£¬ÎªÌá¸ßGPUÀûÓÃÐ§ÂÊ£¬½µµÍkernel launch¿ªÏú£¬ÎÒÃÇÀûÓÃTVM¶Ô¼ÆËãÍ¼½øÐÐ±àÒëÓÅ»¯£¨ÏÂÎÄ»á½øÐÐÏêÏ¸½éÉÜ£©¡£ÓÅ»¯ºóµÄAll On GPUÄ£ÐÍÍ¼½â¾öÁËCPU×ÊÔ´ÊÜÏÞ´øÀ´µÄÆ¿¾±£¬ÕûÌåÍÌÍÂÌáÉýÃ÷ÏÔ£¨qps 55->220£¬Ô¼4±¶£©¡£

5.1.3 Ëã×ÓÈÚºÏ

ÍâÂôËÑÍÆ¾«ÅÅÄ£ÐÍÊ®·Ö¸´ÔÓ£¬¼ÆËãÍ¼ÖÐ°üº¬ÉÏÍò¸ö¼ÆËãNode¡£GPUÉÏÖ´ÐÐ¼ÆËãÍ¼Ê±£¬Ã¿¸öNode¶¼ÓÐkernel launch¿ªÏú£¬¶à¸öNodeÖ®¼ä»¹ÓÐ·ÃÎÊÏÔ´æ¿ªÏú¡£´ËÍâ£¬TensorFlow¿ò¼Ü±¾ÉíÔÚNodeÖ´ÐÐÊ±»á´øÀ´Ò»¶¨¿ªÏú£¬Ã¿¸öNodeÖ´ÐÐÊ±¶¼»á´´½¨¡¢Ïú»ÙInput/Output Tensor£¬ÄÚ´æ¿ØÖÆÒýÈë¶îÍâ³É±¾¡£Òò´Ë£¬¼ÆËãÍ¼ÖÐNode¹ý¶à»áÑÏÖØÓ°ÏìÖ´ÐÐÐ§ÂÊ¡£Îª½â¾öÕâÒ»ÎÊÌâ£¬³£ÓÃµÄ·½·¨ÊÇ½øÐÐËã×ÓÈÚºÏ£¬¼´ÔÚ¼ÆËã½á¹ûµÈ¼ÛµÄÇ°ÌáÏÂ£¬½«¶à¸öNodeÈÚºÏ³ÉÒ»¸öNode£¬¾¡Á¿½µµÍ¼ÆËãÍ¼NodeÊýÁ¿£¬ÕâÑù¼È¿ÉÒÔ½«NodeÖ®¼äµÄ·ÃÎÊÏÔ´æ¿ªÏú×ªÎª·ÃÎÊ¼Ä´æÆ÷¿ªÏú£¬Í¬Ê±Ò²¿ÉÒÔ¼õÉÙ¼ÆËãÍ¼ÖÐÃ¿¸öNode´øÀ´µÄ¹Ì¶¨¿ªÏú¡£

Ëã×ÓÈÚºÏÖ÷ÒªÍ¨¹ýÈýÖÖ·½Ê½½øÐÐ£º

[*] ÌØ¶¨Ëã×ÓÊÖ¶¯ÈÚºÏ¡£ÀýÈçÄ£ÐÍÑµÁ·½×¶ÎÖÐ£¬Õë¶ÔÒ»¸öEmbedding Table»áÓÐ¶à¸öNode·ÃÎÊ£¬ÔÚÏßÔ¤¹À½×¶Î¿É½«ÆäÈÚºÏ³ÉÒ»¸öNode£¬¼´²éÑ¯NodeºÍEmbedding TableÒ»Ò»¶ÔÓ¦¡£´Ëºó¿É½øÒ»²½ÈÚºÏËã×Ó£¬Ò»¸öNode¸ºÔð²éÑ¯¶à¸öEmbeddding Table¡£
[*] ³£¼ûËã×Ó×Ô¶¯ÈÚºÏ£¬Ö÷ÒªÊÇÀûÓÃTensorFlow GrapplerÓÅ»¯Æ÷½øÐÐËã×Ó×Ô¶¯ÈÚºÏ¡£
[*] ÀûÓÃÉî¶ÈÑ§Ï°±àÒëÆ÷×Ô¶¯ÈÚºÏ£¬ÏÂÎÄ»áÏêÏ¸½øÐÐ½éÉÜ¡£

5.2 ¼ÆËãÓÅ»¯

5.2.1 FP16µÍ¾«¶ÈÓÅ»¯

Ò»·½Ãæ£¬ÔÚCPU¼Ü¹¹ÏÂ£¬ÎªÁË½µµÍÄÚ´æ¿ªÏú£¬ÒÑ¾½«Embedding TableÑ¹ËõÎªFP16´æ´¢£¬µ«ÊÇ¼ÆËãÊ±ÈÔ»áÕ¹¿ªÎªFP32£¬ÕâÒýÈëÁË×ª»»¿ªÏú£»ÁíÒ»·½Ãæ£¬Ä£ÐÍÔ¤¹À½ö½øÐÐÄ£ÐÍÍ¼µÄÇ°Ïò¼ÆËã£¬Ê¹ÓÃµÍ¾«¶È¼ÆËãÒýÈëµÄÎó²î½ÏÐ¡¡£Òò´Ë£¬Òµ½çÆÕ±éÊ¹ÓÃµÍ¾«¶È·½Ê½½øÐÐÄ£ÐÍÔ¤¹À¼ÆËã¡£

Õë¶Ôµ±Ç°µÄÒµÎñ³¡¾°£¬ÎÒÃÇ³¢ÊÔÁËFP16¡¢INT8µÈµÍ¾«¶È¼ÆËã£¬FP16°ë¾«¶È¼ÆËã¶ÔÄ£ÐÍÐ§¹ûÎÞÃ÷ÏÔÓ°Ïì£¬INT8Á¿»¯Ôò»áÔì³ÉÐ§¹ûË¥¼õ¡£Òò´Ë£¬ÎÒÃÇ²ÉÓÃFP16°ë¾«¶È¼ÆËãµÄ·½Ê½£¬ÔÚ²»Ó°ÏìÄ£ÐÍÐ§¹ûµÄÇ°ÌáÏÂ£¬½øÒ»²½ÌáÉýÔ¤¹À·þÎñµÄÍÌÍÂ¡£

5.2.2 broadcastÓÅ»¯

Ä£ÐÍÍ¼ÖÐµÄÊý¾Ý¿ÉÒÔ·ÖÎªuserºÍitemÁ½Àà¡£Í¨³£Çé¿öÏÂ£¬ÇëÇóÖÐ°üº¬Ò»¸öuserÒÔ¼°¶à¸öitem¡£ÔÚÄ£ÐÍSparse²¿·Ö£¬userºÍitem·Ö±ð»ñÈ¡Embedding£»ÔÚÄ£ÐÍDense²¿·Ö£¬Á½ÀàEmbedding×éºÏ³É¾ØÕóºó½øÐÐ¼ÆËã¡£¾¹ýÉîÈë·ÖÎö£¬ÎÒÃÇ·¢ÏÖÄ£ÐÍÍ¼ÖÐ´æÔÚÈßÓà²éÑ¯ºÍ¼ÆËã¡£ÈçÏÂÍ¼³ÈÉ«²¿·ÖËùÊ¾£¬ÔÚÄ£ÐÍSparse²¿·Ö£¬userÐÅÏ¢ÏÈ±»broadcast³Ébatchsize´óÐ¡ÔÙÈ¥²éÑ¯Embedding£¬µ¼ÖÂÍ¬Ò»¸öEmbedding²éÑ¯ÁËbatchsize´Î£»ÔÚÄ£ÐÍDense²¿·Ö£¬userÐÅÏ¢Í¬Ñù±»broadcast³Ébatchsize´óÐ¡£¬ÔÙ½øÐÐÖ®ºóËùÓÐ¼ÆËã£¬Êµ¼ÊÉÏÔÚºÍitem½»²æÖ®Ç°²»±Øbroadcast user£¬Í¬Ñù´æÔÚÈßÓà¼ÆËã¡£

Õë¶ÔÒÔÉÏÎÊÌâ£¬ÎÒÃÇ¶ÔÄ£ÐÍÍ¼½øÐÐÁËÊÖ¹¤ÓÅ»¯£¬ÈçÏÂÍ¼×ÏÉ«²¿·ÖËùÊ¾£¬ÔÚÄ£ÐÍSparse²¿·Ö£¬userÐÅÏ¢Ö»²éÑ¯Ò»´ÎEmbedding£»ÔÚÄ£ÐÍDense²¿·Ö£¬userÐÅÏ¢Óëitem½»²æÊ±ÔÙbroadcast³Ébatchsize´óÐ¡£¬¼´ÕûÌåÉÏ½«userÐÅÏ¢µÄbroadcastºóÖÃ¡£

5.2.3 ¸ßÐÔÄÜ¿âÓ¦ÓÃ

Ê¹ÓÃCPUÊ±£¬¿ÉÒÔÀûÓÃIntel MKL¿â¶Ô¼ÆËã½øÐÐ¼ÓËÙ¡£ÊÜÏÞÓÚCPUÓ²¼þÌØµã£¬¼ÓËÙÐ§¹ûÓÐÏÞ¡£Ê¹ÓÃGPUÊ±£¬ÎÒÃÇ¿ÉÒÔÀûÓÃTensor Core½øÐÐ¼ÓËÙ¼ÆËã¡£Ã¿¸öTensor Core¶¼ÊÇÒ»¸ö¾ØÕó³ËÀÛ¼Ó¼ÆËãµ¥Ôª£¬µ±Ç°Ê¹ÓÃµÄNVIDIA T4¿¨¾ßÓÐ320¸öTensor Core£¬ÔÚ»ìºÏ¾«¶È¼ÆËãÊ±ËãÁ¦Îª65 TFLOPS£¬ÔÚµ¥¾«¶È¼ÆËãÊ±ËãÁ¦Îª8.1 TFLOPS£¬¾ßÓÐ¼«Ç¿µÄÍÆÀíÐÔÄÜ¡£ÔÚTensorFlowÖÐ£¬¿ÉÀûÓÃcuBLASµ÷ÓÃTensor Core½øÐÐGEMM¼ÓËÙ¼ÆËã£¬ÀûÓÃcuDNNµ÷ÓÃTensor Core½øÐÐCNN¡¢RNNÍøÂç¼ÓËÙ¼ÆËã¡£
5.3 »ùÓÚDL±àÒëÆ÷µÄ×Ô¶¯ÓÅ»¯

Ëæ×ÅÉî¶ÈÑ§Ï°ÍøÂçÔ½À´Ô½¸´ÔÓ£¨Wider And Deeper£©£¬Ó²¼þÉè±¸Ô½À´Ô½¶àÑù£¨CPU¡¢GPU¡¢NPU£©£¬Éñ¾ÍøÂçµÄÓÅ»¯¹¤×÷Ò²±äµÃÔ½À´Ô½À§ÄÑ¡£ÔÚµ¥Ò»Ó²¼þ¡¢µ¥Ò»¿ò¼ÜÉÏµÄÓÅ»¯»áÊÜµ½ÓÅ»¯¿âÏÞÖÆ£¬ºÜÄÑ½øÒ»²½µ÷ÓÅ¡£ÔÚ²»Í¬Ó²¼þ¡¢²»Í¬¿ò¼ÜµÄÓÅ»¯ÓÖºÜÄÑ×öµ½Í¨ÓÃ£¬ÓÅ»¯ºÜÄÑÒÆÖ²¡£Õâµ¼ÖÂÓÅ»¯Éñ¾ÍøÂçÊ±£¬ÐèÒª´óÁ¿µÄÊÖ¶¯µ÷ÓÅ¹¤×÷£¬³É±¾ºÜ¸ß¡£

ÎªÁË½µµÍÊÖ¶¯ÓÅ»¯µÄ³É±¾£¬Òµ½çÆÕ±éÊ¹ÓÃÉî¶ÈÑ§Ï°±àÒëÆ÷£¨Deep Learning Compiler£©¶Ô¼ÆËãÍ¼½øÐÐ×Ô¶¯µ÷ÓÅ¡£±È½ÏÁ÷ÐÐµÄÉî¶ÈÑ§Ï°±àÒëÆ÷°üÀ¨TensorRT¡¢TVM¡¢XLAµÈ£¬ÎÒÃÇÔÚµ±Ç°µÄÄ£ÐÍ³¡¾°ÏÂÀûÓÃÉî¶ÈÑ§Ï°±àÒëÆ÷×öÁË½Ï¶àµÄÓÅ»¯³¢ÊÔ£¬ÏÂÎÄ»áÏêÏ¸½øÐÐ½éÉÜ¡£

5.3.1 »ùÓÚTensorRTµÄ³¢ÊÔ

TensorRTÊÇNVIDIAÍÆ³öµÄ¸ßÐÔÄÜÉî¶ÈÑ§Ï°ÍÆÀíÓÅ»¯¿ò¼Ü£¬Ö§³Ö×Ô¶¯Ëã×ÓÈÚºÏ¡¢Á¿»¯¼ÆËã¡¢¶àÁ÷Ö´ÐÐµÈ¶àÖÖÓÅ»¯ÊÖ¶Î£¬²¢ÇÒ¿ÉÒÔÕë¶Ô¾ßÌåkernelÑ¡Ôñ×îÓÅÊµÏÖ¡£TensorRTµÄ¸÷ÓÅ»¯¾ùÍ¨¹ý¶ÔÓ¦¿ª¹Ø¿ØÖÆ£¬Ê¹ÓÃºÜ¼òµ¥£»µ«ÊÇÕûÌå±ÕÔ´£¬²¢ÇÒÖ§³ÖµÄËã×Ó²»¶à£¬Ö»ÄÜ¶Ô¼ÆËãÍ¼µÄ²¿·ÖËã×Ó×öÓÅ»¯£¬Óöµ½²»Ê¶±ðµÄËã×ÓÔò»áÌø¹ý£¬Ê®·ÖÓ°ÏìÓÅ»¯Ð§ÂÊ¡£ÀûÓÃTensorRTÓÅ»¯ºóµÄ¼ÆËãÍ¼£¬ÈÔ¾É´æÔÚ´óÁ¿op£¬ÕûÌåÐÔÄÜÌáÉýÓÐÏÞ¡£Îª½â¾öÕâ¸öÎÊÌâ£¬ÎÒÃÇ´ÓÒÔÏÂÁ½¸ö½Ç¶È½øÐÐ³¢ÊÔ¡£

¢Ù ÊÖ¶¯ÇÐ·Ö×ÓÍ¼

ÀûÓÃTensorRT½øÐÐÍ¼ÓÅ»¯Ê±£¬»áÏÈÀûÓÃUnion FindËã·¨ÔÚÈ«Í¼ÖÐÑ°ÕÒ¿ÉÊ¶±ðop²¢½«Æä¾ÛÀà£¬Ã¿¸ö¾ÛÀà½øÐÐ¾ßÌåµÄ±àÒëÓÅ»¯£¬²¢²úÉúÒ»¸ö¶ÔÓ¦µÄTRTEngineOp¡£ÓÉÓÚ¼ÆËãÍ¼ÖÐ´æÔÚ´óÁ¿²»Ê¶±ðop£¬¶Ô¾ÛÀà¹ý³ÌÔì³ÉÁË¸ÉÈÅ£¬¼´Ê¹¿ÉÊ¶±ðopÒ²²»Ò»¶¨ÄÜÍê³É¾ÛÀà£¬ÔòÎÞ·¨½øÐÐ¶ÔÓ¦±àÒëÓÅ»¯£¬Ôì³ÉÓÅ»¯Ð§ÂÊ½ÏµÍ¡£Îª½â¾öÕâÒ»ÎÊÌâ£¬Í¼ÓÅ»¯Ç°ÎÒÃÇÏÈ½øÐÐÊÖ¶¯ÇÐÍ¼£¬½«È«¼ÆËãÍ¼ÇÐ·ÖÎªÈô¸É¸ö×ÓÍ¼£¬Ã¿¸ö¿ÉÊ¶±ðop¶¼·ÅÈë¶ÔÓ¦×ÓÍ¼ÖÐ£¬²¢½«×ÓÍ¼ËÍÈëTensorRT½øÐÐÓÅ»¯¡£Í¨¹ýÕâÒ»·½·¨£¬ÓÐÐ§½â¾öÁË¿ÉÊ¶±ðopÎ´ÓÅ»¯µÄÎÊÌâ£¬ÓÐÐ§½µµÍÁËÈ«Í¼opÊýÁ¿¡£

¢Ú Ëã×ÓÌæ»»

ÈçÇ°ËùÊö£¬TensorRTÖ§³ÖopÀàÐÍÓÐÏÞ£¬È«Í¼ÖÐ´æÔÚ´óÁ¿TensorRTÎÞ·¨Ê¶±ðµÄop£¬µ¼ÖÂÓÅ»¯Ð§ÂÊÆ«µÍ¡£ÎªÁË»º½âÕâÒ»ÎÊÌâ£¬ÎÒÃÇ½«TensorRT²»Ê¶±ðµÄop¾¡Á¿Ìæ»»³ÉÆäÖ§³ÖµÄµÈ¼Ûop¡£ÀýÈçÏÂÍ¼ÖÐ£¬TensorRTÎÞ·¨Ê¶±ðSelect op£¬ÎÒÃÇ½«ÆäÌæ»»³ÉTensorRTÖ§³ÖµÄMultiply op£¬²¢½«Select¹ØÁªµÄExpandDims op´ÓÍ¼ÖÐÏûµô¡£¾¹ýÀàËÆµÄµÈ¼Û×ª»»²Ù×÷£¬ÓÐÐ§½µµÍÁËÎ´Ê¶±ðopÊýÁ¿£¬Ìá¸ßÁË±àÒëÓÅ»¯¸²¸ÇÂÊ¡£

5.3.2 »ùÓÚTVMµÄ³¢ÊÔ

ÔÚ³¢ÊÔTensorRTÓÅ»¯Ê±ÎÒÃÇ·¢ÏÖ£¬TensorRT¶ÔTensorFlowµÄËã×Ó¸²¸ÇÂÊ½ÏµÍ£¨Ö»ÄÜ¸²¸ÇÔ¼50+Ëã×Ó£©£¬ÔÚµ±Ç°µÄÄ£ÐÍ¼ÆËãÍ¼ÖÐ£¬ÓÐÊ®¶à¸öËã×ÓÎÞ·¨Ö§³Ö¡£¼´Ê¹¾¹ý¸´ÔÓµÄËã×ÓÌæ»»ÓÅ»¯¹¤×÷£¬ÈÔÈ»´æÔÚ¶à¸öËã×ÓÄÑÒÔÌæ»»¡£ÓÉ´ËÎÒÃÇË¼¿¼²ÉÓÃÆäËûµÄÉî¶ÈÑ§Ï°±àÒëÆ÷½øÐÐÍ¼ÓÅ»¯¡£

TVMÊÇ³ÂÌìÆæÍÅ¶ÓÍÆ³öµÄ¶Ëµ½¶Ë»úÆ÷Ñ§Ï°×Ô¶¯±àÒë¿ò¼Ü£¬ÔÚÒµ½ç¹ã·ºÊ¹ÓÃ¡£ºÍTensorRTÏà±È£¬TVM´úÂë¿ªÔ´£¬¾ßÓÐ¸üÇ¿µÄÍØÕ¹ÐÔºÍ¶¨ÖÆÄÜÁ¦¡£´ËÍâ£¬TVMÖ§³ÖµÄTensorFlowËã×Ó³¬¹ý130¸ö£¬Ëã×Ó¸²¸ÇÂÊÔ¶³¬TensorRT¡£ÔÚµ±Ç°¼ÆËãÍ¼ÖÐ£¬TVM²»Ö§³ÖµÄopÖ»ÓÐ×Ô¶¨ÒåµÄLookupTable£¬ÕâÒ»op¸ºÔð²éÑ¯Embedding£¬ÎÞÐè½øÐÐ±àÒëÓÅ»¯¡£

Òò´Ë£¬ÎÒÃÇ³¢ÊÔÀûÓÃTVMÈ¡´úTensorRT¶Ôµ±Ç°¼ÆËãÍ¼½øÐÐ×Ô¶¯±àÒëÓÅ»¯¡£¿¼ÂÇµ½TensorFlow¶ÔTensorRT¡¢XLA¾ù×öÁË¹Ù·½Ö§³Ö£¬ÊµÏÖÁË¶ÔÓ¦µÄwrapper op£¬µ«Ä¿Ç°ÉÐÎ´Ö§³ÖTVM£¬ÎÒÃÇ¶ÔTensorFlow×öÁËÊÊÅä¸ÄÔì£¬²ÉÓÃºÍTensorRTÀàËÆµÄ·½Ê½£¬ÊµÏÖÁËTVMEngineOpÒÔÖ§³ÖTVM¡£¿¼ÂÇÄ£ÐÍÌØµã£¬ÎÒÃÇ½«¼ÆËã½ÏÖØµÄAttention×ÓÍ¼ºÍMLP×ÓÍ¼·ÅÈëÁËTVMEngineOpÖÐ£¬ÀûÓÃTVM½øÐÐ±àÒëÓÅ»¯£¬ÈçÏÂÍ¼ËùÊ¾£º

6 ÐÔÄÜ±íÏÖÓë·ÖÎö

±¾ÕÂ½ÚÕ¹Ê¾Êµ¼ÊÉú²ú»·¾³ÏÂµÄ²âÊÔÊý¾Ý£¬²¢·ÖÎöÉÏÎÄÒ»ÏµÁÐÒµÄÚµäÐÍÓÅ»¯Ë¼Â·£¬ÔÚÎÒÃÇµÄÌØ¶¨³¡¾°ÏÂµÄ±íÏÖ¼°Æä±³ºóÔÒò¡£

Ñ¹²â»·¾³ÖÐ£¬CPU»·¾³Îª32ºËIntel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz+32GÄÚ´æ£¬GPU»·¾³Îª8ºËIntel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz+Tesla T4 GPU+16GÄÚ´æ¡£ÉÏÍ¼ÖÐ£¬×óÍ¼¶Ô±ÈÁË²»Í¬QPSÏÂ£¨xÖá£©£¬¾«ÅÅÄ£ÐÍÔÚ²»Í¬ÓÅ»¯ÊÖ¶ÎÏÂµÄÍÆÀíºÄÊ±£¨yÖá£©£¬ÆäÖÐbase-gpu±íÊ¾Ö»¾¹ý¼òµ¥µÄÍ¼ÓÅ»¯²¢ÔÚGPU¼ÆËã£¬trt±íÊ¾¾¹ýTensorRTÓÅ»¯²¢ÔÚGPU¼ÆËã£¬tvm±íÊ¾¾¹ýTVMÓÅ»¯ÇÒµþ¼ÓAll On GPUÓÅ»¯²¢ÔÚGPU¼ÆËã£»ÓÒÍ¼±íÊ¾¼«ÏÞQPSÏÂ£¬²»Í¬ÓÅ»¯ÊÖ¶Î¶ÔÓ¦µÄCPUºÍGPUÀûÓÃÂÊ¡£´ÓÍ¼ÖÐ¿ÉÒÔ¿´³ö£º

[*] Ö»ÀûÓÃCPU½øÐÐÔ¤¹À¼ÆËãÊ±£¬¼«ÏÞqpsÎª55£¬´ËÊ±CPUÀûÓÃÂÊÒÑ¾¸ß´ï76%£¬³ÉÎªÆ¿¾±¡£
[*] ÀûÓÃ³£¹æÊÖ¹¤ÓÅ»¯£¨Éè±¸°Ú·Å+Ëã×ÓÈÚºÏ+BroadcastÓÅ»¯+¸ßÐÔÄÜ¿â£©µÄGPUÔ¤¹ÀÊ±£¬ÏàÍ¬qpsÏÂlatency´ó·ù½µµÍ£¬ÇÒ¿ÉÒÔ½«¼«ÏÞqpsÌáÉýÖÁ85£¨½ÏCPU°æÌáÉý55%£©¡£µ½´ï¼«ÏÞÍÌÍÂÊ±GPUÀûÓÃÂÊ²¢²»¸ß£¬Æ¿¾±ÈÔ¾ÉÎªCPUÀûÓÃÂÊ¡£
[*] ÀûÓÃTensorRTÓÅ»¯Ô¤¹À£¨ÊÖ¹¤ÓÅ»¯+TensorRT+FP16£©Ê±£¬µÃÒæÓÚÍ¼±àÒëÓÅ»¯£¬ÏàÍ¬qpsÏÂlatency½µµÍÔ¼40%¡£ÓÉÓÚÆ¿¾±ÈÔÎªCPU£¬¼«ÏÞÍÌÍÂÎ´±ä»¯¡£
[*] ÀûÓÃTVMÓÅ»¯Ô¤¹À£¨ÊÖ¹¤ÓÅ»¯+TVM+FP16+All On GPU£©Ê±£¬½«ËùÓÐop¶¼·ÅÖÃÓÚGPU¼ÆËã£¬CPUÖ»¸ºÔð»ù±¾µÄRPC£¬¼«´ó»º½âÁËCPUÅä¶îµÄÆ¿¾±¡£ÏàÍ¬qpsÏÂlatency´ó·ù½µµÍÔ¼70%£¬¼«ÏÞÍÌÍÂ´ó·ùÌáÉýÔ¼120%¡£µ½´ï¼«ÏÞÍÌÍÂÊ±£¬GPUÀûÓÃÂÊ½Ï¸ß£¬³ÉÎªÆ¿¾±¡£

¾¹ýÒ»ÏµÁÐÓÅ»¯£¬ÕûÌåÍÌÍÂÌáÉýÔ¼4±¶£¨qps´Ó55->220£©£¬ÓÅ»¯Ð§¹ûÊ®·ÖÃ÷ÏÔ¡£

7 ×Ü½á

×ÛÉÏ£¬ÎÒÃÇÕë¶ÔÃÀÍÅÍâÂô³¡¾°µÄÒµÎñÌØµã£¬½«¾µäµÄCTR/CVRÄ£ÐÍ´Ó¶àÈë¿Ú¡¢¶à»·½Ú¡¢¶àÄ¿±êµÄµ¥ÌåÄ£ÐÍ£¬Öð²½ÑÝ½øµ½¡°One Model to Serve All¡±µÄ¶àÄ£ÐÍÍ³Ò»ÐÎÌ¬¡£

Í¬Ê±£¬½áºÏÃÀÍÅµÄÓ²¼þÌõ¼þºÍ»ù´¡£¬ÊµÏÖÁË´¿CPUÔ¤¹À¼Ü¹¹ÏòCPU+GPUÒì¹¹¼Ü¹¹µÄÇÐ»»£¬ÔÚ¹Ì¶¨³É±¾Ç°ÌáÏÂ£¬ÓÐÐ§µÄÊÍ·ÅÁËËãÁ¦¿Õ¼ä£¬¼ÆËãÍÌÍÂÌáÉýÁË½ü4±¶¡£Õë¶ÔGPU BOX»úÐÍ¶ÔCPU×ÊÔ´µÄÏÞÖÆ£¬ÎÒÃÇ²ÉÓÃÊÖ¹¤ÓÅ»¯+DL±àÒëÓÅ»¯½áºÏ¡¢Ä£ÐÍÍøÂç¼ÆËãAll On GPUµÄË¼Â·£¬ÓÐÐ§µÄÌáÉýÁËGPUÔÚÄ£ÐÍÔ¤¹À¼ÆËãÖÐµÄÀûÓÃÂÊ£¬²¢ÔÚ±¾ÎÄÖÐÏêÏ¸·ÖÏíÁËGPUÂäµØÖÐµÄÓÅ»¯¹ý³ÌºÍÊµ²âÊý¾ÝÖ¸±ê¡£

×÷Õß£ºÃÀÍÅ¼¼ÊõÍÅ¶Ó
À´Ô´£ºhttps://blog.csdn.net/MeituanTech/article/details/123267283
×îÐÂ¾µäÎÄÕÂ£¬»¶Ó¹Ø×¢¹«ÖÚºÅhttp://www.aboutyun.com/data/attachment/forum/201903/18/215536lzpn7n3u7m7u90vm.jpg

Ò³: [1]

AboutÔÆ-ËóÂ×¿Æ¼¼'s Archiver

GPUÔÚÍâÂô³¡¾°¾«ÅÅÄ£ÐÍÔ¤¹ÀÖÐµÄÓ¦ÓÃÊµ¼ù