ChatGPTÊý¾Ý¼¯Ö®ÃÕ-´óÄ£ÐÍ-AboutÔÆ-ËóÂ×¿Æ¼¼

nettman ·¢±íÓÚ 2023-2-23 22:47:30

ChatGPTÊý¾Ý¼¯Ö®ÃÕ

°ë¸öÔÂÒÔÀ´£¬ChatGPTÕâ°Ñ»ðÔ½ÉÕÔ½Íú¡£¹úÄÚºÜ¶à´ó³§Ïà¼ÌÉù³ÆÒª×öÖÐÎÄ°æChatGPT£¬»¹¹«²¼ÁËÉÏÏßÊ±¼ä±í£¬²»ÉÙ¿Æ¼¼È¦ÒÑ¹¦³ÉÃû¾ÍµÄ´óÀÐÒ²°´Þà²»×¡£¬Ð¯¾Þ×ÊÏÂ³¡£¬Òª´´½¨¡°ÖÐ¹ú°æOpenAI¡°¡£

²»¹ý£¬¿´¿´¹ýÈ¥°ë¸öÔÂÔÚÈºÖÚÑÛÀïÉÔÏÔ¾½ÆÈµÄMetaµÄGalactica£¬ÒÔ¼°Google½ô¼±·¢²¼µÄBard£¬¾ÍÖªµÀÔÚ¶ÌÆÚÄÚ´òÔìÒ»¸ö±È¼çÉõÖÁ³¬Ô½ChatGPTÐ§¹ûµÄÄ£ÐÍÃ»ÄÇÃ´¼òµ¥¡£

ÈÃºÜ¶àÈË²»Ãâ¸Ðµ½²ïÒìµÄÊÇ£¬ChatGPTµÄºËÐÄËã·¨Transformer×î³õÊÇÓÉGoogleÌá³öµÄ£¬²¢ÇÒÔÚ´óÄ£ÐÍ¼¼ÊõÉÏµÄ»ýÀÛ¿ÉÒÔËµ²»ÈõÓÚOpenAI£¬µ±È»ËûÃÇÒ²²»È±ËãÁ¦ºÍÊý¾Ý£¬µ«ÎªÊ²Ã´ÒÀÈ»»á±»ChatGPT´òµÄ´ëÊÖ²»¼°£¿

MetaÊ×Ï¯AI¿ÆÑ§¼ÒYann LeCun×î½üÅê»÷ChatGPTµÄÃûÑÔÊµ¼ÊÉÏ½âÊÍÁË±³ºóµÄÃÅµÀ¡£ËûËµ£¬ChatGPT¡°Ö»ÊÇÇÉÃîµÄ×éºÏ¶øÒÑ¡±£¬Õâ¾ä»°Ç¡Ç¡µÀ³öÁËÒ»ÖÖÎÞÐÎµÄ¼¼Êõ±ÚÀÝ¡£

¼òµ¥À´Ëµ£¬¼´Ê¹ÆäËûÍÅ¶ÓµÄËã·¨¡¢Êý¾Ý¡¢ËãÁ¦¶¼×¼±¸µÄÓëOpenAIÏà²îÎÞ¼¸£¬µ«¾ÍÊÇÃ»Ïëµ½ÒÔÒ»ÖÖ¾«ÇÉµÄ·½Ê½°ÑÕâÐ©ÔªËØ×é×°ÆðÀ´£¬Ã»ÓÐOpenAI£¬È«ÐÐÒµ²»ÖªµÀ»¹ÐèÒªÈ¥ÌË¶àÉÙ¿Ó¡£

¼´Ê¹OpenAI¸ø³öÁËËã·¨ÉÏµÄÒ»ÌõÂ·¾¶£¬ºóÀ´ÕßÏë¸´ÏÖChatGPT£¬ËãÁ¦¡¢¹¤³Ì¡¢Êý¾Ý£¬Ã¿Ò»¸öÒªËØ¶¼ÐèÒª·Ç³£ÉîµÄ»ýÀÛ¡£ÆßÁúÖéÖ®ÖÐ£¬ËãÁ¦ÊÇ×ÔÓÉÁ÷Í¨µÄÉÌÆ·£¬»¨Ç®¿ÉÒÔÂòµ½£¬¹¤³ÌÉÏÓÐOneFlowÕâÑùµÄ¿ªÔ´ÏîÄ¿ºÍÍÅ¶Ó£¬Òò´Ë£¬¶Ô»¥ÁªÍø´ó³§Ö®ÍâµÄÍÅ¶ÓÀ´Ëµ£¬Ê£ÏÂ×î´óµÄÌôÕ½ÔÚÓÚ¸ßÖÊÁ¿ÑµÁ·Êý¾Ý¼¯¡£

ÖÁ½ñ£¬OpenAI²¢Ã»ÓÐ¹«¿ªÑµÁ·ChatGPTµÄÏà¹ØÊý¾Ý¼¯À´Ô´ºÍ¾ßÌåÏ¸½Ú£¬Ò»¶¨³Ì¶ÈÉÏÒ²ÔÝÊ±¿¨ÁË×·¸ÏÕßµÄ²±×Ó£¬¸üºÎ¿ö£¬Òµ½ç¹«ÈÏÖÐÎÄ»¥ÁªÍøÊý¾ÝÖÊÁ¿¿°ÓÇ¡£

ºÃÔÚ£¬»¥ÁªÍøÉÏ×ÜÓÐÈÈÐÄµÄÅ£ÈË·ÖÎö¼¼ÊõµÄÏ¸Ö¦Ä©½Ú£¬´ÓÔÓÂÒµÄ×ÊÁÏÖÐ´®ÁªÆðÖëË¿Âí¼££¬´Ó¶ø¹éÄÉ³ö·Ç³£ÓÐ¼ÛÖµµÄÐÅÏ¢¡£

´ËÇ°£¬OneFlow·¢²¼ÁË¡¶ChatGPT±³ºóµÄ¾¼ÃÕË¡·£¬Æä×÷Õß´Ó¾¼ÃÑ§ÊÓ½ÇÍÆµ¼ÁËÑµÁ·´óÐÍÓïÑÔÄ£ÐÍµÄ³É±¾¡£±¾ÎÄ×÷ÕßÔòÕûÀí·ÖÎöÁË2018Äêµ½2022Äê³õ´ÓGPT-1µ½GopherµÄÏà¹Ø´óÐÍÓïÑÔÄ£ÐÍµÄËùÓÐÊý¾Ý¼¯Ïà¹ØÐÅÏ¢£¬Ï£Íû°ïÖúÓÐÖ¾ÓÚ¿ª·¢¡°ÀàChatGPT¡±Ä£ÐÍµÄÍÅ¶ÓÉÙ×ßÒ»²½ÍäÂ·¡£

Ò»Ð©ÑÐ¾¿ÈËÔ±µÄ±¨¸æ³Æ£¬Í¨ÓÃÈË¹¤ÖÇÄÜ£¨AGI£©¿ÉÄÜÊÇ´ÓÎÒÃÇµ±Ç°µÄÓïÑÔÄ£ÐÍ¼¼Êõ½øÐÐÑÝ½ø£¬Ô¤ÑµÁ·TransformerÓïÑÔÄ£ÐÍÎªAGIµÄ·¢Õ¹ÆÌÆ½ÁËµÀÂ·¡£ËäÈ»Ä£ÐÍÑµÁ·Êý¾Ý¼¯ÈÕ½¥Ôö´ó£¬µ«È±·¦»ù±¾Ö¸±êÎÄµµ£¬°üÀ¨Êý¾Ý¼¯´óÐ¡¡¢Êý¾Ý¼¯tokenÊýÁ¿ºÍ¾ßÌåµÄÄÚÈÝÏ¸½Ú¡£

¾¡¹ÜÒµÄÚÌá³öÁËÊý¾Ý¼¯×é³ÉºÍÕûÀíÎÄµµµÄ±ê×¼£¬µ«¼¸ºõËùÓÐÖØµãÑÐ¾¿ÊµÑéÊÒÔÚ½ÒÊ¾Ä£ÐÍÑµÁ·Êý¾Ý¼¯Ï¸½ÚÕâ·½Ãæ¶¼×öµÃ²»¹»¡£ÕâÀïÕûºÏµÄÑÐ¾¿º¸ÇÁË2018Äêµ½2022Äê³õ´ÓGPT-1µ½GopherµÄ¾«Ñ¡ÓïÑÔÄ£ÐÍµÄËùÓÐÊý¾Ý¼¯£¨°üÀ¨Ö÷ÒªÊý¾Ý¼¯£ºWikipediaºÍCommon Crawl£©µÄ×ÛºÏÊÓÍ¼¡£

Í¼ 1. Ö÷ÒªÊý¾Ý¼¯´óÐ¡µÄ¿ÉÊÓ»¯»ã×Ü¡£Î´¼ÓÈ¨´óÐ¡£¬ÒÔGBÎªµ¥Î»¡£

2018ÄêÒÔÀ´£¬´óÓïÑÔÄ£ÐÍµÄ¿ª·¢ºÍÉú²úÊ¹ÓÃ³ÊÏÖ³ö±¬Õ¨Ê½Ôö³¤¡£Ò»Ð©ÖØµãÑÐ¾¿ÊµÑéÊÒ±¨¸æ³Æ£¬¹«ÖÚ¶Ô´óÓïÑÔÄ£ÐÍµÄÊ¹ÓÃÂÊ´ïµ½ÁË¾ªÈË¸ß¶È¡£2021Äê3ÔÂ£¬OpenAIÐû²¼ÆäGPT-3ÓïÑÔÄ£ÐÍ±»¡°³¬¹ý300¸öÓ¦ÓÃ³ÌÐòÊ¹ÓÃ£¬Æ½¾ùÃ¿ÌìÄÜ¹»Éú³É45ÒÚ¸ö´Ê¡±£¬Ò²¾ÍÊÇËµ½öµ¥¸öÄ£ÐÍÃ¿·ÖÖÓ¾ÍÄÜÉú³É310Íò´ÊµÄÐÂÄÚÈÝ¡£

ÖµµÃ×¢ÒâµÄÊÇ£¬ÕâÐ©ÓïÑÔÄ£ÐÍÉõÖÁ»¹Ã»ÓÐ±»ÍêÈ«Àí½â£¬Ë¹Ì¹¸£´óÑ§µÄÑÐ¾¿ÈËÔ±×î½üÌ¹ÑÔ£¬¡°Ä¿Ç°ÎÒÃÇ¶ÔÕâÐ©Ä£ÐÍ»¹È±·¦ÈÏÖª£¬»¹²»Ì«ÁË½âÕâÐ©Ä£ÐÍµÄÔË×ªÄ£Ê½¡¢²»ÖªµÀÄ£ÐÍºÎÊ±»áÊ§Ð§£¬¸ü²»ÖªµÀÕâÐ©Ä£ÐÍµÄÍ»ÏÖÐÔ£¨emergent properties£©ÄÜ²úÉúÊ²Ã´Ð§¹û¡±¡£

Ëæ×ÅÐÂÐÍAI¼¼ÊõµÄ¿ìËÙ·¢Õ¹£¬Ä£ÐÍÑµÁ·Êý¾Ý¼¯µÄÏà¹ØÎÄµµÖÊÁ¿ÓÐËùÏÂ½µ¡£Ä£ÐÍÄÚ²¿µ½µ×ÓÐÊ²Ã´ÃØÃÜ£¿ËüÃÇÓÖÊÇÈçºÎ×é½¨µÄ£¿±¾ÎÄ×ÛºÏÕûÀí²¢·ÖÎöÁËÏÖ´ú´óÐÍÓïÑÔÄ£ÐÍµÄÑµÁ·Êý¾Ý¼¯¡£

ÒòÎªÕâ·½ÃæµÄÔÊ¼ÎÄÏ×²¢²»¶ÔÍâ¹«¿ª£¬ËùÒÔ±¾ÎÄËÑ¼¯ÕûºÏÁË¶þ¡¢Èý¼¶ÑÐ¾¿×ÊÁÏ£¬ÔÚ±ØÒªµÄÊ±ºò±¾ÎÄ»á²ÉÓÃ¼ÙÉèµÄ·½Ê½À´ÍÆËã×îÖÕ½á¹û¡£

ÔÚ±¾ÎÄÖÐ£¬ÎÒÃÇ»á½«ÔÊ¼ÂÛÎÄÖÐÒÑ¾Ã÷È·µÄÌØ¶¨Ï¸½Ú£¨ÀýÈçtokenÊýÁ¿»òÊý¾Ý¼¯´óÐ¡£©¹éÀàÎª¡°¹«¿ªµÄ£¨disclosed£©¡±Êý¾Ý£¬²¢×÷¼Ó´Ö´¦Àí¡£

¶àÊýÇé¿öÏÂ£¬ÊÊµ±µØ²Î¿¼¶þ¡¢Èý¼¶ÎÄÏ×£¬²¢²ÉÓÃ¼ÙÉèµÄ·½Ê½À´È·¶¨×îÖÕ½á¹ûÊÇºÜÓÐ±ØÒªµÄ¡£ÔÚÕâÐ©Çé¿öÏÂ£¬tokenÊýÁ¿ºÍÊý¾Ý¼¯´óÐ¡µÈÏ¸½ÚÊÇ¡°È·¶¨µÄ£¨determined£©¡±£¬²¢ÒÔÐ±Ìå±ê¼Ç¡£

Ä£ÐÍÊý¾Ý¼¯¿É·ÖÎªÁùÀà£¬·Ö±ðÊÇ£ºÎ¬»ù°Ù¿Æ¡¢Êé¼®¡¢ÆÚ¿¯¡¢RedditÁ´½Ó¡¢Common CrawlºÍÆäËûÊý¾Ý¼¯¡£

±í1. Ö÷ÒªÊý¾Ý¼¯´óÐ¡»ã×Ü¡£ÒÔGBÎªµ¥Î»¡£¹«¿ªµÄÊý¾ÝÒÔ´ÖÌå±íÊ¾¡£È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£½öÔÊ¼ÑµÁ·Êý¾Ý¼¯´óÐ¡¡£

1.1. Î¬»ù°Ù¿Æ

Î¬»ù°Ù¿ÆÊÇÒ»¸öÃâ·ÑµÄ¶àÓïÑÔÐ×÷ÔÚÏß°Ù¿ÆÈ«Êé£¬ÓÉ³¬¹ý300,000ÃûÖ¾Ô¸Õß×é³ÉµÄÉçÇø±àÐ´ºÍÎ¬»¤¡£½ØÖÁ2022Äê4ÔÂ£¬Ó¢ÎÄ°æÎ¬»ù°Ù¿ÆÖÐÓÐ³¬¹ý640ÍòÆªÎÄÕÂ£¬°üº¬³¬40ÒÚ¸ö´Ê¡£Î¬»ù°Ù¿ÆÖÐµÄÎÄ±¾ºÜÓÐ¼ÛÖµ£¬ÒòÎªËü±»ÑÏ¸ñÒýÓÃ£¬ÒÔËµÃ÷ÐÔÎÄ×ÖÐÎÊ½Ð´³É£¬²¢ÇÒ¿çÔ½¶àÖÖÓïÑÔºÍÁìÓò¡£Ò»°ãÀ´Ëµ£¬ÖØµãÑÐ¾¿ÊµÑéÊÒ»áÊ×ÏÈÑ¡È¡ËüµÄ´¿Ó¢ÎÄ¹ýÂË°æ×÷ÎªÊý¾Ý¼¯¡£

1.2. Êé¼®

¹ÊÊÂÐÍÊé¼®ÓÉÐ¡ËµºÍ·ÇÐ¡ËµÁ½´óÀà×é³É£¬Ö÷ÒªÓÃÓÚÑµÁ·Ä£ÐÍµÄ¹ÊÊÂ½²ÊöÄÜÁ¦ºÍ·´Ó¦ÄÜÁ¦£¬Êý¾Ý¼¯°üÀ¨Project GutenbergºÍSmashwords (Toronto BookCorpus/BookCorpus)µÈ¡£

1.3. ÔÓÖ¾ÆÚ¿¯

Ô¤Ó¡±¾ºÍÒÑ·¢±íÆÚ¿¯ÖÐµÄÂÛÎÄÎªÊý¾Ý¼¯Ìá¹©ÁË¼áÊµ¶øÑÏ½÷µÄ»ù´¡£¬ÒòÎªÑ§ÊõÐ´×÷Í¨³£À´Ëµ¸üÓÐÌõÀí¡¢ÀíÐÔºÍÏ¸ÖÂ¡£ÕâÀàÊý¾Ý¼¯°üÀ¨ArXivºÍÃÀ¹ú¹ú¼ÒÎÀÉúÑÐ¾¿ÔºµÈ¡£

1.4. RedditÁ´½Ó

WebTextÊÇÒ»¸ö´óÐÍÊý¾Ý¼¯£¬ËüµÄÊý¾ÝÊÇ´ÓÉç½»Ã½ÌåÆ½Ì¨RedditËùÓÐ³öÕ¾Á´½ÓÍøÂçÖÐÅÀÈ¡µÄ£¬Ã¿¸öÁ´½ÓÖÁÉÙÓÐÈý¸öÔÞ£¬´ú±íÁËÁ÷ÐÐÄÚÈÝµÄ·çÏò±ê£¬¶ÔÊä³öÓÅÖÊÁ´½ÓºÍºóÐøÎÄ±¾Êý¾Ý¾ßÓÐÖ¸µ¼×÷ÓÃ¡£

1.5. Common Crawl

Common CrawlÊÇ2008ÄêÖÁ½ñµÄÒ»¸öÍøÕ¾×¥È¡µÄ´óÐÍÊý¾Ý¼¯£¬Êý¾Ý°üº¬ÔÊ¼ÍøÒ³¡¢ÔªÊý¾ÝºÍÎÄ±¾ÌáÈ¡£¬ËüµÄÎÄ±¾À´×Ô²»Í¬ÓïÑÔ¡¢²»Í¬ÁìÓò¡£ÖØµãÑÐ¾¿ÊµÑéÊÒÒ»°ã»áÊ×ÏÈÑ¡È¡ËüµÄ´¿Ó¢ÎÄ¹ýÂË°æ£¨C4£©×÷ÎªÊý¾Ý¼¯¡£

1.6. ÆäËûÊý¾Ý¼¯

²»Í¬ÓÚÉÏÊöÀà±ð£¬ÕâÀàÊý¾Ý¼¯ÓÉGitHubµÈ´úÂëÊý¾Ý¼¯¡¢StackExchange µÈ¶Ô»°ÂÛÌ³ºÍÊÓÆµ×ÖÄ»Êý¾Ý¼¯×é³É¡£

2.³£ÓÃÊý¾Ý¼¯
2019ÄêÒÔÀ´£¬´ó¶àÊý»ùÓÚTransformerµÄ´óÐÍÓïÑÔÄ£ÐÍ (LLM) ¶¼ÒÀÀµÓÚÓ¢ÎÄÎ¬»ù°Ù¿ÆºÍCommon CrawlµÄ´óÐÍÊý¾Ý¼¯¡£ÔÚ±¾½ÚÖÐ£¬ÎÒÃÇ²Î¿¼ÁËJesse DodgeºÍAllenAI£¨AI2£©ÍÅ¶ÓµÄ×ÛºÏ·ÖÎö£¬°´Àà±ð¶ÔÓ¢ÎÄÎ¬»ù°Ù¿Æ×÷ÁË¸ß¼¶¸ÅÊö£¬²¢ÔÚCommon CrawlÊý¾Ý¼¯µÄ»ù´¡ÉÏ£¬ÓÃ¹È¸èC4 (Colossal Clean Crawled Corpus)ÔÚCommon CrawlÖÐÌá¹©ÁË¶¥¼¶Óò£¨domains£©¡£

2.1. Î¬»ù°Ù¿Æ£¨Ó¢ÎÄ°æ£©·ÖÎö

ÏÂÃæ°´Àà±ðÁÐ³öÁËÎ¬»ù°Ù¿ÆµÄÏêÏ¸ÐÅÏ¢£¬º¸ÇÁË2015Äê³éÑùµÄ1001ÆªËæ»úÎÄÕÂ£¬ÑÐ¾¿ÈËÔ±×¢Òâµ½ËæÊ±¼äÍÆÒÆÎÄÕÂ´«²¥µÄÎÈ¶¨ÐÔ¡£¼ÙÉèÒ»¸ö11.4GB¡¢¾¹ýÇåÀíºÍ¹ýÂËµÄÎ¬»ù°Ù¿ÆÓ¢ÎÄ°æÓÐ30ÒÚtoken£¬ÎÒÃÇ¾Í¿ÉÒÔÈ·¶¨Àà±ð´óÐ¡ºÍtoken¡£

±í2. Ó¢ÎÄÎ¬»ù°Ù¿ÆÊý¾Ý¼¯Àà±ð¡£¹«¿ªµÄÊý¾ÝÒÔ´ÖÌå±íÊ¾¡£È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£

2.2 Common Crawl·ÖÎö

»ùÓÚAllenAI (AI2)µÄC4ÂÛÎÄ£¬ÎÒÃÇ¿ÉÒÔÈ·¶¨£¬¹ýÂËºóµÄÓ¢ÎÄC4Êý¾Ý¼¯µÄÃ¿¸öÓòµÄtokenÊýºÍ×ÜÌå°Ù·Ö±È£¬¸ÃÊý¾Ý¼¯Îª305GB£¬ÆäÖÐtokenÊýÎª1560ÒÚ¡£

±í3. C4£ºÇ°23¸öÓò£¨²»°üÀ¨Î¬»ù°Ù¿Æ£©¡£¹«¿ªµÄÊý¾ÝÒÔ´ÖÌå±íÊ¾£¬È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£

3GPT-1Êý¾Ý¼¯
2018Äê£¬OpenAI·¢²¼ÁË1.17ÒÚ²ÎÊýµÄGPT-1¡£ÔÚÂÛÎÄÖÐ£¬OpenAI²¢Ã»ÓÐ¹«²¼Ä£ÐÍÑµÁ·Êý¾Ý¼¯µÄÀ´Ô´ºÍÄÚÈÝ£¬ÁíÍâ£¬ÂÛÎÄÎó½«¡®BookCorpus¡¯Æ´Ð´³ÉÁË¡®BooksCorpus¡¯¡£BookCorpusÒÔ×÷¼ÒÎ´³ö°æµÄÃâ·ÑÊé¼®Îª»ù´¡£¬ÕâÐ©Êé¼®À´×ÔÓÚSmashwords£¬ÕâÊÇÒ»¸ö×Ô³ÆÎª¡°ÊÀ½çÉÏ×î´óµÄ¶ÀÁ¢µç×ÓÊé·ÖÏúÉÌ¡± µÄµç×ÓÊéÍøÕ¾¡£Õâ¸öÊý¾Ý¼¯Ò²±»³ÆÎªToronto BookCorpus¡£¾¹ý¼¸´ÎÖØ¹¹Ö®ºó£¬BookCorpusÊý¾Ý¼¯µÄ×îÖÕ´óÐ¡È·¶¨Îª4.6GB¡£

2021Äê£¬¾¹ýÈ«ÃæµÄ»Ø¹ËÐÔ·ÖÎö£¬BookCorpusÊý¾Ý¼¯¶Ô°´Á÷ÅÉ·Ö×éµÄÊé¼®ÊýÁ¿ºÍ¸÷ÀàÊé¼®°Ù·Ö±È½øÐÐÁË¸üÕý¡£Êý¾Ý¼¯ÖÐÓÐ¹ØÊé¼®ÀàÐÍµÄ¸ü¶àÏêÏ¸ÐÅÏ¢ÈçÏÂ£º

±í4. BookCorpusÊé¼®ÀàÐÍ¡£¹«¿ªµÄÊý¾ÝÒÔ´ÖÌå±íÊ¾£¬È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£

ÔÚËæºóµÄÊý¾Ý¼¯ÖØ¹¹ÖÐ£¬BookCorpusÊý¾Ý¼¯½øÒ»²½¹ýÂËµôÁËÊé¼®ÖÐµÄ¡°ÎüÑª¹í¡±Àà±ð¡¢½µµÍÁËÑÔÇéÀàÊé¼®µÄ°Ù·Ö±È¡¢Ôö¼ÓÁË¡°ÀúÊ·¡±ÀàÊé¼®£¬Ôö¼ÓÁËÊÕ¼¯µÄÊé¼®ÊýÁ¿¡£

3.1. GPT-1Êý¾Ý¼¯×Ü½á

GPT-1×îÖÕµÄÊý¾Ý¼¯×Ü½á·ÖÎöÈçÏÂ£º

±í5.GPT-1Êý¾Ý¼¯×Ü½á¡£ÒÔGBÎªµ¥Î»¡£¹«¿ªµÄÊý¾ÝÒÔ´ÖÌå±íÊ¾£¬È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£

4.GPT-2Êý¾Ý¼¯

2019Äê£¬OpenAI·¢²¼ÁËÓµÓÐ15ÒÚ²ÎÊýµÄÓïÑÔÄ£ÐÍGPT-2¡£GPT-2ÂÛÎÄ²ûÃ÷ÁËËùÓÃÑµÁ·Êý¾Ý¼¯µÄ´óÐ¡£¬²»¹ý²¢Î´ËµÃ÷ÆäÄÚÈÝ¡£¶øGPT-2Ä£ÐÍ¿¨£¨model card£©£¨ÔÚGPT-2 GitHub²Ö¿âÖÐ£©ËµÃ÷ÁËÄ£ÐÍÄÚÈÝ¡£

ÎÒÃÇ¿ÉÒÔ´ÓGPT-3ÂÛÎÄÖÐµÃµ½tokenÊýÁ¿£¬¸ÃÂÛÎÄÊ¹ÓÃÁËWebTextÀ©Õ¹°æ±¾À´±íÊ¾190ÒÚtoken¡£¾ÝÍÆ²â£¬2020ÄêÍÆ³öµÄWebTextÀ©Õ¹°æ±¾ÓµÓÐ12¸öÔÂµÄ¶îÍâÊý¾Ý£¨additional data£©£¬Òò´ËËü¿ÉÄÜ±È2019ÄêÍÆ³öµÄGPT-2°æ±¾´ó25%×óÓÒ¡£GPT-2×îÖÕµÄtokenÊýÁ¿È·¶¨Îª150ÒÚ×óÓÒ¡£

ÈçGPT-2ÂÛÎÄËùÊö£¬¼ÙÉèÄ£ÐÍ¿¨ÏÔÊ¾Á´½ÓÊýÊ±£¬Ã¿¸öÁ´½Ó¶¼¿ÉÒÔ±»4500ÍòÁ´½Ó×ÜÊýËù³ý£¬ÄÇWebTextµÄÄÚÈÝÔÚÊý¾Ý¼¯ÖÐËùÕ¼µÄ°Ù·Ö±ÈµÄÏêÏ¸ÐÅÏ¢¾Í¿ÉÒÔÈ·¶¨¡£

È»ºó¿ÉÒÔÊ¹ÓÃÈ·¶¨µÄ150ÒÚtokenÊýÁ¿À´²éÕÒÃ¿¸öÓòµÄtokenÊýÁ¿¡£Çë×¢Òâ£¬ÔÚ¿ÉÓÃµÄÇ°1,000¸öÓòÖÐ£¬´Ë´¦½öÏÔÊ¾Ç°50¸öÓò¡£

±í6. WebText: Ç°50¸öÓò¡£ ¹«¿ªµÄÊý¾ÝÒÔ´ÖÌå±íÊ¾£¬È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£

4.1. GPT-2Êý¾Ý¼¯×Ü½á

GPT-2Ä£ÐÍ×îÖÕµÄÊý¾Ý¼¯×Ü½á·ÖÎöÈçÏÂ£º

±í7. GPT-2Êý¾Ý¼¯×Ü½á¡£ ¹«¿ªµÄÊý¾ÝÒÔ´ÖÌå±íÊ¾£¬È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£

5.GPT-3Êý¾Ý¼¯
GPT-3Ä£ÐÍÓÉOpenAIÓÚ2020Äê·¢²¼¡£ÂÛÎÄ²ûÃ÷ÁËËùÓÃÑµÁ·Êý¾Ý¼¯µÄtokenÊýÁ¿£¬µ«ÑµÁ·Êý¾Ý¼¯µÄÄÚÈÝºÍ´óÐ¡ÉÐ²»Çå³þ£¨Common CrawlµÄÊý¾Ý¼¯´óÐ¡³ýÍâ£©

±í8. GPT-3Êý¾Ý¼¯¡£ ¹«¿ªµÄÊý¾ÝÒÔ´ÖÌå±íÊ¾£¬È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£

5.1. GPT-3£º¹ØÓÚBooks1ºÍBooks2Êý¾Ý¼¯µÄ·ÖÎö

ÌØ±ðÖµµÃ¹Ø×¢µÄÊÇ£¬ÔÚOpenAIµÄGPT-3ÂÛÎÄÖÐ£¬²¢Î´¹«¿ªBooks1Êý¾Ý¼¯£¨120ÒÚtoken£©ºÍBooks2Êý¾Ý¼¯£¨550ÒÚtoken£©µÄ´óÐ¡ºÍÀ´Ô´¡£¹ØÓÚÕâÁ½¸öÊý¾Ý¼¯µÄÀ´Ô´ÈËÃÇÌá³öÁË¼¸¸ö¼ÙÉè£¬°üÀ¨À´×ÔLibGen18ºÍSci-HubµÄÀàËÆÊý¾Ý¼¯£¬²»¹ýÕâÁ½¸öÊý¾Ý¼¯³£ÒÔTBÎª¼Æ£¬´óµ½ÎÞ·¨Æ¥Åä¡£

5.2. GPT-3£ºBooks1

GPT-3Ê¹ÓÃµÄBooks1Êý¾Ý¼¯²»¿ÉÄÜÓëGPT-1Ê¹ÓÃµÄBookCorpusÊý¾Ý¼¯ÏàÍ¬£¬ÔÒòÔÚÓÚBooks1µÄÊý¾Ý¼¯¸ü´ó£¬´ï120ÒÚtoken¡£ÔÚÒ»ÆªÒýÓÃµÄÂÛÎÄÖÐ¾ÍÌá¼°GPT-1Ê¹ÓÃµÄBookCorpusÊý¾Ý¼¯ÓµÓÐ9.848ÒÚ¸ö´Ê£¬µ«Õâ¿ÉÄÜÖ»Ïàµ±ÓÚ13ÒÚtoken£¨984.8×Öx 1.3×ÖµÄtoken³ËÊý£©¡£

Í¨¹ý±ê×¼»¯ÏîÄ¿¹ÅÌÚ±¤ÓïÁÏ¿â£¨SPGC£©£¬Books1ÓÐ¿ÉÄÜÓë¹ÅÌÚ±¤ÏîÄ¿±£³ÖÒ»ÖÂÐÔ¡£SPGCÊÇÒ»ÖÖ¿ª·ÅÊ½¿ÆÑ§·½·¨£¬±»ÓÃÓÚ¹ÅÌÚ±¤ÏîÄ¿ÍêÕûµÄPGÊý¾ÝµÄ¾«Ñ¡£¨curated£©°æ±¾¡£SPGC°üº¬120ÒÚ¸ötoken£¬´óÔ¼Îª21GB¡£

5.3. GPT-3£ºBooks2

Books2£¨550ÒÚtoken£©¿ÉÄÜÓëBibliotik±£³ÖÒ»ÖÂ£¬²¢ÓÉEleutherAÊÕ¼¯¸ÃÀ´Ô´µÄÊý¾Ý£¬×é³ÉÊý¾Ý¼¯£¬Ê¹Æä³ÉÎªThe Pile v1µÄÒ»²¿·Ö¡£Bibliotik°æ±¾Îª100.96GB£¬ÆäÈ·¶¨µÄtokenÊý½öÎª250ÒÚ£¬µÍÓÚBooks2¹«¿ªµÄ550ÒÚ¡£È»¶ø£¬Ê¹ÓÃSPGCµÄ¡®Ã¿×Ö½ÚtokenÊý¡¯±ÈÂÊ£¨´óÔ¼Îª1:1.75£©£¬BibliotikµÄtokenÊýºÍ´óÐ¡½«¸ü½Ó½üÓÚBooks2¡£

5.4. GPT-3Êý¾Ý¼¯×Ü½á

¸½Â¼A¸ÅÊöÁËÊ¹ÓÃWikipedia + CommonCrawl + WebTextÊý¾Ý¼¯µÄ¶¥¼¶×ÊÔ´ÁÐ±í¡£GPT-3Ä£ÐÍµÄ×îÖÕÊý¾Ý¼¯×Ü½á·ÖÎöÈçÏÂ£º

±í9.GPT-3Êý¾Ý¼¯×Ü½á¡£¹«¿ªµÄÊý¾ÝÒÔ´ÖÌå±íÊ¾£¬È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£

6.The Pile v1£¨GPT-JºÍGPT-NeoX-20B£©Êý¾Ý¼¯
The Pile v1Êý¾Ý¼¯ÓÉEleutherAIÓÚ2021Äê·¢²¼£¬¸ÃÊý¾Ý¼¯ÒÑ±»ÓÃÓÚÑµÁ·°üÀ¨GPT-J¡¢GPT-NeoX-20BÔÚÄÚµÄ¶àÖÖÄ£ÐÍ£¬²¢×÷Îª°üÀ¨MT-NLGÔÚÄÚµÄÆäËûÄ£ÐÍµÄ²¿·ÖÊý¾Ý¼¯¡£The Pile v1ÂÛÎÄ²ûÃ÷ÁËËùÓÃÑµÁ·Êý¾Ý¼¯µÄÀ´Ô´ºÍ´óÐ¡¡£Ëæ×ÅtokenÊýÁ¿µÄÔö¼Ó£¬The Pile v1ÂÛÎÄÓ¦±»ÓÃ×÷Î´À´Êý¾Ý¼¯ÎÄµµµÄ»Æ½ð±ê×¼¡£

ÓÐ¹ØtokenÊýÁ¿µÄ¸ü¶àÏêÇé£¬¿ÉÒÔÊ¹ÓÃ±¾ÎÄÌá¹©µÄÐÅÏ¢À´È·¶¨£¬²Î¼û±í1£¨´óÐ¡ÒÔGBÎªµ¥Î»£©ºÍ±í7£¨token/Ã¿×Ö½Ú£©¡£

±í10. The Pile v1Êý¾Ý¼¯¡£¹«¿ªµÄÊý¾ÝÒÔ´ÖÌå±íÊ¾£¬È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£

6.1. The Pile v1·Ö×éÊý¾Ý¼¯£¨Grouped Datasets£©

ÎªÁËÈ·¶¨Èç¡®Books¡¯¡¢¡®Journals¡¯ºÍ¡®CC¡¯ÕâÀàÊý¾Ý¼¯µÄ´óÐ¡£¬±ÊÕß¶ÔÊý¾Ý¼¯½øÐÐÁË·Ö×é£¬ÈçÏÂ±íËùÊ¾¡£

±í11. The Pile v1·Ö×éÊý¾Ý¼¯£¨²»°üÀ¨Wikipedia¡¢CC ºÍ WebText£©¡£¹«¿ªµÄÊý¾ÝÒÔ´ÖÌå±íÊ¾£¬È·¶¨µÄÒÔÐ±Ìå±íÊ¾¡£

6.2. The Pile v1Êý¾Ý¼¯×Ü½á

The Pile v1Êý¾Ý¼¯ÓëGPT-JºÍGPT-NeoX-20BÄ£ÐÍµÄ×îÖÕÊý¾Ý¼¯×Ü½á·ÖÎöÈçÏÂ£º

±í 12. Pile v1 Êý¾Ý¼¯×Ü½á¡£ ¹«¿ªµÄÊý¾ÝÒÔ´ÖÌå±íÊ¾£¬È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£

7.Megatron-11BºÍRoBERTaÊý¾Ý¼¯
2019Äê£¬Meta AI(µ±Ê±³ÆÖ®ÎªFacebook AI)ºÍ»ªÊ¢¶Ù´óÑ§ÁªºÏ·¢²¼ÁËÓµÓÐ1.25ÒÚ²ÎÊýµÄRoBERTaÄ£ÐÍ¡£´ÎÄê£¬Meta AI·¢²¼ÁËÓµÓÐ110ÒÚ²ÎÊýµÄMegatron-11BÄ£ÐÍ¡£Megatron-11BÊ¹ÓÃµÄÑµÁ·Êý¾Ý¼¯ÓëRoBERTaÏàÍ¬¡£RoBERTaÂÛÎÄ²ûÃ÷ÁËËùÓÃÑµÁ·Êý¾Ý¼¯µÄÄÚÈÝ£¬²»¹ý±ØÐë²Î¿¼ÒýÓÃµÄÂÛÎÄ(BERTºÍtoryes)À´È·¶¨×îÖÕµÄÊý¾Ý¼¯´óÐ¡¡£

BookCorpus£º È·¶¨µÄÊý¾Ý¼¯Îª4.6GB£¬ÈçÉÏÃæµÄGPT-1²¿·ÖËùÊ¾¡£

Î¬»ù°Ù¿Æ£º¹«¿ªµÄÊý¾Ý¼¯Îª¡°16GB£¨BookCorpus¼ÓÉÏÓ¢ÎÄÎ¬»ù°Ù¿Æ£©¡±¡£ÔÚ¼õÈ¥BookCorpusÊý¾Ý¼¯£¨4.6GB£¬ÈçÉÏÃæµÄGPT-1²¿·ÖËùÊö£©ºó£¬Î¬»ù°Ù¿ÆÊý¾Ý¼¯È·¶¨Îª11.4GB¡£

CC-News£º£¨¾¹ýÂËºó£©¹«¿ªµÄÊý¾Ý¼¯Îª76GB¡£

OpenWebText: ¹«¿ªµÄÊý¾Ý¼¯Îª38GB¡£

Stories: ¹«¿ªµÄÊý¾Ý¼¯Îª31GB¡£Çë×¢Òâ£¬´ËÊý¾Ý¼¯ÊÇ¡°»ùÓÚ³£Ê¶ÍÆÀíÈÎÎñÎÊÌâ¡±µÄCommon CrawlÄÚÈÝ£¬²»ÊôÓÚ±¾ÎÄµÄ¡®Books¡¯Àà±ð¡£Ïà·´£¬½«StoriesÓëCC-NewsÊý¾Ý¼¯£¨76GB£©Ïà½áºÏ£¬Common CrawlµÄ×ÜÊý¾Ý¼¯ÔòÎª107GB¡£

7.1. Megatron-11BºÍRoBERTaµÄÊý¾Ý¼¯×Ü½á

Megatron-11BºÍRoBERTa×îÖÕµÄÊý¾Ý¼¯×Ü½á·ÖÎöÈçÏÂ£º

±í13. Megatron-11BºÍRoBERTaµÄÊý¾Ý¼¯×Ü½á¡£ ¹«Ê¾µÄÊý¾ÝÒÔ´ÖÌå±íÊ¾£¬È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£

8.MT-NLGÊý¾Ý¼¯
2021Äê£¬Ó¢Î°´ïºÍÎ¢Èí·¢²¼ÁËÓµÓÐ5300ÒÚ²ÎÊýµÄÓïÑÔÄ£ÐÍMT-NLG¡£MT-NLGÊÇÎ¢ÈíTuring NLG£¨ÓµÓÐ170ÒÚ²ÎÊý£©ºÍÓ¢Î°´ïMegatron-LM£¨ÓµÓÐ83ÒÚ²ÎÊý£©µÄ¡°¼ÌÈÎÕß¡±¡£MT-NLGÂÛÎÄ²ûÃ÷ÁËËùÓÃÑµÁ·Êý¾Ý¼¯µÄÀ´Ô´ºÍtokenÊýÁ¿£¬²»¹ýÃ»ÓÐÃ÷È·Ö¸³öÊý¾Ý¼¯µÄ´óÐ¡¡£

ÈçÇ°ËùÊö£¬ÓÐ¹ØÊý¾Ý¼¯´óÐ¡µÄ¸ü¶àÏêÇé£¬¿ÉÒÔÊ¹ÓÃThe Pile v1ÂÛÎÄÖÐÌá¹©µÄÐÅÏ¢À´È·¶¨¡£ËäÈ»Ê¹ÓÃµÄ×é¼þÏàÍ¬£¬µ«×¢ÒâµÄÊÇ£¬MT-NLGºÍThe Pile v1ÖÐ±¨¸æµÄ×é¼þ´óÐ¡È´¸÷²»ÏàÍ¬£¬ÕâÊÇÓÉÓÚÀ´×ÔEleuther AI (The Pile v1Êý¾Ý¼¯)ºÍMicrosoft/NVIDIA (MT-NLGÄ£ÐÍ)µÄÑÐ¾¿ÈËÔ±²ÉÓÃÁË²»Í¬µÄÊý¾Ý¹ýÂËºÍÈ¥ÖØ·½·¨¡£

8.1. MT-NLGÖÐµÄCommon CrawlÊý¾Ý¼¯

Pile-CC£º¹«¿ªµÄÊý¾Ý¼¯Îª498ÒÚtoken£¬È·¶¨µÄÊý¾ÝÎª227.12GB×óÓÒ£¬²Î¼ûÉÏÊöPile v1²¿·Ö¡£

CC-2020-50: ¹«¿ªµÄÊý¾Ý¼¯Îª687ÒÚtoken£¬¼ÙÉètokenµÄÃ¿×Ö½ÚÂÊ£¨per byte rate£©Îª0.25 TpB=274.8GB¡£

CC-2021-04£º¹«¿ªµÄÊý¾Ý¼¯Îª826ÒÚtoken£¬¼ÙÉètokenµÄÃ¿×Ö½ÚÂÊÎª0.25 TpB=330.4GB

RealNews£¨À´×ÔRoBERTa/Megatron-11B£©£ºÏÔÊ¾Îª219ÒÚtoken¡£¸ù¾ÝRealNewsÂÛÎÄ£¬Êý¾Ý¼¯È·¶¨Îª120GB¡£

CC-Stories(À´×ÔRoBERTa/Megatron-11B)£º¹«¿ªµÄÊý¾Ý¼¯Îª53ÒÚtoken£¬ÈçÉÏÊöRoBERTa²¿·ÖËùÊ¾£¬Êý¾Ý¼¯È·¶¨Îª31GB¡£

¸ù¾ÝÒÔÉÏÀ´Ô´£¬¿ÉÈ·ÈÏCommon CrawlµÄ×ÜÊý¾ÝÁ¿Îª983.32GB£¬¹²¼Æ2283ÒÚtoken¡£

8.2. MT-NLG·Ö×éÊý¾Ý¼¯£¨Grouped Datasets£©

±í14. MT-NLG ·Ö×éÊý¾Ý¼¯¡£¹«¿ªµÄÊý¾ÝÒÔ´ÖÌå±íÊ¾£¬È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£

8.3. MT-NLGÊý¾Ý¼¯×Ü½á

MT-NLGÄ£ÐÍ×îÖÕµÄÊý¾Ý¼¯×Ü½á·ÖÎöÈçÏÂ£º

±í15. MT-NLGÊý¾Ý¼¯×Ü½á¡£ ¹«Ê¾µÄÊý¾ÝÒÔ´ÖÌå±íÊ¾£¬È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£

9.MT-NLG Êý¾Ý¼¯GopherÊý¾Ý¼¯
GopherÄ£ÐÍÓÉDeepMindÓÚ2021Äê·¢²¼£¬ÓÐ2800ÒÚ²ÎÊý¡£¸ÃÂÛÎÄÇå³þµØËµÃ÷ÁËËùÊ¹ÓÃÑµÁ·Êý¾Ý¼¯Ëù°üº¬µÄ¸ß¼¶tokenÊýÁ¿ºÍ´óÐ¡£¬µ«Ã»ÓÐËµÃ÷ÏêÏ¸ÄÚÈÝ¡£

±í16. ¹«¿ªµÄGopherÊý¾Ý¼¯ (MassiveText)¡£¹«¿ªµÄÊý¾ÝÒÔ´ÖÌå±íÊö£¬È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£

ÓÐÈ¤µÄÊÇ£¬¾ÝGopherÂÛÎÄÅûÂ¶£ºÆäBooksÊý¾Ý¼¯ÖÐ°üº¬Ò»Ð©³¬¹ý500ÄêÀúÊ·£¨1500-2008£©µÄÊé¼®¡£

9.1. MassiveWebÊý¾Ý¼¯·ÖÎö

DeepMindÓÚ2014Äê±»¹È¸èÊÕ¹º£¬²¢ÔÚ´´½¨MassiveTextÊ±»ñµÃÁËº£Á¿Êý¾Ý¡£ËäÈ»GopherÂÛÎÄÖÐÃ»ÓÐ½øÒ»²½ÏêÏ¸ÃèÊöMassiveWeb£¬µ«µÚ44Ò³¸½Â¼ÖÐµÄ±íA3b×¢Ã÷ÁËMassiveWebÖÐ³öÏÖµÄÇ°20¸öÓò¡£¸ù¾ÝÅûÂ¶µÄÃ¿¸öÓòËùÕ¼µÄ°Ù·Ö±È£¬ÎÒÃÇ¿ÉÒÔÊ¹ÓÃMassiveWebµÄ×ÜtokenÊý£¨5060ÒÚtoken£©ºÍ×ÜÔÊ¼´óÐ¡£¨1900GB£©À´È·¶¨Ã¿¸öÓòµÄtokenÊýÁ¿ºÍ´óÐ¡¡£

±í17. MassiveWeb£ºÇ°20¸öÓò¡£¹«¿ªµÄÊý¾ÝÒÔ´ÖÌå±íÊ¾£¬È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£

9.2. Gopher£º¹ØÓÚÎ¬»ù°Ù¿ÆÊý¾Ý¼¯µÄ·ÖÎö

Î¬»ù°Ù¿ÆÊý¾Ý¼¯µÄ×Ü¹æÄ£ºÜÄÑÈ·¶¨¡£ÔÚGopherÂÛÎÄÖÐ£¬ÑÐ¾¿ÈËÔ±Ö¸³öÎ¬»ù°Ù¿ÆÃ»ÓÐ½øÐÐÊý¾ÝÈ¥ÖØ¡£È»¶ø£¬ÂÛÎÄÖÐÁÐ³öµÄ²»Í¬´óÐ¡Êý¾Ý¼¯£¨12.5GB MassiveWeb WikipediaÓë1GB MassiveText Wikipedia£©¿ÉÄÜÊÇÓÉÓÚÊ§Îó¶øÔì³ÉµÄ£¬Îó½«¡°10GB¡±Ð´³ÉÁË¡°1GB¡±¡£ÎÞÂÛÈçºÎ£¬±¾ÎÄ½öÊ¹ÓÃMassiveWebÊý¾Ý¼¯°æ±¾ (12.5GB)¡£

9.3. Gopher:²»°üÀ¨WebText

GopherÊý¾Ý¼¯µÄ×é³É²¿·Ö²»°üÀ¨RedditÍâÁ´µÄWebTextÊý¾Ý¼¯¡£ÎªÁËÇå³þÆð¼û£¬¾¡¹ÜRedditÊÇMassiveWebÖÐµÄ¶¥¼¶Óò£¬µ«¸ÃÊý¾Ý¼¯½ö×¥È¡RedditÓòÄÚµÄRedditÁ´½Ó¡£¸ù¾Ý¶¨Òå£¬WebTextÓÉ¡°ËùÓÐRedditµÄÍâÁ´¡±×é³É£¨¼´Ö¸ÏòRedditÓòÍâµÄÁ´½Ó£©¡£

9.4. Gopher·Ö×éÊý¾Ý¼¯

MassiveWeb±»ÈÏÎªÊÇMassiveTextµÄ×Ó×é¼þ£¬²¢±»¼¯³Éµ½GopherµÄÊý¾Ý¼¯»ã×ÜÖÐ£¬Æä·Ö×é»ùÓÚÒÔÏÂÁÐ³öµÄ¿ÉÓÃÐÅÏ¢£º

±í18. Gopher·Ö×éÊý¾Ý¼¯¡£¹«¿ªµÄÊý¾ÝÒÔ´ÖÌå±íÊ¾£¬È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£

9.5. GopherÊý¾Ý¼¯×Ü½á

GopherÊÇ±¾ÎÄÖÐ×î´óµÄÊý¾Ý¼¯£¬´óÐ¡Îª10.5TB¡£GopherÄ£ÐÍµÄ×îÖÕÊý¾Ý¼¯×Ü½á·ÖÎöÎª£º

±í19. GopherÊý¾Ý¼¯×Ü½á¡£¹«¿ªµÄÊý¾ÝÒÔ´ÖÌå±íÊ¾£¬È·¶¨µÄÊý¾ÝÒÔÐ±Ìå±íÊ¾¡£

10.½áÂÛ
¶ÔÓÚÑµÁ·µ±´úTransformer´óÐÍÓïÑÔÄ£ÐÍµÄÊý¾Ý¼¯¶øÑÔ£¬Õâ¿ÉÄÜÊÇ×îÈ«ÃæµÄÕûºÏ·ÖÎöÄÚÈÝ£¨½ØÖ¹2022Äê³õ£©¡£ÔÚÖ÷ÒªÊý¾ÝÔ´²»Í¸Ã÷µÄÇé¿öÏÂ£¬±¾´ÎÑÐ¾¿Ö÷Òª´Ó¶þ¼¶ºÍÈý¼¶À´Ô´ÊÕ¼¯Êý¾Ý£¬²¢¾³£ÐèÒª¼Ù¶¨À´È·¶¨×îÖÕ¹À¼ÆÖµ¡£Ëæ×ÅÑÐ¾¿ÈËÔ±Òª´¦ÀíÇ§ÍòÒÚ¸ötoken£¨1,000ÍòÒÚ£©ºÍÊýÇ§TBµÄÊý¾Ý£¨1,000TB£©£¬È·±£ÏêÏ¸ÅûÂ¶Êý¾Ý¼¯×é³ÉµÄÎÄµµ±äµÃÔ½À´Ô½ÖØÒª¡£

ÌØ±ðÖµµÃ¹Ø×¢µÄÊÇ£¬»ùÓÚ´óÐÍÓïÑÔÄ£ÐÍµÄÇ¿´óAIÏµÍ³²úÉúµÄÈß³¤¶øÄäÃûµÄÊä³öÕýÔÚÑ¸ËÙ·¢Õ¹£¬ÆäÖÐÐí¶àÊý¾Ý¼¯µÄÏ¸½ÚÄÚÈÝ¼¸ºõÃ»ÓÐÎÄµµËµÃ÷¡£

Ç¿ÁÒ½¨ÒéÑÐ¾¿ÈËÔ±Ê¹ÓÃÍ»³öÏÔÊ¾µÄ¡°Êý¾Ý¼¯µÄÊý¾Ý±í£¨Datasheet for Datasets£©¡±ÂÛÎÄÖÐÌá¹©µÄÄ£°å£¬²¢ÔÚ¼ÇÂ¼Êý¾Ý¼¯Ê±Ê¹ÓÃ×î¼ÑÊµ¼ùÂÛÎÄ£¨¼´Pile v1ÂÛÎÄ£¬°üÀ¨tokenÊýÁ¿£©¡£Êý¾Ý¼¯´óÐ¡£¨GB£©¡¢tokenÊýÁ¿£¨B£©¡¢À´Ô´¡¢·Ö×éºÍÆäËûÏêÏ¸ÐÅÏ¢Ö¸±ê¾ùÓ¦ÍêÕû¼ÇÂ¼ºÍ·¢²¼¡£

Ëæ×ÅÓïÑÔÄ£ÐÍ²»¶Ï·¢Õ¹²¢¸ü¹ã·ºµØÉøÍ¸µ½ÈËÃÇµÄÉú»îÖÐ£¬È·±£Êý¾Ý¼¯µÄÏêÏ¸ÐÅÏ¢¹«¿ªÍ¸Ã÷¡¢ËùÓÐÈË¶¼¿É·ÃÎÊÇÒÒ×ÓÚÀí½âÊÇÓÐÓÃ¡¢½ôÆÈºÍ±ØÒªµÄ¡£

×îÐÂ¾µäÎÄÕÂ£¬»¶Ó¹Ø×¢¹«ÖÚºÅhttp://www.aboutyun.com/data/attachment/forum/201903/18/215536lzpn7n3u7m7u90vm.jpg

ÔÎÄÁ´½Ó£ºhttps://blog.csdn.net/OneFlow_Official/article/details/129036156

Ò³: [1]

AboutÔÆ-ËóÂ×¿Æ¼¼'s Archiver

ChatGPTÊý¾Ý¼¯Ö®ÃÕ