• 被微博屏蔽
    用户头像

    蕨代霜蛟

    『中国如何缺席ChatGPT盛宴』『NLP圈的小家碧玉,CV圈的隔行隔山,出国交流减少,互联网交流不通。这些因素叠加起来,整个中文世界,形成了一个信息茧房。10年来,我们以为自己积攒了AI算法、数据、应用的优势,如今情况变成了中美扩大的技术鸿沟。这时候,我们甚至没有一个新闻调查,把这件事的来龙去脉,挖它个底朝天。另一个问题是,我们的中文互联网不足以提供高质量的训练数据。什么是高质量的数据?比如维基百科、高质量的活跃论坛、专业新闻、学术论文、高质量代码、图书。我们看看GPT–3的训练数据是什么。权重最大的数据集是OpenWebText(开源版本),数据是从Reddit论坛上收集的URL,再把内容抓取下来。Common Crawl是一个开放的互联网数据存档(英文占一半,中文大概5%)。其他一些代表性的数据包括Wikipedia维基百科,Books开放图书,Stack Exchange 技术问答社区,Github 代码,ArXiv论文,RealNews 新闻存档,PubMed 医疗数据。可以看到,由中文互联网产生的数据,比例低到可以忽略。这也是困扰很多试图训练中文大模型的问题,但实际上,ChatGPT的用中文沟通的能力,已经远超那些专门的中文大语言模型了,背后原因是GPT隐式学到的翻译能力。没有好的中文数据,我们就只能搭全球互联网的数据顺风车。上面这些优质数据的产生,需要开放的社区,我们似乎无解。』收起 长图
    展开全文
    1. 微博附图
    原微博