OpenAI 转录了超过一百万小时的 YouTube 视频来训练 GPT-4
近日,据《华尔街日报》报道,人工智能企业在获取优质训练数据方面遭遇挑战。《纽约时报》随后深入探讨了部分企业为应对这一难题所采取的策略,其中触及了人工智能版权法的模糊地带。
以OpenAI为例,该公司急需训练数据,因此开发了Whisper音频转录模型,并转录了逾100万小时的YouTube视频,用于训练其领先的GPT-4大型语言模型。尽管《纽约时报》指出OpenAI意识到这一做法可能存在法律风险,但他们认为这属于合理使用范畴。OpenAI的总裁格雷格·布罗克曼甚至亲自参与了相关视频的搜集工作。
OpenAI的发言人林赛·赫尔德向The Verge透露,公司为每个模型定制了“独特”的数据集,数据来源广泛,包括公开数据及与合作伙伴的非公开数据。同时,赫尔德表示公司正在考虑生成自有合成数据。
另一方面,据《纽约时报》的内部消息,谷歌也从YouTube上收集了文本记录。谷歌发言人马特·布莱恩特证实,公司“基于与YouTube创作者的协议,在某些YouTube内容上进行了模型训练”。
与此同时,Meta在追求高质量训练数据时也面临限制。在努力赶超OpenAI的过程中,Meta曾考虑未经许可使用受版权保护的作品,包括支付图书版权费或直接收购大型出版社。
随着模型训练数据迅速枯竭的问题日益凸显,这些公司正在探索新的解决方案。据《华尔街日报》本周的文章预测,到2028年,企业可能会面临无新内容可用的局面。可能的解决方案包括利用模型生成的“合成”数据进行训练,或采用“课程学习”方法。然而,这些公司也可能会选择使用他们能找到的任何数据,不论是否获得许可,这无疑会引发版权法方面的争议和担忧。