OpenAI 转录了超过一百万小时的 YouTube 视频来训练 GPT-4

ai导航 2024年6月20日上午1:18

近日，据《华尔街日报》报道，人工智能企业在获取优质训练数据方面遭遇挑战。《纽约时报》随后深入探讨了部分企业为应对这一难题所采取的策略，其中触及了人工智能版权法的模糊地带。 OpenAI 转录了超过一百万小时的 YouTube 视频来训练 GPT-4

以OpenAI为例，该公司急需训练数据，因此开发了Whisper音频转录模型，并转录了逾100万小时的YouTube视频，用于训练其领先的GPT-4大型语言模型。尽管《纽约时报》指出OpenAI意识到这一做法可能存在法律风险，但他们认为这属于合理使用范畴。OpenAI的总裁格雷格·布罗克曼甚至亲自参与了相关视频的搜集工作。

OpenAI的发言人林赛·赫尔德向The Verge透露，公司为每个模型定制了“独特”的数据集，数据来源广泛，包括公开数据及与合作伙伴的非公开数据。同时，赫尔德表示公司正在考虑生成自有合成数据。

另一方面，据《纽约时报》的内部消息，谷歌也从YouTube上收集了文本记录。谷歌发言人马特·布莱恩特证实，公司“基于与YouTube创作者的协议，在某些YouTube内容上进行了模型训练”。

与此同时，Meta在追求高质量训练数据时也面临限制。在努力赶超OpenAI的过程中，Meta曾考虑未经许可使用受版权保护的作品，包括支付图书版权费或直接收购大型出版社。

随着模型训练数据迅速枯竭的问题日益凸显，这些公司正在探索新的解决方案。据《华尔街日报》本周的文章预测，到2028年，企业可能会面临无新内容可用的局面。可能的解决方案包括利用模型生成的“合成”数据进行训练，或采用“课程学习”方法。然而，这些公司也可能会选择使用他们能找到的任何数据，不论是否获得许可，这无疑会引发版权法方面的争议和担忧。

ai工具箱
ai导航
免费aigc导航
aigc工具
免费ai工具

OpenAI 转录了超过一百万小时的 YouTube 视频来训练 GPT-4

相关文章

联系我们

微信747975991

OpenAI 转录了超过一百万小时的 YouTube 视频来训练 GPT-4

相关文章

相关新闻

联系我们

微信747975991