您现在的位置是:业界 >>正文
OpenAI 转录了超过一百万小时的 YouTube 视频来训练 GPT-4
业界38598人已围观
简介CSS站长资源(ChinaZ.com) 4月7日 消息:近日,《华尔街日报》报道称,人工智能公司在收集高质量训练数据方面遇到了困难。随后,《纽约时报》详细介绍了一些公司处理这一问题的方法,其中涉及到了 ...
CSS站长资源(ChinaZ.com) 4月7日 消息:近日,转录《华尔街日报》报道称,超过人工智能公司在收集高质量训练数据方面遇到了困难。百万随后,小时训练《纽约时报》详细介绍了一些公司处理这一问题的视频方法,其中涉及到了人工智能版权法的转录模糊灰色区域。
故事从OpenAI开始。超过该公司迫切需要训练数据,百万据报道开发了Whisper音频转录模型,小时训练转录了超过100万小时的视频YouTube视频来训练其最先进的大型语言模型GPT-4。《纽约时报》报道称,转录OpenAI知道这在法律上存在问题,超过但相信这是百万合理使用。OpenAI总裁格雷格·布罗克曼亲自参与了所使用视频的小时训练收集。
OpenAI发言人林赛·赫尔德告诉The视频 Verge,该公司为每个模型策划了"独特"的数据集,并使用"众多来源,包括公开数据和非公开数据的合作伙伴"。赫尔德还表示,该公司正在考虑生成自己的合成数据。
据《纽约时报》消息人士透露,谷歌也从YouTube收集了文字记录。谷歌发言人马特·布莱恩特表示,该公司"根据我们与YouTube创作者的协议,在一些YouTube内容上训练了模型"。
Meta同样也遇到了良好训练数据可用性的限制。该公司在努力追赶OpenAI的过程中,曾考虑未经许可使用版权作品的情况,包括支付图书许可费用或直接收购一家大型出版商。
这些公司正在努力应对模型训练数据快速蒸发的问题。《华尔街日报》本周撰文称,到2028年,公司可能会超越新内容。解决方案包括对模型创建的"合成"数据进行训练,或采用"课程学习"方法。但这些公司的另一个选择是使用他们能找到的任何东西,无论他们是否获得许可,这可能会引发版权法方面的担忧。
Tags:
相关文章
奇瑞回应徐奶奶车被奔驰男砸:我们的车主奶奶我们自己宠 已送新车瑞虎9代步
业界快科技2月1日消息,近日,71岁徐奶奶自驾奇瑞与奔驰男子发生行车纠纷并被砸引擎盖一事持续发酵。视频中,老人驾车在轮渡港口排队时,被一辆奔驰车加塞辱骂,引擎盖被对方砸出坑。据了解,视频中徐奶奶驾驶的是瑞 ...
【业界】
阅读更多Freepik推出Reimagine AI 支持无限滚动实时生成图像
业界CSS站长资源ChinaZ.com)3月21日 消息:Freepik最近推出了一款名为Reimagine AI的工具,这款工具的推出无疑为图片处理带来了全新的体验。首先,Reimagine AI的最大 ...
【业界】
阅读更多小米汽车优先购买权F码咸鱼平台售卖 北京当天可提车:官方已辟谣没F码
业界快科技3月21日消息,据国内媒体报道称,小米向供应链、渠道合作伙伴、生态链公司以及与小米系的被投公司发出了购车邀请。这些公司高层收到了购车F码”,与当年手机时代一样,可以保证优先交付,但价格上并不会有 ...
【业界】
阅读更多