您现在的位置是:电商 >>正文
谷歌AI研究人员提出噪声感知训练方法(NAT)用于布局感知语言模型
电商927人已围观
简介划重点:⭐️ 谷歌 AI 研究人员提出了噪声感知训练方法NAT)用于训练具有布局感知能力的语言模型⭐️ 研究团队提出的 NAT 方法旨在解决在有限标记数据和有限训练时间内训练强大文档抽取器的挑战⭐️ ...
划重点:
⭐️ 谷歌 AI 研究人员提出了噪声感知训练方法(NAT)用于训练具有布局感知能力的谷歌A感知语言模型
⭐️ 研究团队提出的 NAT 方法旨在解决在有限标记数据和有限训练时间内训练强大文档抽取器的挑战
⭐️ 这项研究为在企业环境中提高文档处理工作流的效率和可扩展性,最终提高生产力并降低运营成本铺平了道路
CSS站长资源(ChinaZ.com)4月8日 消息:在文档处理中,研员提用于语特别是究人在视觉丰富的文档(VRDs)中,高效信息提取(IE)的出噪需求变得越来越关键。VRDs,声感如发票、知训水电费单和保险报价,练方在业务工作流中随处可见,布局通常以不同的模型布局和格式呈现类似信息。自动从这些文档中提取相关数据可以显著减少解析所需的谷歌A感知手动工作量。然而,研员提用于语从 VRDs 实现 IE 的究人通用解决方案面临着重大挑战,因为它需要理解文档的出噪文本和视觉特性,这些特性无法轻松地从其他来源中获取。声感
针对从 VRDs 提取信息的知训任务,已经提出了许多方法,范围从分割算法到编码视觉和文本上下文的深度学习架构。然而,许多这些方法依赖于监督学习,需要许多人工标记的样本进行训练。
标记高度准确的 VRDs 是一项耗时且昂贵的工作,这在企业场景中构成了瓶颈,必须为成千上万种文档类型训练定制提取器。研究人员已经转向预训练策略来解决这一挑战,利用无监督多模态目标在未标记实例上训练抽取器模型,然后在人工标记的样本上进行微调。
尽管预训练策略具有许多潜在优势,但它们经常需要大量的时间和计算资源,使其在受限制的训练时间内变得不切实际。作为对这一挑战的回应,谷歌 AI 的研究团队提出了一种半监督的持续训练方法,以在有限的人工标记样本和有限的训练时间内训练出稳健的抽取器。他们提出了一种噪声感知训练方法(NAT)。他们的方法分为三个阶段,利用标记和未标记数据来循序渐进地提高抽取器的性能,同时遵守对训练施加的时间约束。
他们研究的核心问题是推动文档处理领域的发展,特别是在企业环境中,可扩展性和效率至关重要。挑战在于开发技术,允许在有限的标记数据和有限的训练时间内有效地从 VRDs 中提取信息。他们提出的方法旨在应对这一挑战,最终目标是使普通用户能够访问先进的文档处理功能,同时最大限度地减少为训练定制提取器所需的人工工作量和资源。
所提出的半监督持续训练方法不仅解决了在严格时间限制内训练强大文档抽取器所固有的挑战,而且带来了一系列好处。通过系统地利用标记和未标记数据,他们的方法有望显着提高企业环境中文档处理工作流的效率和可扩展性,最终提高生产力并降低运营成本。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路,标志着该领域迈出了重要的一步。
论文地址:https://arxiv.org/abs/2404.00488
Tags:
相关文章
手工耿自制本命年红运套装:满身红光成街头最亮的仔
电商快科技1月31日消息,今天手工耿带来了最新作品本命年红运套装。手工耿在视频中介绍称,今年是自己本命年36岁),便诞生了打造本命年红运套装”的想法。他在一件红毛衣上打满洞,安装上红色灯泡,开启后全身发出 ...
【电商】
阅读更多新郎在大雪中开启浪漫迎亲 网友:风雪中的浪漫
电商2月1日凌晨,河南开封地区飘起了漫天大雪。然而,这场大雪并没有阻挡一对新人喜结连理的决心。在司仪的主持下,新郎顶着风雪踏上了迎接新娘的旅程。尽管天气恶劣,新郎的坚定和执着令人感动。这场婚礼在风雪中进行 ...
【电商】
阅读更多AutoMathText体验入口 数学内容的AI模型数据集免费在线下载地址
电商AutoMathText是一个引人注目的数学文本数据集,拥有约200GB的高质量内容。每一条信息都经过先进的语言模型Qwen的自主选择和评分,确保了高水平的相关性和内容质量。这个数据集不仅适用于推动数 ...
【电商】
阅读更多