您现在的位置是:热点 >>正文
苹果开发出能看懂屏幕上下文的人工智能技术ReALM
热点9551人已围观
简介CSS站长资源ChinaZ.com)4月3日 消息:苹果开发出了一项能够实时理解和识别用户屏幕上显示内容的人工智能技术,而且无需依赖屏幕截图或图像数据输入。这项技术被称为ReALMReal-time ...
CSS站长资源(ChinaZ.com)4月3日 消息:苹果开发出了一项能够实时理解和识别用户屏幕上显示内容的苹果屏幕人工智能技术,而且无需依赖屏幕截图或图像数据输入。开发看懂这项技术被称为ReALM(Real-time Analysis 上下of Live Media),它使得在与用户交流的人工过程中,智能助手能够看到用户所看到的技术一切内容,并理解用户当前正在进行的苹果屏幕活动,从而随时提供帮助。开发看懂
论文地址:https://arxiv.org/pdf/2403.20329.pdf
ReALM技术通过将屏幕上的上下元素和布局转换为文本形式,然后利用这些文本信息来解析用户提出的人工与屏幕内容相关的查询或指令。比如用户可以说“打开我屏幕上显示的技术第一个应用”或“读取屏幕中央的新闻标题”,即使实际上该智能助手并未“看到”用户的苹果屏幕屏幕。
这种能力特别适用于需要对屏幕上信息进行快速反应和处理的开发看懂应用场景,比如虚拟助手和辅助技术等。上下通过ReALM技术,人工智能助手可以更加智能地理解用户的技术意图,并提供更加准确和个性化的帮助和服务。
这一举措预示着 iOS18将于2024年6月的 WWDC 发布,届时我们预计将推出全新的 Siri2.0,尽管目前尚不清楚该模型是否会及时集成到 Siri 中。这并不是苹果最近几个月在人工智能领域的首次尝试,公司推出了一系列新模型、工具以及合作伙伴关系,所有这些都预示着一家准备将人工智能作为业务中心的公司。
ReALM 是苹果快速增长的人工智能研究团队发布的最新消息,也是第一个专注于改进现有模型的消息,使其更快、更智能和更高效。
该公司声称,甚至在某些任务上优于 OpenAI 的 GPT-4。最新发布的详细信息来自苹果公司于周五发布的一篇新的开放研究论文,首次由 Venture Beat 在周一报道。对于它是否将实际成为 iOS18的一部分,苹果公司对此尚未置评。
ReALM 是如何工作的?
ReALM 与 GPT-4等模型相比要小得多。但这是因为它不需要做所有的事情。它的目的是为其他人工智能模型提供上下文,比如 Siri。
这是一个视觉模型,重新构建屏幕并标记每个屏幕实体及其位置。这创建了屏幕布局的基于文本的表示,可以传递给语音助手,为用户请求提供上下文线索。
在准确性方面,苹果表示,尽管体积更小、速度更快,ReALM 在一些关键指标上的表现与 GPT-4相当好。
这对 Siri 意味着什么?这意味着,如果未来版本的 ReALM 被部署到 Siri—— 甚至是这个版本 —— 那么当用户告诉它打开这个应用程序,或者告诉我这个图像中这个词的含义时,Siri 将更好地理解用户的意图。
它还将使 Siri 在不必完全部署像 Gemini 这样的大型语言模型的情况下具有更多的对话能力。当结合其他最近的苹果研究论文,允许 “一次性” 响应 —— 即 AI 可以从单个提示中获得答案 —— 这表明苹果仍在大力投资于 AI 助手领域,而不仅仅依赖外部模型。
Tags:
相关文章
华为完成国内千小区连片开通5.5G 实测网速超4000Mbps
热点快科技2月2日消息,近日,广东电信携手华为在深圳完成全国首个3.5GHz 2.1GHz 3CC千小区连片规模部署。通过采用F T三载波聚合技术,测试下行速率超4Gbps,正式开启5G-A规模应用之路。 ...
【热点】
阅读更多国内首艘多功能运维母船交付:总长98米、载缆量约2500吨
热点快科技6月19日消息,据媒体报道,中国船舶集团第七〇八研究所精心研发设计的多功能运维母船丰华23”号,已由福建船政旗下的东南造船有限公司成功建造并交付使用。丰华23”号不仅是我国自主设计、建造的首艘大 ...
【热点】
阅读更多网约车乘客“开门杀”致人八级伤残 法院判了:司机70%责任 赔偿82万
热点快科技6月20日消息,上海市第一中级人民法院近日审结一网约车乘客开门杀”导致的交通事故案。一天傍晚,乘客小阳叫到网约车,临近目的地时,经司机王先生同意,从后排打开右侧车门下车。此时,电动自行车主小李从 ...
【热点】
阅读更多