微软研究人员SpreadsheetLLM项目,教AI“读懂”电子表格内容

AI
本站
2024 07-22 16:32:49
分享
作者:不二研究
本文标签:微软 ai 数据分析

微软研究人员近期发布了一项名为SpreadsheetLLM的创新研究,旨在解决大语言模型(LLM)在解析电子表格时遇到的难题。

根据7月12日发表在Arxiv上的论文,SpreadsheetLLM通过一种编码框架,使得LLM能够“读懂”电子表格的内容。这一研究有望显著提升电子表格的数据管理和分析效率,并且使得用户可以用自然语言向AI提出问题,而无需掌握复杂的公式和操作。

image.png

论文地址:https://arxiv.org/html/2407.09025v1#abstract

电子表格对LLM的理解构成了多方面的挑战。首先,电子表格的体积可能非常庞大,超出了LLM一次性处理的字符限制。其次,电子表格采用的是二维布局和结构,而LLM擅长处理的是线性的、顺序的输入。最后,LLM通常没有专门的训练来解读单元格地址及特定的电子表格格式。

微软的SpreadsheetLLM技术由两个主要部分组成。第一部分是SheetCompressor,它通过缩减电子表格的复杂性,使其更易于被LLM理解。SheetCompressor包括三个模块:结构锚点、减少令牌数量的方法和通过聚类相似单元格提升效率。利用这些模块,微软团队将编码所需的令牌数量减少了96%,并取得了12.3%的改进效果。第二部分是Chain of Spreadsheet,它教会LLM如何在压缩后的电子表格中找到相关信息并生成回答。

image.png

这一技术的成功应用将显著提升微软C o p i l o t在Excel中的功能,使其能够处理更复杂的数据分析任务。然而,目前这一方法仍然面临生成数据准确性和高计算资源消耗等问题。研究团队未来的计划包括对单元格背景色的编码和加深对单元格内容关联性的理解。



本站原创文章未经授权禁止转载,如有侵权内容请联系客服