微软开源根据图的检索增强生成办法GraphRAG 能够大幅度进步AI答复准确性

09-02 344阅读 0评论

微软在今年年初推出了 GraphRAG — 这是一种根据图 (Graph) 的检索增强生成 (RAG) 办法，能够对私有或曾经从未见过的数据集进行问答，比传统 RAG 办法能够更好的结构化信息检索和供给更全面的呼应生成，重点是能够大幅度进步 AI 答复的准确性。

今日微软宣告 GraphRAG 在 Github 上开源，GraphRAG 代码库还供给了一个解决方案加速器，即供给简略易用的 API 体会，这个 API 也现已托管到 Azure 上，开发者无需编写任何代码，只需要几回点击即可布置。

GraphRAG 运用大型言语模型主动从任何文本文档调会集提取丰厚的常识图谱，这种根据图的数据索引特性之一便是能够在用户查询之前陈述数据的语义结构。

之后再经过层次化的办法检测密布衔接的节点社区，将图分割为从高档主题到初级主题的多个层次，如下图所示：运用 LLM 总结这些节点社区能够创立数据的层次性摘要、供给数据集的概览，无需事前知道要问哪些问题。

上图中不同色彩代表不同的节点社区、左图为 0 级社区代表主题优先级最高、右图为 1 级社区显现子主题

对大局问题的社区摘要优势：

微软在最近发布的一篇论文中具体介绍了社区摘要怎么有助于答复大局问题，这些问题一般触及整个数据集而不是专心于特定的文本块。

在这种情况下根据向量查找的简略 RAG 办法显然是不行的，例如考虑数据会集的首要主题是什么时，简略的 RAG 往往会给出过错答案，由于这种办法是经过问题语义上类似的文本块生成答案，纷歧定是答复问题所需的输入文本子集。

但是，假如一个问题触及整个数据集那就应该考虑一切输入文本，由于简略的 RAG 只考虑最重要的前 k 个输入文本块，这就会呈现问题。

更糟糕的是简略的 RAG 办法还会将问题与哪些表面上看起来与该问题类似的文本框匹配起来，这会导致呈现误导性答案而非正确的内容。

而社区摘要有助于答复此类大局问题，由于实体和联系描绘的图索引现已考虑了其构建中的一切输入文本，因而能够运用 map-reduce 办法进行问答，保存数据布景相关的一切内容。

微软开源 GraphRAG 后一切开发者和企业都能够在 Github 上获取该项目并根据该项目开发或改善自己的项目，这不仅为开发者社区供给了一个强壮的东西，也为信息检索和呼应生成范畴带来了新的共同 RAG 办法。

有爱好的开发者能够点击这儿检查论文：https://www.microsoft.com/en-us/research/publication/from-local-to-global-a-graph-rag-approach-to-query-focused-summarization/

项目地址：https://github.com/microsoft/graphrag

限时活动引荐：开搜AI智能查找免费无广告直达成果、万能播放器VidHub支撑挂载网盘云播、阿里云服务器99元/年。

还没有评论，来说两句吧...