总台AI助手技术科普:从LLM到RAG带你读懂智能应用原理

小编头像

小编

管理员

发布于:2026年05月06日

32 阅读 · 0 评论

2026年4月8日,随着中央广播电视总台“央视听媒体大模型2.0”等AI技术的深度落地,人工智能已全面融入内容生产的各个环节-。在各类AI应用中,智能问答与检索增强生成(Retrieval-Augmented Generation,RAG)已成为企业级AI助手的核心技术方案。无论是总台的“AI王冠”数字人项目,还是面向用户的智能客服系统,背后都离不开LLM与RAG的技术支撑-

许多开发者对这类技术的理解停留在“调接口”层面:会用LLM的API,但不清楚RAG的原理;听说过RAG,却分不清它和LLM、微调之间的区别;面试被问到“如何让AI助手不产生幻觉”,答不上核心逻辑。本文将从零讲透LLM与RAG,包含原理、代码示例和面试要点,帮助读者建立完整知识链路。


一、痛点切入:为什么需要RAG?

先看一个传统做法。假设你想用大模型做一个总台AI助手,让它回答“昨天新闻联播的主要内容是什么”。如果直接调用LLM:

python
复制
下载
 传统做法:直接调用LLM
response = llm.chat("昨天新闻联播的主要内容是什么?")
 模型可能基于训练数据回答,但内容可能过时或不准确

这种做法存在几个明显问题:一是知识滞后,LLM的训练数据截止于某个时间点,无法获取最新信息;二是幻觉问题,模型面对未知内容时会“编造”答案,这在媒体场景下是不可接受的-三是缺乏私有数据支持,总台内部的海量媒体素材无法被模型直接使用。

RAG的出现正是为了解决这些痛点。


二、核心概念:LLM(大语言模型)

LLM(Large Language Model,大语言模型) 是一种基于Transformer架构、通过海量文本数据进行预训练、拥有数十亿乃至万亿参数的人工智能模型-。其核心能力是理解和生成人类语言。

生活化类比:LLM就像一位阅读了成千上万本书的“博学家”,知道很多知识,但它的知识停留在“读过的书”里。如果你问它最近发生的事情,它只能说“我没看过那本书”。

核心价值:LLM是AI助手的“大脑”,负责理解用户意图并生成自然语言回答。但它的局限性也很明显——无法获取最新信息和私有数据。


三、关联概念:RAG(检索增强生成)

RAG(Retrieval-Augmented Generation,检索增强生成) 是一种将信息检索系统与LLM生成能力相结合的技术框架。它在生成回答之前,先从外部知识库中检索相关内容,再将检索结果作为上下文输入给LLM,从而生成更准确、更可靠的回答-

RAG的工作流程包含三个核心模块:

模块作用关键技术
检索(Retrieval)从知识库中查找与用户问题最相关的文档片段向量相似度计算、嵌入模型
增强(Augmentation)将检索结果与用户查询深度融合注意力机制、Prompt模板
生成(Generation)基于增强后的上下文生成最终答案LLM推理

RAG解决了LLM的两大痛点:知识滞后(通过实时检索外部知识)和模型幻觉(提供事实依据约束生成内容)-


四、概念关系与区别总结

LLM与RAG的关系,一句话概括:LLM是“大脑”,RAG是“外挂知识库”

对比维度LLMRAG
定位核心生成能力增强框架
知识来源训练数据中的静态知识外部实时检索的动态知识
能否获取新信息不能(知识截止于训练时间)能(实时检索)
是否产生幻觉容易产生幻觉显著降低幻觉
私有数据支持不支持支持(通过定制知识库)
技术复杂度高(需要大量训练资源)中(在LLM基础上增加检索层)

记忆口诀:LLM负责“说”,RAG负责“查”,先查后说,准确可靠。


五、代码示例:用Spring AI搭建RAG智能助手

2026年3月26日,Spring AI 2.0.0-M4版本发布,标志着Spring AI已成为与Spring Boot同级别的一等公民-。下面展示如何用Spring AI快速构建一个RAG智能助手。

1. 添加依赖(pom.xml)

xml
复制
下载
运行
<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-core</artifactId>
    <version>2.0.0-M4</version>
</dependency>
<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-vectordb-chroma</artifactId>
</dependency>

2. 配置向量存储与LLM

yaml
复制
下载
 application.yml
spring:
  ai:
    openai:
      api-key: ${OPENAI_API_KEY}
      chat:
        options:
          model: gpt-4
    vectorstore:
      chroma:
        path: ./chroma-db

3. RAG核心实现

java
复制
下载
@Service
public class RAGAssistant {
    
    @Autowired
    private VectorStore vectorStore;      // 向量数据库,存储知识库的嵌入向量
    
    @Autowired
    private ChatClient chatClient;        // LLM聊天客户端
    
    // 检索增强生成的核心方法
    public String ask(String userQuestion) {
        // 步骤1:检索 - 从向量库中查找最相关的3个文档片段
        List<Document> relevantDocs = vectorStore.similaritySearch(
            SearchRequest.query(userQuestion).withTopK(3)
        );
        
        // 步骤2:增强 - 将检索结果构建为上下文Prompt
        String context = relevantDocs.stream()
            .map(Document::getContent)
            .collect(Collectors.joining("\n---\n"));
        String enhancedPrompt = """
            请基于以下参考资料回答用户问题。
            参考资料:%s
            用户问题:%s
            如果参考资料中没有相关信息,请如实告知。
            """.formatted(context, userQuestion);
        
        // 步骤3:生成 - 调用LLM生成答案
        return chatClient.call(enhancedPrompt);
    }
}

执行流程说明

  • Step 1:用户提问 → 系统将问题转换为向量,与向量库中的文档向量进行相似度计算,找出最相关的3个文档片段-

  • Step 2:检索到的文档片段与原问题拼接成一个增强后的Prompt。

  • Step 3:LLM基于增强Prompt生成答案,由于Prompt中包含了事实依据,模型不再“凭空想象”,而是“有据可答”。


六、底层原理支撑

RAG能够高效运行,底层依赖几项核心技术:

技术作用常用方案
嵌入模型(Embedding Model)将文本转换为向量,用于语义检索OpenAI text-embedding-3、BGE
向量数据库(Vector Database)存储和检索高维向量,支持快速相似度Chroma、Milvus、Qdrant-
相似度计算算法计算向量间的距离,找出最相关内容余弦相似度、欧氏距离、ANN索引

这些技术共同构成RAG的底层基础,支撑上层智能问答功能的实现。


七、高频面试题

Q1:RAG和微调(Fine-tuning)有什么区别?

答:两者是解决LLM知识问题的不同技术路线。RAG通过外部检索动态获取知识,无需重新训练模型,适合知识频繁更新的场景;微调通过在私有数据上继续训练模型来注入新知识,适合领域风格和格式要求固定的场景。RAG成本低、实时性强;微调效果好但训练成本高。

Q2:RAG如何解决大模型的幻觉问题?

答:RAG通过“先检索、再生成”的流程,将真实的外部数据作为生成上下文注入LLM,使模型在回答时有了事实依据,而不是依赖训练数据中的记忆。当检索不到相关信息时,系统会如实告知“未找到相关内容”,而非强行编造答案-

Q3:RAG系统的核心模块有哪些?

答:三个核心模块——检索模块(从知识库查找相关文档)、增强模块(将检索结果与查询深度融合)、生成模块(基于增强后的上下文输出答案)-

Q4:LLM和RAG的关系是什么?

答:LLM是RAG的生成引擎,RAG是增强LLM能力的框架。RAG不替代LLM,而是在LLM外围增加检索层,两者配合实现更准确的问答。没有LLM,RAG无法生成;没有RAG,LLM难以获取实时和私有知识。

Q5:为什么企业级AI助手普遍采用RAG而非直接使用LLM?

答:主要原因有三:①数据安全——企业私有数据无需用于模型训练,只需存入向量库;②知识更新——知识库可随时更新,无需重训模型;③成本可控——相比微调大模型,RAG的检索计算成本远低于模型训练。


八、结尾总结

本文围绕总台AI助手背后的核心技术,梳理了以下核心知识点:

知识点核心要点
LLM基于Transformer的大规模语言模型,是AI的“大脑”
RAG检索增强生成,为LLM外挂实时知识库
二者关系LLM是核心引擎,RAG是增强框架,缺一不可
核心价值解决LLM的知识滞后和幻觉问题,支持私有数据接入
技术栈嵌入模型 + 向量数据库 + LLM

重点提醒:不要混淆RAG与微调——RAG适合知识实时更新的场景,微调适合风格格式固定的场景。实际应用中两者也可以结合使用,先用微调让模型掌握领域表达习惯,再叠加RAG获取实时信息。

下篇预告:将深入探讨AI Agent(智能体)技术,分析多智能体协作框架与LangGraph的实践应用,敬请期待。

标签:

相关阅读