案例 1：使用 MCP 实现 AI 播客生成器

本节内容，我们将通过一个实际的例子来讲解，如何组合使用 MCP 服务器，实现一个 AI 播客生成器。

在开始正式内容之前，先介绍一下 PodLM 这款产品：

PodLM 是我在 2024 年 10 月开发的一款产品，定位是“AI 播客生成器”，核心功能是根据用户输入的网址或话题，生成一段多人对话的音频，以播客的形式输出。PodLM 产品官网如图所示：

图：PodLM 产品官网

PodLM 受到了去年谷歌发布的产品：NotebookLM 的启发。NotebookLM 是一款专注于个人知识库问答的产品，因其支持把知识库内容转换成双人对谈播客的功能而出圈。

跟 NotebookLM 的定位不一样，PodLM 专注于播客内容的生成与音频输出。借助大模型的多模态能力，把网页或文字内容，转成富有情绪感染力的播客形式，让用户用“听”的方式，去了解自己感兴趣的内容。

PodLM 是一个 SaaS（软件即服务）产品，生成播客的流程是通过代码实现的。在接下来的内容中，我们将通过组合使用 MCP 服务器，来实现 PodLM 生成播客的核心功能。

5.2.1 实现目标

PodLM 网页版的功能，支持通过输入话题、网页 URL、长文本三种方式作为生成播客内容的参考。

用户可以自定义输出的播客风格、语言，模型来生成播客脚本，选择 TTS（Text To Souds，文本转声音）将播客脚本转成音频。

PodLM 播客生成器页面如图所示：

图：PodLM 播客生成器页面

在未编码的情况下，使用 MCP 服务器来实现上述功能，完成度可能不及 PodLM。我们不打算完整复刻 PodLM 的功能，而是选择其中颇具代表性的一两个功能点，通过组装 MCP 服务器的方式来完成。

我们选择以下两个功能，来分析下实现的思路和步骤：

通过话题生成播客

用户输入想要在播客中讨论的内容或话题，选择播客风格，大模型生成播客脚本，应用把播客脚本内容转成音频输出。

播客脚本由大模型进行推理生成，我们需要准备一套提示词，让大模型输出符合指定风格的播客脚本。

文本转音频需要 TTS 模型的支持。知名的 TTS 服务商包括 ElevenLabs、OpenAI、MiniMax 等。

多人对谈播客需要通过编码合成多段音频，只靠组装 MCP 服务器不好实现，我们选择实现单人播客。

总结起来，要实现通过话题生成播客的需求，我们需要准备：

单人播客(比如：单人脱口秀)提示词模板
输出稳定性高的文本大模型（比如：deepseek-v3），用于生成播客脚本
把文本内容转换成音频的 MCP 服务器
可选：联网查询的 MCP 服务器，为输入的话题补充实时信息

通过网页 URL 生成播客

跟通过话题生成播客的需求类似，通过网页 URL 生成播客，我们需要准备：

单人播客（比如：实时评论）提示词模板
输出稳定性高的文本大模型（比如：deepseek-v3），用于生成播客脚本
获取网页 URL 内容的 MCP 服务器，为生成播客脚本提供上下文
把文本内容转换成音频的 MCP 服务器

需求分析清楚之后，接下来我们就着手来实现。

5.2.2 准备 MCP 服务器

在实现 AI 播客生成的需求之前，我们先准备需要用到的 MCP 服务器。根据需求分析，需要用到的 MCP 服务器提供的工具包括：

文本转音频
联网搜索
读取网页内容

在 MCP.so 平台通过关键词搜索，可以找到很多满足需求的 MCP 服务器，根据我们自身的需求和喜好，选择其中一个即可。

文本转音频

选择国产模型厂商 MiniMax 官方发布的 MCP 服务器，来实现文本转音频的需求。

图：MCP.so 平台上的 MiniMax MCP 服务器详情

参考文档说明，先完成此 MCP 服务器的配置：

在 MiniMax 账户管理中心创建接口密钥

图：在 MiniMax 账户管理后台创建接口密钥

配置 MiniMax MCP 服务器

我们选择 Cursor 作为大模型客户端，在 Cursor 的 MCP 配置文件中，添加 MiniMax MCP 服务器的配置：

{
  "mcpServers": {
    "MiniMax": {
      "command": "uvx",
      "args": ["minimax-mcp", "-y"],
      "env": {
        "MINIMAX_API_KEY": "xxx",
        "MINIMAX_MCP_BASE_PATH": "your-local-path",
        "MINIMAX_API_HOST": "https://api.minimax.chat",
        "MINIMAX_API_RESOURCE_MODE": "url"
      }
    }
  }
}

注意，这里的 MINIMAX_API_KEY 需要替换为在 MiniMax 账户管理后台创建的接口密钥。如果设置的 MINIMAX_API_RESOURCE_MODE 值是 url，MINIMAX_MCP_BASE_PATH 可以不填。

调试文本转音频

在 Cursor 中配置好 MiniMax MCP 服务器之后，可以看到此服务器提供的 Tools 列表。

其中的 text_to_audio 工具是我们本次需求需要用到的。

在 Cursor AI 对话面板，调试 MiniMax MCP 服务器的文本转音频功能，如图所示：

图：调试文本转音频

可以看到，此 MCP 服务器根据提供的文本，转成音频输出，也支持指定音色，满足播客音频输出的需求。

联网搜索

通过在 MCP 应用市场搜索，找到 Tavily MCP Server 这个 MCP 服务器，来实现联网搜索功能。此服务器在 MCP.so 平台上的详情如图所示：

图：MCP.so 平台上 Tavily MCP 服务器详情

参考文档说明，先完成此 MCP 服务器的配置：

在 Tavily 管理后台创建 ApiKey

图：在 Tavily 后台创建 ApiKey

配置 Tavily MCP 服务器

在 Cursor 的 MCP 配置文件中，添加 Tavily MCP 服务器的配置：

{
  "mcpServers": {
    "tavily-mcp": {
      "command": "npx",
      "args": ["-y", "tavily-mcp"],
      "env": {
        "TAVILY_API_KEY": "xxx"
      },
      "disabled": false,
      "autoApprove": []
    }
  }
}

这里的 TAVILY_API_KEY 需要替换为在 Tavily 管理后台创建的 ApiKey。

调试联网搜索

在 Cursor 中配置好 Tavily MCP 服务器之后，可以看到此服务器提供的 Tools 列表。

其中的 tavily-search 工具是我们本次需求需要用到的。

在 Cursor AI 对话面板，调试 Tavily MCP 服务器的联网搜索功能，如图所示：

图：调试 Tavily MCP 服务器联网搜索工具

可以看到，Tavily MCP 服务器能够查到互联网上的实时新闻，满足生成播客脚本时，联网搜索实时信息的需求。

获取网页 URL 内容

我们选择 Firecrawl MCP Server，来实现抓紧网页内容的需求。

图：MCP.so 平台上 Firecrawl MCP 服务器详情

参考文档说明，先完成此 MCP 服务器的配置：

在 Firecrawl 管理后台创建 ApiKey

图：在 Firecrawl 后台创建 ApiKey

配置 Firecrawl MCP 服务器

在 Cursor 的 MCP 配置文件中，添加 Firecrawl MCP 服务器的配置：

{
  "mcpServers": {
    "mcp-server-firecrawl": {
      "command": "npx",
      "args": ["-y", "firecrawl-mcp"],
      "env": {
        "FIRECRAWL_API_KEY": "xxx"
      }
    }
  }
}

这里的 FIRECRAWL_API_KEY 需要替换为在 Firecrawl 管理后台创建的 ApiKey。

调试读取网页内容

在 Cursor 中配置好 Firecrawl MCP 服务器之后，可以看到此服务器提供的 Tools 列表。

其中的 firecrawl_scrape 工具是我们本次需求需要用到的。

在 Cursor AI 对话面板，调试 Firecrawl MCP 服务器的读取网页内容功能，如图所示：

图：调试 Firecrawl MCP 服务器网页读取工具

可以看到，Firecrawl MCP 服务器能够读取指定网页链接的内容，满足通过网页 URL 生成播客脚本的需求。

在配置好这几个 MCP 服务器之后，接下来我们就可以来实现 AI 播客生成器了。

5.2.3 通过话题生成播客

我们来实现通过话题生成播客的需求，用户在大模型客户端操作，整体的交互流程为：

用户在大模型客户端输入想了解的话题
大模型客户端通过 MCP 服务器联网搜索跟话题相关的内容
大模型客户端带上联网搜索的内容，请求大模型生成播客脚本
大模型客户端通过 MCP 服务器把播客脚本转成音频
大模型回复播客音频给用户，完成用户指定话题听播客的需求

我们可以指定用“脱口秀”风格，来为用户指定的话题生成播客。

生成脱口秀风格播客脚本的提示词如下：

你是一名顶级脱口秀编剧，你的任务是将所提供的输入文本转化为引人入胜的脱口秀喜剧剧本。输入内容可能是非结构化或杂乱的，可能来自各种来源。你的目标是提取最有趣、最具争议性或最幽默的内容，创作出让观众捧腹大笑的脱口秀表演。

## 步骤

1. **分析输入：**
   仔细审查文本，识别可以转化为幽默段子、讽刺评论或有趣观察的关键主题和观点。寻找可以夸张或戏谑的元素。

2. **头脑风暴：**
   创造性地思考如何将关键点转化为喜剧素材。考虑：
   - 夸张的比喻或类比
   - 出人意料的转折或包袱
   - 讽刺性的观察或社会评论
   - 自嘲或角色扮演的机会
   - 与观众互动的潜力

3. **构建笑点：**
   将你的头脑风暴内容组织成一系列笑点，每个笑点都是一句简短的包袱或有趣的观察。

4. **撰写独白：**
   根据你构建的笑点，发展出连贯的独白流程。包括：
   - 能吸引观众注意力的开场
   - 头脑风暴中最精彩的笑点
   - 巧妙的话题过渡
   - 讽刺性的社会评论
   - 与观众互动的时刻
   - 发人深省的结尾

5. **难忘亮点：**
   确保包含几条特别令人难忘的笑点或观察，成为整场表演的亮点。

---

### 要求

- 脱口秀剧本需涵盖所提供参考内容的主要主题，但要以幽默和讽刺的方式呈现。
- 保持逻辑流畅，但要包含出人意料的转折和包袱。
- 根据参考内容，创造一个独特的脱口秀演员角色，包括姓名和性格特征。
- 编写 3-5 个主要笑点或观察。
- 确保每个笑点都充分展开，最好包括铺垫、递进和高潮。
- 在合适的地方加入与观众互动的环节。
- 使用中文，确保幽默和文化参考适合中国观众。
- 如果未提供具体表演者信息，请创建一个默认的脱口秀演员角色。
- 剧本总字数应约为 750 字（约 5 分钟口播）。
- 剧本内容仅包含表演者要说的话，不要有动作描述或场景指示。
- 如果用户补充了话题，请基于其生成至少 10 个喜剧话题，否则请原创内容。
- 每个话题必须有至少 3 轮展开（铺垫、递进、包袱）。
- 各段落之间要有自然过渡。
- 每个话题中都要有观众互动的机会。
- 在观察类幽默、讲故事和与观众互动之间保持平衡。
- 剧本总字数应为 1500-2000 字，以适应扩展段子。

参考内容请根据用户补充内容生成。

如果所提供内容不足以作为参考，请将其作为话题，基于其原创内容。确保你的脱口秀剧本有趣、幽默，并与给定话题或内容相关。

表演者信息请根据用户补充内容生成，如无则自行设定。

我们把提示词保存到 talkshow.md 文件中，然后在 Cursor AI 对话框引用这个提示词文件，提出生成播客的需求。

Cursor 作为大模型客户端，读取了提示词文件，搜索了本地知识库，然后请求大模型生成了播客脚本。如图所示：

图：请求生成指定风格的播客

继续提要求，让大模型客户端联网查询与给定话题相关的信息。

Cursor 接到请求后，调用 Tavily MCP 服务器联网搜索，获取了互联网上跟给定话题相关的信息，如图所示：

图：联网搜索后创作播客脚本

再提要求，让大模型根据联网查询的内容，重新创作播客脚本：

播客脚本生成好之后，接下来就是输出播客音频。

先查询一下有哪些适合脱口秀播客使用的音色。

Cursor 在接到请求后，调用 MiniMax MCP 服务器的 list_voices 工具，查询了所有可用的音色，如图所示：

继续对话，要求根据指定的音色，把播客脚本转成音频。

Cursor 接到请求后，调用 MiniMax MCP 服务器的 text_to_audio 工具，把播客脚本转成音频，并回复音频的链接给用户。如图所示：

用户点击音频链接可打开播放音频。至此，通过指定话题生成 AI 播客的需求完成。

5.2.4 通过网页 URL 生成播客

通过网页 URL 生成播客的步骤，跟通过话题生成播客的步骤基本类似。

有两点不同：

此例用户输入内容包含网页 URL，大模型客户端需要先获取 URL 对应的内容
此例选择使用“时事评论”风格的提示词模板来生成播客脚本

参考上例脱口秀风格的提示词模板，我们先来设计此例的时事评论提示词：

你是一名专业的时事评论员，你的任务是根据用户补充的内容，创作一篇有深度、有见地的时事评论稿。输入内容可能包含具体话题、事件或趋势，也可能较为零散。你的目标是围绕给定主题，输出一篇结构清晰、观点鲜明、富有洞察力的评论稿，展现专业分析和个人见解。

## 步骤

1. **分析输入：**
   仔细审视用户补充的信息，识别该话题、事件或趋势的关键要素、影响及潜在意义。

2. **提炼要点：**
   将你的分析和思考整理为主要观点。可以考虑：

   - 历史背景和相关脉络
   - 当前的意义和影响
   - 未来可能的走向
   - 不同利益相关方的视角
   - 个人见解和专业观点

3. **结构化评论：**
   将评论内容组织成连贯的结构，包括：

   - 引人入胜的开场，交代背景
   - 主体部分，详细分析和论证
   - 支撑观点的事实、案例或轶事
   - 反方观点及其反驳（如适用）
   - 发人深省的结尾

4. **撰写评论稿：**
   用清晰、流畅的语言写出完整评论。确保：
   - 观点平衡、论据充分
   - 恰当运用修辞手法吸引听众
   - 复杂观点有清楚解释
   - 语气与话题相符，既专业又具吸引力

---

### 要求

- 评论稿需涵盖用户补充内容的主要方面，观点鲜明、逻辑清晰。
- 保持专业但不失吸引力的语气。
- 设定一位主要评论员角色，包括姓名、头衔、性别、声音等信息。
- 提炼 3-5 个主要观点，并配以详细论据。
- 全文使用中文，确保内容和表达适合中国受众。
- 如果未提供具体话题，请围绕当前社会热点原创评论内容。
- 评论稿总字数应为 800-1200 字。
- 内容仅包含评论员的发言，不要有动作描述或镜头指示。
- 如果用户补充了话题，请基于其生成至少 10 个讨论话题，否则请结合时事原创。
- 每个话题需有至少 3 段评论员的深入展开（如：提出观点、分析论证、总结升华）。
- 各话题之间要有自然过渡，整体讨论流畅。
- 每个话题都要有追问和深入探讨，保持内容的深度和层次。

参考内容请根据用户补充内容生成。

如所提供内容不足以支撑完整评论，请补充相关事实信息，确保评论稿内容充实、有见地，并与话题紧密相关。

评论员信息请根据用户补充内容生成，如无则自行设定。

我们把提示词保存在 commentary.md 文件中，然后在 Cursor AI 对话框中，引用这个提示词文件，输入 Anthropic 发布 MCP 协议的文章地址，要求生成对内容的解读，如图所示：

图：请求生成时事评论播客

Cursor 接到请求后，调用 Firecrawl MCP 服务器的 firecrawl_scrape 工具获取了 URL 对应的内容。

我们再要求大模型根据给定内容生成播客脚本，然后指定音色输出播客音频，如图所示：

可以看到，Cursor 在请求大模型生成播客脚本之后，调用 MiniMax MCP 服务器的 text_to_audio 工具，把播客脚本转成音频，并把音频的链接回复给了用户。

用户点击音频链接打开即可收听播客。至此，通过网页 URL 生成播客的需求完成。

5.2.5 小结

在本节内容，我们通过组装 MCP 服务器的方式，实现了一个 AI 播客生成器，根据用户输入的话题或 URL 地址，生成 AI 播客，输出音频给用户收听。

主要用到了三个 MCP 服务器：

MiniMax MCP，用于把文字转换成音频
Tavily MCP，用于联网搜索内容
Firecrawl MCP，用于获取指定 URL 的内容

我们使用 Cursor 作为大模型客户端，配置了上述的几个 MCP 服务器，集成了 MCP 服务器提供的诸多工具。通过大模型调度工具、客户端执行工具的方式，使用 MCP 服务器扩展了大模型原有的能力，实现了生成 AI 播客的需求。

比起 PodLM 此类的专业生成 AI 播客的产品，本例演示的功能较为基础，暂无法实现双人播客对谈之类的需求。但此例让我们看到了通过 MCP 服务器扩展大模型能力的灵活性，后续如果再加上适当的编码，我们也能实现一个专门用于播客创作的 AI 智能体。