Markdowner:将任意网站转换为LLM可用的Markdown数据工具

Markdowner 是一个快速工具,可以将任何网站转换为 LLM 可用的 Markdown 数据,让开发者轻松实现内容存储与查询。

defagi avatar
  • defagi
  • 1 min read

Markdowner 是一个旨在帮助开发者将任何网站转换为LLM(大型语言模型)可用的Markdown数据的快速工具。这一工具不仅提高了数据结构的可预测性,还提升了AI应用中的查询响应质量。

项目名称

Markdowner

项目简介

Markdowner 是一个开源的Python工具,专门设计用于将网站内容转换成符合LLM需求的Markdown格式数据。该工具快速且易于部署,并且完全免费。其目标是为用户提供一种简单高效的方法来存储和查询网站内容,以进一步应用于AI项目中。

主要功能

  1. 将任意网站转换为Markdown:无论是简单的博客还是复杂的文档网站,Markdowner 都能够轻松转换。
  2. LLM过滤:过滤掉不必要的信息,使转换后的数据更适用于LLM处理。
  3. 详细Markdown模式:提供包含完整HTML内容的详细响应。
  4. 自动爬虫功能:无需站点地图,自动爬取子页面。
  5. 支持文本和JSON响应:根据需要切换不同的响应类型。
  6. 易于自主托管:简单的部署步骤,便于开发者自行托管。

使用场景

  • 网站内容存储与查询:适用于需要存储和查询大量网页内容的AI项目,如Supermemory等应用。
  • 数据转化与整理:帮助开发者高效地将非结构化数据转换为结构化Markdown格式,方便后续处理。
  • 信息过滤与提取:利用LLM过滤功能,提取出关键信息,提升数据的质量和可用性。
  • 自定义爬虫需求:自动爬取和转换多个子页面,适用于需要处理大规模网站内容的开发者。

项目地址

使用示例

要使用API,只需发送GET请求到 https://md.dhr.wtf

使用示例:

$ curl 'https://md.dhr.wtf/?url=https://example.com'

必需参数

  • url (string): 要转换为Markdown的网站URL。

可选参数

  • enableDetailedResponse (boolean: false): 是否返回包含完整HTML内容的详细响应。
  • crawlSubpages (boolean: false): 爬取并返回最多10个子页面的Markdown内容。
  • llmFilter (boolean: false): 使用LLM过滤不必要的信息。

响应类型

  • 添加 Content-Type: text/plain 到头部以获得纯文本响应。
  • 添加 Content-Type: application/json 到头部以获得JSON响应。

技术细节

Markdowner 使用 Cloudflare 的 浏览器渲染持久对象 来生成浏览器实例,并通过 Turndown 将内容转换为Markdown格式。

自主托管

您可以轻松自主托管这一项目。需要 Workers 付费计划来使用浏览器渲染和持久对象功能。

  1. 克隆仓库并下载依赖

    git clone https://github.com/dhravya/markdowner
    npm i
    
  2. 运行以下命令:

    npx wrangler kv:namespace create md_cache
    
  3. 打开 Wrangler.toml 修改相应的ID

  4. 运行 npm run deploy

  5. 就可以开始使用了 👍

推荐

ScrapeGraphAI:面向开发者的数据爬取新工具

ScrapeGraphAI:面向开发者的数据爬取新工具

ScrapeGraphAI 是一个开源 Python 库,利用大型语言模型和模块化管道设计,为开发者提供灵活低维护的数据爬取解决方案。

探索Firecrawl:将任何网站转换为LLM友好的Markdown与结构化数据

探索Firecrawl:将任何网站转换为LLM友好的Markdown与结构化数据

Firecrawl是一个强大的开源工具,能够将任何网站转换为LLM友好的Markdown或结构化数据,适用于各类AI应用。