Skyvern：利用LLMs和计算机视觉自动化浏览器工作流

Skyvern 是一个利用大型语言模型（LLMs）和计算机视觉，自动化浏览器工作流的开源工具，提供替代传统自动化解决方案的新方法。

defagi
June 20, 2024
1 min read

在庞大而复杂的互联网世界中，自动化浏览器操作变得越来越重要。然而，传统的方法需要编写针对每个网站的自定义脚本，依赖于DOM解析和XPath的互动，这些方法在网站布局发生变化时很容易失效。为了应对这些挑战，Skyvern 利用大型语言模型（LLMs）和计算机视觉来自动化浏览器工作流，提供了一种更灵活和稳定的解决方案。

项目名称

Skyvern

项目简介

Skyvern 是一个开源项目，通过融合大型语言模型（LLMs）和计算机视觉，实现浏览器工作流的完全自动化。它提供了一个简洁的API端点，用于替代那些脆弱或不可靠的自动化解决方案，使得自动化变得更加智能和高效。

主要功能

基于LLMs和计算机视觉的交互：Skyvern 能够在未见过的网站上操作，因为它能够实时解析视图中的元素并创建互动计划。
抵抗网站布局变化：无需依赖预定义的XPath或选择器，使得Skyvern对网站布局变化更具抵抗力。
广泛应用于多个网站：Skyvern能够将单个工作流应用于大量网站，因其能够推理出完成工作流所需的互动。
强大的LLM推理能力：能够处理复杂的情况，如理解不同语言回答的复杂问题。
简洁的API端点：只需简单的API调用，即可实现高级浏览器自动化任务。
Skyvern云服务：提供托管版的Skyvern云服务，包含反机器人检测机制、代理网络和CAPTCHA解决方案。

使用场景

图像自动生成：适合跨多个网站进行自动图像生成和处理的任务，例如从多个保险公司获取报价。
数据采集与整理：适合大量数据采集的任务，例如材料采购的自动化处理。
复杂互动任务：处理需要深度理解和多步骤的复杂互动任务，例如政府网站的表格填写。
多语言支持：能够处理并理解不同语言的复杂问题。

项目地址

项目主页：Skyvern Official Website
GitHub 仓库：Skyvern GitHub Repository