firecrawl本地docker部署
下载源码
部署
按照firecrawl目录下SELF_HOST.md
文档进行操作即可。
本次生成的镜像在后面提供了百度网盘下载。
- 创建
.env
文件
将firecrawl\apps\api.env.example文件拷贝到firecrawl目录下(和docker-compose.yaml同一目录下),修改文件名为.env
# ===== Required ENVS ======
NUM_WORKERS_PER_QUEUE=8
PORT=3002
HOST=0.0.0.0
REDIS_URL=redis://redis:6379 # redis服务,可以自行调整
REDIS_RATE_LIMIT_URL=redis://redis:6379 # redis服务
PLAYWRIGHT_MICROSERVICE_URL=http://playwright-service:3000/html
## To turn on DB authentication, you need to set up supabase.
USE_DB_AUTHENTICATION=false # 这里修改为false
2.docker-compose.yaml调整
这里的redis我用了本地的valkey8,用默认的就不用调整docker-compose文件了
3.构建镜像及运行
# 拿现成镜像就不需要构建这一步了,构建的时间有点久
# 这一步最好是科学上网
#dokcer-compose build
# 启动服务
docker-compose up -d
4.构建报错记录:下载超时,增加代理配置
firecrawl\apps\api\Dockerfile文件
5.全部正常启动并正常访问
- 测试是否正常启动:http://localhost:3002/test
- 查看任务队列: http://localhost:3002/admin/@/queues
api使用
api使用可以参考firecrawl目录下的README.md
文档
-
localhost:3002/v1/crawl
抓取网页的所有URL并以适合大语言模型的格式返回内容。用于爬取一个 URL 及其所有可访问的子页面。{ "url": "https://blog.csdn.net/u010734213" }
id是上一步返回的任务id -
localhost:3002/v1/scrape
用于抓取一个 URL 并以指定格式获取其内容,支持提取HTML、Markdown 等格式。 (markdown、html、rawHtml、links、screenshot、screenshot@fullPage、extract、json、changeTracking)
-
localhost:3002/v1/map
站点地图,获取该网站的所有URL,速度极快。
具体的就看文档研究吧。哈哈~~~