启用AI控制你的浏览器 🤖
🌐 Browser-use 是将AI代理与浏览器连接的最简单方式。
💡 查看别人正在构建的内容,并在我们的 Discord 上分享你的项目!想要周边?看看我们的 Merch商店。
🌤️ 跳过设置 —— 试试我们的托管版本,即时浏览器自动化!试试云端 ☁︎。
快速开始
使用pip(Python >=3.11):
1pip install browser-use
安装Playwright:
1playwright install chromium
启动你的代理:
1
2
3
4
5
6
7
8
9
10
11
12
13
14from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv
load_dotenv()
async def main():
agent = Agent(
task="比较gpt-4o和DeepSeek-V3的价格",
llm=ChatOpenAI(model="gpt-4o"),
)
await agent.run()
asyncio.run(main())
将你想使用的提供商的API密钥添加到.env
文件中。
1
2
3
4
5
6OPENAI_API_KEY=
ANTHROPIC_API_KEY=
AZURE_ENDPOINT=
AZURE_OPENAI_API_KEY=
GEMINI_API_KEY=
DEEPSEEK_API_KEY=
有关其他设置、模型等,请查阅 文档 📕。
UI测试
你可以测试 browser-use的UI仓库
或者简单地运行gradio示例:
1pip install gradio
1python examples/ui/gradio_demo.py
演示
任务:添加杂货到购物车并结账
提示:将我最新的LinkedIn关注者添加到Salesforce中的潜在客户列表。
提示:阅读我的简历并寻找机器学习工作,将它们保存到文件中,然后开始在新标签页中申请,如果需要帮助,问我
提示:在Google Docs中写一封信给我爸爸,感谢他的一切,并将文件保存为PDF
提示:查找具有cc-by-sa-4.0许可证的模型,并按最受欢迎排序,保存前5个到文件
更多示例
欲了解更多示例,请查看examples文件夹或加入Discord,展示你的项目。
愿景
告诉你的计算机做什么,它就会完成。
路线图
代理
- 改进代理记忆(总结、压缩、RAG等)
- 增强规划能力(加载特定网站的上下文)
- 减少token消耗(系统提示、DOM状态)
DOM提取
- 改进日期选择器、下拉框、特殊元素的提取
- 改进UI元素的状态表示
任务重跑
- 使用LLM作为回退
- 简化工作流模板定义,其中LLM填写详细信息
- 从代理返回playwright脚本
数据集
- 创建复杂任务的数据集
- 对不同模型进行基准测试
- 针对特定任务微调模型
用户体验
- 人工干预执行
- 改进生成的GIF质量
- 创建各种演示以进行教程执行、职位申请、QA测试、社交媒体等。
贡献
我们欢迎贡献!如果发现bug或有功能请求,随时提出问题。如果你想为文档做贡献,请查看/docs
文件夹。
本地设置
想了解更多关于该库的信息,请查看本地设置 📕。
main
是主要的开发分支,常有更新。如果要用于生产环境,请安装稳定的版本发布。
合作
我们正在成立一个委员会,定义浏览器代理的UI/UX设计最佳实践。通过软件重设计,探索如何提升AI代理的性能,并帮助这些公司通过设计领先的现有软件,在代理时代获得竞争优势。
通过邮件 Toby 申请成为委员会成员。
周边
想炫耀你的Browser-use周边吗?快来看看我们的Merch商店。好的贡献者将免费获得周边👀。
引用
如果你在研究或项目中使用了Browser Use,请引用:
1
2
3
4
5
6
7@software{browser_use2024,
author = {Müller, Magnus and Žunič, Gregor},
title = {Browser Use: Enable AI to control your browser},
year = {2024},
publisher = {GitHub},
url = {https://github.com/browser-use/browser-use}
}
参考资料
https://github.com/browser-use/browser-use/blob/main/README.md