Browser Use CLIの仕組みとアーキテクチャ。セットアップ手順と基本的な使い方。
本記事は「Claude Code実践ガイド|AI開発の生産性を高める運用設計」シリーズの一部です。
Browser Use CLIは、AIエージェントがChromiumブラウザを自動操作するオープンソースのコマンドラインツールです。 自然言語で指示を出すだけで、Webサイトの閲覧・操作・データ抽出をAIが実行します。本記事では、セットアップから実務での活用パターンまでを解説します。
この記事でわかること
自然言語の指示だけでブラウザを自動操作できるオープンソースツール「Browser Use CLI」のセットアップから実務活用まで解説します。
- Browser Use CLIの仕組みとアーキテクチャ — CLI版では、コマンドラインから自然言語のタスク指示を入力し、AIがブラウザを操作して結果を返します。
- セットアップ手順と基本的な使い方 — 使用するLLMのAPIキーを設定します。
- 実務でのユースケースと他ツールとの使い分け — 本記事は「ClaudeCode実践ガイド|AI開発の生産性を高める運用設計」シリーズの一部です。
対象読者: ブラウザ操作の自動化やWebスクレイピングを効率化したいエンジニア、AIエージェントツールを比較検討している方
Browser Use CLIとは
Browser Useは、LLM(大規模言語モデル)をバックエンドとして、ブラウザの自動操作を実現するPythonベースのOSS(オープンソースソフトウェア)です。CLI版では、コマンドラインから自然言語のタスク指示を入力し、AIがブラウザを操作して結果を返します。
アーキテクチャ
[ユーザーの指示(自然言語)]
↓
[Browser Use Agent(LLM)]
↓ DOM解析 + アクション決定
[Playwright / Chromium]
↓ ブラウザ操作実行
[結果の取得・出力]
Browser UseはPlaywright(ブラウザ自動化フレームワーク)の上に構築されており、DOMの構造を解析してAIがクリック・入力・スクロールなどのアクションを決定します。
特徴
| 特徴 |
説明 |
| オープンソース |
GitHub上で公開。カスタマイズ・拡張が自由 |
| LLMバックエンド |
Claude、GPT-4、Geminiなど複数のLLMに対応 |
| DOM認識 |
スクリーンショットではなくDOM構造を直接解析 |
| CLI対応 |
コマンドラインから直接操作可能 |
| Pythonベース |
pip installで簡単にインストール |
セットアップ手順
1. インストール
# pipでインストール
pip install browser-use
# Playwrightのブラウザをインストール
playwright install chromium
2. 環境変数の設定
使用するLLMのAPIキーを設定します。
# Claudeをバックエンドにする場合
export ANTHROPIC_API_KEY="your-api-key"
# OpenAIをバックエンドにする場合
export OPENAI_API_KEY="your-api-key"
3. 基本的な実行
from browser_use import Agent
from langchain_anthropic import ChatAnthropic
# Claudeをバックエンドに設定
llm = ChatAnthropic(model="claude-sonnet-4-20250514")
# エージェントを作成してタスクを実行
agent = Agent(
task="HubSpotの公式サイトで料金プランを確認し、各プランの価格と主要機能をまとめてください",
llm=llm
)
result = await agent.run()
print(result)
CLI経由での実行
# コマンドラインから直接タスクを指示
browser-use "HubSpotの公式サイトで料金プランを確認し、比較表を作成してください"
実務ユースケース
ユースケース1: 競合調査とデータ収集
agent = Agent(
task="""
以下の3つのCRMツールの公式サイトにアクセスし、
それぞれの料金プラン(月額・年額)と主要機能を調査して、
Markdown形式の比較表にまとめてください:
1. HubSpot (hubspot.com)
2. Salesforce (salesforce.com)
3. Zoho CRM (zoho.com/crm)
""",
llm=llm
)
複数サイトを巡回しての情報収集を自動化します。手作業で数時間かかるリサーチをAIに委託できます。
ユースケース2: SaaS管理画面での定型操作
agent = Agent(
task="""
HubSpotのダッシュボードにログインし、
今月の新規コンタクト数と取引パイプラインの概要をスクリーンショットで取得してください
""",
llm=llm
)
APIで取得しにくいダッシュボードのビジュアル情報を、ブラウザ操作で直接取得するパターンです。
ユースケース3: フォーム入力の自動化
agent = Agent(
task="""
以下のCSVデータの各行について、
https://example.com/contact-form にアクセスし、
名前・メール・会社名のフォームに入力して送信してください
""",
llm=llm
)
ユースケース4: Webスクレイピング
agent = Agent(
task="""
https://example.com/blog の記事一覧から、
最新10件の記事タイトル・公開日・URLを抽出し、
JSON形式で出力してください
""",
llm=llm
)
従来のスクレイピング(BeautifulSoup等)では、サイト構造の変更に伴うメンテナンスが必要でした。Browser UseはDOM構造を動的に認識するため、サイト変更への耐性が高いという利点があります。
他ツールとの比較・使い分け
| 比較項目 |
Browser Use CLI |
Claude Computer Use |
Manus My Computer |
| ターゲット |
ブラウザ操作に特化 |
デスクトップ全般 |
PC全般 |
| 認識方式 |
DOM解析 |
スクリーンショット |
エージェント型 |
| オープンソース |
はい |
いいえ(API) |
いいえ |
| カスタマイズ性 |
高い(Pythonで拡張) |
API制御 |
GUIベース |
| 対応LLM |
複数(Claude, GPT-4等) |
Claudeのみ |
Manus固有 |
| ブラウザ外の操作 |
不可 |
可能 |
可能 |
使い分けの判断基準
Claude Codeとの統合
Browser Use CLIはPythonベースのため、Claude Codeのバッチ処理パイプラインに組み込むことが可能です。
# Claude Codeから呼び出す例
claude "browser-useのPythonスクリプトを作成して。
HubSpotのブログから最新5記事のタイトルとURLを取得し、
JSON形式で output/hubspot_articles.json に保存する処理を実装して。"
バッチ・並列処理(DD-9)と組み合わせることで、複数サイトの同時巡回やデータ収集の並列化も実現できます。
セキュリティ上の注意
| リスク |
対策 |
| 認証情報の漏洩 |
ブラウザのプロファイルを分離。自動入力にパスワードマネージャーを使わない |
| 不正サイトへのアクセス |
URLホワイトリストで巡回先を制限 |
| 個人情報の外部送信 |
LLMへのリクエストに機密データが含まれないよう注意 |
| 操作の暴走 |
タイムアウト設定、最大ステップ数の制限 |
# 安全な設定例
agent = Agent(
task="...",
llm=llm,
max_steps=50, # 最大ステップ数を制限
max_time=300, # 5分でタイムアウト
)
ビジネス活用の視点
Browser Use CLIの最大の強みは、OSSであることによるカスタマイズ性と、複数LLMに対応している柔軟性です。CRM運用の現場では、「HubSpotのダッシュボードからデータを取得」「競合のWebサイトを調査」「フォームへの一括入力」など、ブラウザ操作が必要な業務は日常的に発生します。
これらの定型作業をAIに委託することで、人間はデータの分析や戦略立案に集中できます。スモールスタートで小さなタスクから自動化を始め、段階的に対象を広げていくアプローチが推奨されます。AI活用のさらなる事例は、経営データBI支援やコンテンツマーケティング支援のページもご覧ください。
あわせて読みたい
まとめ
本記事ではBrowser Use CLIの仕組みと活用方法について解説しました。
- Browser Use CLIは、AIエージェントがChromiumブラウザを自動操作するオープンソースのコマンドラインツールで、自然言語での指示だけでWeb操作を実行できます
- DOM解析による正確な操作、複数LLM対応、Pythonベースの高いカスタマイズ性が特徴であり、サイト構造の変更にも柔軟に対応できます
- 競合調査、SaaS管理画面の定型操作、フォーム入力の自動化、Webスクレイピングなど、ブラウザ操作に特化したユースケースに最適です
- Claude Codeのバッチ処理パイプラインに組み込むことで、複数サイトの同時巡回やデータ収集の並列化も実現できます
Claude Codeの全コマンド一覧はClaude Codeチートシートをご覧ください。AI活用の全体像はAI活用完全ガイドで解説しています。
よくある質問(FAQ)
Q1. Browser Use CLIは従来のスクレイピングツール(BeautifulSoup等)と何が違いますか?
従来のスクレイピングツールはHTMLの構造をハードコーディングして解析するため、サイト構造が変更されるとスクリプトの修正が必要でした。Browser Use CLIはAIがDOM構造を動的に認識してアクションを決定するため、サイト変更への耐性が高いです。また、自然言語でタスクを指示できるため、スクレイピングのコーディング工数を大幅に削減できます。
Q2. Browser Use CLIのバックエンドにはどのLLMを使うのがおすすめですか?
Claude、GPT-4、Geminiなど複数のLLMに対応しています。Claude Codeと併用する場合はAnthropicのClaude(Sonnetモデル)をバックエンドに設定すると、API管理が統一できて効率的です。タスクの複雑さやコスト要件に応じてモデルを選択してください。
Q3. Browser Use CLIとClaude Computer Use、Manus My Computerはどう使い分けますか?
ブラウザ操作だけを自動化したい場合はBrowser Use CLIが最適です。デスクトップアプリも含めて自動化したい場合はClaude Computer UseまたはManus My Computerを選択してください。OSSでカスタマイズしたい場合はBrowser Use CLI一択であり、Pythonで自由に拡張できる点が強みです。