Browser Use CLIの使い方|AIエージェントがブラウザを自動操作するOSSツールの実践ガイド

この記事の結論

本記事ではBrowser Use CLIの仕組みと活用方法について解説しました。

ブログ目次

記事の内容を、そのまま実務に落とし込みたい方向け

HubSpot導入、AI活用、CRM整備、業務効率化までをまとめて支援しています。記事で気になったテーマを、そのまま相談ベースで整理できます。


Browser Use CLIの仕組みとアーキテクチャ。セットアップ手順と基本的な使い方。

本記事は「Claude Code実践ガイド|AI開発の生産性を高める運用設計」シリーズの一部です。

Browser Use CLIは、AIエージェントがChromiumブラウザを自動操作するオープンソースのコマンドラインツールです。 自然言語で指示を出すだけで、Webサイトの閲覧・操作・データ抽出をAIが実行します。本記事では、セットアップから実務での活用パターンまでを解説します。



この記事でわかること

自然言語の指示だけでブラウザを自動操作できるオープンソースツール「Browser Use CLI」のセットアップから実務活用まで解説します。

  • Browser Use CLIの仕組みとアーキテクチャ — CLI版では、コマンドラインから自然言語のタスク指示を入力し、AIがブラウザを操作して結果を返します。
  • セットアップ手順と基本的な使い方 — 使用するLLMのAPIキーを設定します。
  • 実務でのユースケースと他ツールとの使い分け — 本記事は「ClaudeCode実践ガイド|AI開発の生産性を高める運用設計」シリーズの一部です。

対象読者: ブラウザ操作の自動化やWebスクレイピングを効率化したいエンジニア、AIエージェントツールを比較検討している方


Browser Use CLIとは

Browser Useは、LLM(大規模言語モデル)をバックエンドとして、ブラウザの自動操作を実現するPythonベースのOSS(オープンソースソフトウェア)です。CLI版では、コマンドラインから自然言語のタスク指示を入力し、AIがブラウザを操作して結果を返します。

アーキテクチャ

[ユーザーの指示(自然言語)]
  ↓
[Browser Use Agent(LLM)]
  ↓ DOM解析 + アクション決定
[Playwright / Chromium]
  ↓ ブラウザ操作実行
[結果の取得・出力]

Browser UseはPlaywright(ブラウザ自動化フレームワーク)の上に構築されており、DOMの構造を解析してAIがクリック・入力・スクロールなどのアクションを決定します。

特徴

特徴 説明
オープンソース GitHub上で公開。カスタマイズ・拡張が自由
LLMバックエンド Claude、GPT-4、Geminiなど複数のLLMに対応
DOM認識 スクリーンショットではなくDOM構造を直接解析
CLI対応 コマンドラインから直接操作可能
Pythonベース pip installで簡単にインストール

セットアップ手順

1. インストール

# pipでインストール
pip install browser-use

# Playwrightのブラウザをインストール
playwright install chromium

2. 環境変数の設定

使用するLLMのAPIキーを設定します。

# Claudeをバックエンドにする場合
export ANTHROPIC_API_KEY="your-api-key"

# OpenAIをバックエンドにする場合
export OPENAI_API_KEY="your-api-key"

3. 基本的な実行

from browser_use import Agent
from langchain_anthropic import ChatAnthropic

# Claudeをバックエンドに設定
llm = ChatAnthropic(model="claude-sonnet-4-20250514")

# エージェントを作成してタスクを実行
agent = Agent(
    task="HubSpotの公式サイトで料金プランを確認し、各プランの価格と主要機能をまとめてください",
    llm=llm
)

result = await agent.run()
print(result)

CLI経由での実行

# コマンドラインから直接タスクを指示
browser-use "HubSpotの公式サイトで料金プランを確認し、比較表を作成してください"

実務ユースケース

ユースケース1: 競合調査とデータ収集

agent = Agent(
    task="""
    以下の3つのCRMツールの公式サイトにアクセスし、
    それぞれの料金プラン(月額・年額)と主要機能を調査して、
    Markdown形式の比較表にまとめてください:
    1. HubSpot (hubspot.com)
    2. Salesforce (salesforce.com)
    3. Zoho CRM (zoho.com/crm)
    """,
    llm=llm
)

複数サイトを巡回しての情報収集を自動化します。手作業で数時間かかるリサーチをAIに委託できます。

ユースケース2: SaaS管理画面での定型操作

agent = Agent(
    task="""
    HubSpotのダッシュボードにログインし、
    今月の新規コンタクト数と取引パイプラインの概要をスクリーンショットで取得してください
    """,
    llm=llm
)

APIで取得しにくいダッシュボードのビジュアル情報を、ブラウザ操作で直接取得するパターンです。

ユースケース3: フォーム入力の自動化

agent = Agent(
    task="""
    以下のCSVデータの各行について、
    https://example.com/contact-form にアクセスし、
    名前・メール・会社名のフォームに入力して送信してください
    """,
    llm=llm
)

ユースケース4: Webスクレイピング

agent = Agent(
    task="""
    https://example.com/blog の記事一覧から、
    最新10件の記事タイトル・公開日・URLを抽出し、
    JSON形式で出力してください
    """,
    llm=llm
)

従来のスクレイピング(BeautifulSoup等)では、サイト構造の変更に伴うメンテナンスが必要でした。Browser UseはDOM構造を動的に認識するため、サイト変更への耐性が高いという利点があります。


他ツールとの比較・使い分け

比較項目 Browser Use CLI Claude Computer Use Manus My Computer
ターゲット ブラウザ操作に特化 デスクトップ全般 PC全般
認識方式 DOM解析 スクリーンショット エージェント型
オープンソース はい いいえ(API) いいえ
カスタマイズ性 高い(Pythonで拡張) API制御 GUIベース
対応LLM 複数(Claude, GPT-4等) Claudeのみ Manus固有
ブラウザ外の操作 不可 可能 可能

使い分けの判断基準

  • ブラウザ操作だけを自動化したい: Browser Use CLIが最適
  • デスクトップアプリも含めて自動化したい: Claude Computer Use(DD-32)またはManus My Computer(DD-39)
  • OSSでカスタマイズしたい: Browser Use CLI一択
  • 非エンジニアが使いたい: Manus My Computerが最も手軽

Claude Codeとの統合

Browser Use CLIはPythonベースのため、Claude Codeのバッチ処理パイプラインに組み込むことが可能です。

# Claude Codeから呼び出す例
claude "browser-useのPythonスクリプトを作成して。
HubSpotのブログから最新5記事のタイトルとURLを取得し、
JSON形式で output/hubspot_articles.json に保存する処理を実装して。"

バッチ・並列処理(DD-9)と組み合わせることで、複数サイトの同時巡回やデータ収集の並列化も実現できます。


セキュリティ上の注意

リスク 対策
認証情報の漏洩 ブラウザのプロファイルを分離。自動入力にパスワードマネージャーを使わない
不正サイトへのアクセス URLホワイトリストで巡回先を制限
個人情報の外部送信 LLMへのリクエストに機密データが含まれないよう注意
操作の暴走 タイムアウト設定、最大ステップ数の制限
# 安全な設定例
agent = Agent(
    task="...",
    llm=llm,
    max_steps=50,           # 最大ステップ数を制限
    max_time=300,           # 5分でタイムアウト
)

ビジネス活用の視点

Browser Use CLIの最大の強みは、OSSであることによるカスタマイズ性と、複数LLMに対応している柔軟性です。CRM運用の現場では、「HubSpotのダッシュボードからデータを取得」「競合のWebサイトを調査」「フォームへの一括入力」など、ブラウザ操作が必要な業務は日常的に発生します。

これらの定型作業をAIに委託することで、人間はデータの分析や戦略立案に集中できます。スモールスタートで小さなタスクから自動化を始め、段階的に対象を広げていくアプローチが推奨されます。AI活用のさらなる事例は、経営データBI支援コンテンツマーケティング支援のページもご覧ください。


あわせて読みたい


まとめ

本記事ではBrowser Use CLIの仕組みと活用方法について解説しました。

  • Browser Use CLIは、AIエージェントがChromiumブラウザを自動操作するオープンソースのコマンドラインツールで、自然言語での指示だけでWeb操作を実行できます
  • DOM解析による正確な操作、複数LLM対応、Pythonベースの高いカスタマイズ性が特徴であり、サイト構造の変更にも柔軟に対応できます
  • 競合調査、SaaS管理画面の定型操作、フォーム入力の自動化、Webスクレイピングなど、ブラウザ操作に特化したユースケースに最適です
  • Claude Codeのバッチ処理パイプラインに組み込むことで、複数サイトの同時巡回やデータ収集の並列化も実現できます

Claude Codeの全コマンド一覧はClaude Codeチートシートをご覧ください。AI活用の全体像はAI活用完全ガイドで解説しています。


よくある質問(FAQ)

Q1. Browser Use CLIは従来のスクレイピングツール(BeautifulSoup等)と何が違いますか?

従来のスクレイピングツールはHTMLの構造をハードコーディングして解析するため、サイト構造が変更されるとスクリプトの修正が必要でした。Browser Use CLIはAIがDOM構造を動的に認識してアクションを決定するため、サイト変更への耐性が高いです。また、自然言語でタスクを指示できるため、スクレイピングのコーディング工数を大幅に削減できます。

Q2. Browser Use CLIのバックエンドにはどのLLMを使うのがおすすめですか?

Claude、GPT-4、Geminiなど複数のLLMに対応しています。Claude Codeと併用する場合はAnthropicのClaude(Sonnetモデル)をバックエンドに設定すると、API管理が統一できて効率的です。タスクの複雑さやコスト要件に応じてモデルを選択してください。

Q3. Browser Use CLIとClaude Computer Use、Manus My Computerはどう使い分けますか?

ブラウザ操作だけを自動化したい場合はBrowser Use CLIが最適です。デスクトップアプリも含めて自動化したい場合はClaude Computer UseまたはManus My Computerを選択してください。OSSでカスタマイズしたい場合はBrowser Use CLI一択であり、Pythonで自由に拡張できる点が強みです。


株式会社StartLinkは、事業推進に関わる「販売促進」「DXによる業務効率化(ERP/CRM/SFA/MAの導入)」などのご相談を受け付けております。 サービスのプランについてのご相談/お見積もり依頼や、ノウハウのお問い合わせについては、無料のお問い合わせページより、お気軽にご連絡くださいませ。

関連キーワード:

サービス資料を無料DL

著者情報

7-1

今枝 拓海 / Takumi Imaeda

株式会社StartLink 代表取締役。累計150社以上のHubSpotプロジェクト支援実績を持ち、Claude CodeやHubSpotを軸にしたAI活用支援・経営基盤AXのコンサルティング事業を展開。
HubSpotのトップパートナー企業や大手人材グループにて、エンタープライズCRM戦略策定・AI戦略ディレクションを経験した後、StartLinkを創業。現在はCRM×AIエージェントによる経営管理支援を専門とする。