このツールに問題がありますか?

「テキストからURL抽出 オンライン」について

このツールはテキストをスキャンして URL をすべて抽出します。チャットログ、文書、HTML、メールなどを貼り付ければ、重複排除済みでコピーしやすいリンク一覧が得られます。

HTTP/HTTPS/FTP などの一般的プロトコルに加え、オプションで「example.com」のような裸ドメインも検出。重複は出力で 1 回だけ表示されます。

長い文書のリンク監査、論文の参考文献収集、チャットからの言及サイト一覧化、スパムリンク検出などに便利。

このツールの使い方

任意のテキストから URL を抜き出す手順

  1. テキストを貼り付け

    「Text」欄に元テキストを貼り付け。`http://` と `https://` を頭にする文字列を探します。`example.com` のような裸ドメインは曖昧なのでマッチしません。

  2. 「実行」

    結果は `urls`(重複除去済みの URL 配列)と `count`(個数)。初出順で重複排除。`.`、`,`、`)`、`]` で終わる URL は末尾の句読点をトリムし、段落末尾でマッチが汚れないようにしています。

  3. 正規表現が捕らえるもの

    標準的な `scheme://host/path?query#fragment` 形式。トラッキングパラメータ、フラグメント、ポートも保持。非 ASCII ホスト名(`https://例え.jp`)にも対応。URL エンコード済みパスは復号せずそのまま。

  4. 捕らえないもの

    FTP/file/mailto/data URL(http/https のみ対応)、裸ドメイン、改行で途切れた URL。変則プロトコルを扱うなら、対象ドメインに `https://` を予め付け加えてから投入してください。