このツールに問題がありますか?
「テキストからURL抽出 オンライン」について
このツールはテキストをスキャンして URL をすべて抽出します。チャットログ、文書、HTML、メールなどを貼り付ければ、重複排除済みでコピーしやすいリンク一覧が得られます。
HTTP/HTTPS/FTP などの一般的プロトコルに加え、オプションで「example.com」のような裸ドメインも検出。重複は出力で 1 回だけ表示されます。
長い文書のリンク監査、論文の参考文献収集、チャットからの言及サイト一覧化、スパムリンク検出などに便利。
このツールの使い方
任意のテキストから URL を抜き出す手順
テキストを貼り付け
「Text」欄に元テキストを貼り付け。`http://` と `https://` を頭にする文字列を探します。`example.com` のような裸ドメインは曖昧なのでマッチしません。
「実行」
結果は `urls`(重複除去済みの URL 配列)と `count`(個数)。初出順で重複排除。`.`、`,`、`)`、`]` で終わる URL は末尾の句読点をトリムし、段落末尾でマッチが汚れないようにしています。
正規表現が捕らえるもの
標準的な `scheme://host/path?query#fragment` 形式。トラッキングパラメータ、フラグメント、ポートも保持。非 ASCII ホスト名(`https://例え.jp`)にも対応。URL エンコード済みパスは復号せずそのまま。
捕らえないもの
FTP/file/mailto/data URL(http/https のみ対応)、裸ドメイン、改行で途切れた URL。変則プロトコルを扱うなら、対象ドメインに `https://` を予め付け加えてから投入してください。