С этим инструментом что-то не так?

О «Извлечь ссылки Онлайн»

Этот инструмент сканирует текст и извлекает все URL. Вставьте чат-лог, документ, HTML или письмо — получите дедуплицированный список ссылок.

Поддерживает HTTP, HTTPS, FTP и другие распространённые протоколы; по желанию — голые домены вроде «example.com». Каждый уникальный URL появляется один раз.

Полезно для аудита ссылок в длинных документах, сбора ссылок из научных статей, разбора чатов и анализа комментариев на спам.

Как пользоваться этим инструментом

Как вытащить URL'ы из произвольного блока текста

  1. Вставьте текст

    Исходный текст — в поле "Text". Инструмент ищет префиксы `http://` и `https://`; голые домены вроде `example.com` не сматчатся — они неоднозначны.

  2. Запуск

    Результат: `urls` (массив уникальных найденных URL) и `count` (длина). Дубликаты убираются по первому появлению. URL'ы, заканчивающиеся на `.`, `,`, `)`, `]`, теряют завершающую пунктуацию — чтобы концы абзацев не загрязняли сматч.

  3. Что ловит regex

    Стандартные формы `scheme://host/path?query#fragment`. Tracking-параметры, фрагменты и порты сохраняются. Non-ASCII-хостнеймы (`https://例え.jp`) работают; URL-encoded-пути проходят как есть, без декодирования.

  4. Что не ловит

    FTP/file/mailto/data-URL (только http/https), голые домены, URL'ы, разорванные случайным переводом строки. Для экзотики предварительно прикрепляйте `https://` к нужным доменам перед прогоном.