Как извлечь ссылки с веб-страницы в Windows

Вам может потребоваться извлечь ссылки (URL-адреса) на веб-странице для различных целей - например, для исследования в Интернете, веб-разработки, оценки безопасности или тестирования веб-страницы. В этой статье рассказывается, как извлечь ссылки из веб-страницы или HTML-документа в Windows.

Как извлечь ссылки с веб-страницы в Windows

Существует несколько способов извлечения URL-адресов на веб-странице. Давайте начнем с родного пути - с помощью раздела инструментов разработчика вашего веб-браузера.

Использование инструментов разработчика вашего веб-браузера

  1. Откройте Chrome для Firefox и сначала посетите веб-сайт или веб-страницу.
  2. Нажмите F12, чтобы открыть окно инструментов разработчика.
  3. Нажмите на вкладку Консоль в Инструментах разработчика.
  4. Очистите вывод консоли, нажав кнопку « Очистить консоль» (в Chrome) или кнопку « Очистить вывод веб-консоли» (в Firefox).
  5. Введите следующий код в командной строке:
     Array.prototype.slice.call (document.querySelectorAll ('a'), 0) .forEach ((a, i) => console.log (`# $ {i + 1} - $ {a.innerText} - $ {a.href} `)); 

Это выводит упорядоченный список ссылок на этой веб-странице вместе с заголовком в окне консоли.

Если вы хотите получить только URL-адреса без серийного номера или текста заголовка, используйте эту команду:

 urls = $$ ('a'); for (URL в URL) console.log (urls [url] .href); 

Скопируйте вывод в Блокнот и сохраните его.


Использование PowerShell

Запустите PowerShell и используйте следующий синтаксис командной строки:

 (Invoke-WebRequest -Uri "//www.winhelponline.com/blog").Links.Href | Сортировать Объект | Get-Unique | Out-GridView 

Это получает список ссылок на указанной веб-странице и выводит список в элемент управления представлением сетки.

Еще одним преимуществом этой команды PowerShell является то, что она сортирует записи, а также удаляет дубликаты URL-адресов из коллекции.

$config[ads_text6] not found

Элемент управления видом сетки позволяет фильтровать URL-адреса поиска по ключевым словам, а также копировать списки в буфер обмена, используя Ctrl + C

Захватить заголовок и URL

Чтобы просмотреть innerText в дополнение к соответствующим ссылкам или URL, выполните:

 (Invoke-WebRequest -Uri "//www.winhelponline.com").Links | сортировка объекта href -Unique | Format-List innerText, href 

Вы получите такой вывод:

Дублированные URL-адреса автоматически удаляются в выводе.

Вы даже можете автоматически скопировать вывод в буфер обмена, используя | clip параметр | clip :

 (Invoke-WebRequest -Uri "//www.winhelponline.com").Links | сортировка объекта href -Unique | Format-List innerText, href | клип 

Захватывать только изображения URL

Чтобы извлечь список URL-адресов изображений, используйте этот синтаксис:

 (Invoke-WebRequest -Uri "//www.winhelponline.com").Images | Select-Object src 


Использование AddrView от Nirsoft

Инструмент AddrView от Nirsoft автоматически извлекает ссылки (включая ссылки на изображения) с заданной веб-страницы или из локального HTML-файла и выводит их в виде таблицы.

Вы даже можете сортировать результаты по типу и копировать только URL-адреса изображений в буфер обмена или сохранять в файл.

Если вы хотите получить только ссылки на изображения, вы можете использовать встроенную в Firefox опцию View Page Info . В Firefox щелкните правой кнопкой мыши текущую веб-страницу, выберите « Просмотр информации о странице» → «Мультимедиа». На вкладке «Медиа» перечислены все URL-адреса изображений, включая data:image ссылки на data:image . Вы можете скопировать выбранные элементы или все элементы в буфер обмена или сохранить записи в файл.

Помимо описанных выше методов, для браузеров, таких как Chrome или Firefox, существует множество расширений или дополнений, которые будут захватывать URL-адреса или ссылки на изображения с текущей активной веб-страницы в вашем браузере.

ПОХОЖИЕ СТАТЬИ