Как извлечь ссылки с веб-страницы в Windows
Вам может потребоваться извлечь ссылки (URL-адреса) на веб-странице для различных целей - например, для исследования в Интернете, веб-разработки, оценки безопасности или тестирования веб-страницы. В этой статье рассказывается, как извлечь ссылки из веб-страницы или HTML-документа в Windows.
Как извлечь ссылки с веб-страницы в Windows
Существует несколько способов извлечения URL-адресов на веб-странице. Давайте начнем с родного пути - с помощью раздела инструментов разработчика вашего веб-браузера.
Использование инструментов разработчика вашего веб-браузера
- Откройте Chrome для Firefox и сначала посетите веб-сайт или веб-страницу.
- Нажмите F12, чтобы открыть окно инструментов разработчика.
- Нажмите на вкладку Консоль в Инструментах разработчика.
- Очистите вывод консоли, нажав кнопку « Очистить консоль» (в Chrome) или кнопку « Очистить вывод веб-консоли» (в Firefox).
- Введите следующий код в командной строке:
Array.prototype.slice.call (document.querySelectorAll ('a'), 0) .forEach ((a, i) => console.log (`# $ {i + 1} - $ {a.innerText} - $ {a.href} `));
Это выводит упорядоченный список ссылок на этой веб-странице вместе с заголовком в окне консоли.
Если вы хотите получить только URL-адреса без серийного номера или текста заголовка, используйте эту команду:
urls = $$ ('a'); for (URL в URL) console.log (urls [url] .href);
Скопируйте вывод в Блокнот и сохраните его.
Использование PowerShell
Запустите PowerShell и используйте следующий синтаксис командной строки:
(Invoke-WebRequest -Uri "//www.winhelponline.com/blog").Links.Href | Сортировать Объект | Get-Unique | Out-GridView
Это получает список ссылок на указанной веб-странице и выводит список в элемент управления представлением сетки.
Еще одним преимуществом этой команды PowerShell является то, что она сортирует записи, а также удаляет дубликаты URL-адресов из коллекции.
$config[ads_text6] not foundЭлемент управления видом сетки позволяет фильтровать URL-адреса поиска по ключевым словам, а также копировать списки в буфер обмена, используя Ctrl + C
Захватить заголовок и URL
Чтобы просмотреть innerText в дополнение к соответствующим ссылкам или URL, выполните:
(Invoke-WebRequest -Uri "//www.winhelponline.com").Links | сортировка объекта href -Unique | Format-List innerText, href
Вы получите такой вывод:
Дублированные URL-адреса автоматически удаляются в выводе.
Вы даже можете автоматически скопировать вывод в буфер обмена, используя | clip
параметр | clip
:
(Invoke-WebRequest -Uri "//www.winhelponline.com").Links | сортировка объекта href -Unique | Format-List innerText, href | клип
Захватывать только изображения URL
Чтобы извлечь список URL-адресов изображений, используйте этот синтаксис:
(Invoke-WebRequest -Uri "//www.winhelponline.com").Images | Select-Object src
Использование AddrView от Nirsoft
Инструмент AddrView от Nirsoft автоматически извлекает ссылки (включая ссылки на изображения) с заданной веб-страницы или из локального HTML-файла и выводит их в виде таблицы.
Вы даже можете сортировать результаты по типу и копировать только URL-адреса изображений в буфер обмена или сохранять в файл.
Если вы хотите получить только ссылки на изображения, вы можете использовать встроенную в Firefox опцию View Page Info . В Firefox щелкните правой кнопкой мыши текущую веб-страницу, выберите « Просмотр информации о странице» → «Мультимедиа». На вкладке «Медиа» перечислены все URL-адреса изображений, включаяdata:image
ссылки на data:image
. Вы можете скопировать выбранные элементы или все элементы в буфер обмена или сохранить записи в файл. Помимо описанных выше методов, для браузеров, таких как Chrome или Firefox, существует множество расширений или дополнений, которые будут захватывать URL-адреса или ссылки на изображения с текущей активной веб-страницы в вашем браузере.