Back to Question Center
0

Semalt - Як скребувати веб-сторінки?

1 answers:

Прекрасний суп - це бібліотека Python, яка широко використовується для видалення веб-сторінок, з документів XML та HTML. Web-скребком, методом вилучення даних з веб-сайтів і сторінок, широко використовується в аналізі даних та полях керування. У більшості випадків мова програмування Python є обов'язковою умовою в галузі інформатики.

Python 3 має інструменти для скребків та модулі, які можна застосувати до вашого проекту управління даними. В даний час працює як Beautiful Soup 4, цей модуль сумісний як з Python 3, так і з Python 2. 7 - ultraloq ul1. Модуль Beautiful Soup 4 також може створювати дерево розбору для незамкненого суп-тегу. У цьому підручнику ви дізнаєтесь, як скребувати сторінку та напишіть зняті дані у файл CSV.

Початок роботи

Для початку налаштуйте на вашому комп'ютері сервер або локальну середовище кодування Python. Ви також повинні встановити модуль Beautiful Soup and Requests на вашому комп'ютері. Знання про роботу з обома модулями є також необхідною передумовою. Знайомство з тегами та структурою HTML також є додатковою перевагою.

Розуміння ваших даних

У цьому контексті реальні дані Національної галереї мистецтв будуть використані, щоб допомогти вам зрозуміти, як використовувати Beautiful Soup 4. Національна галерея мистецтв складається з 120 000 творів, виконаних приблизно 13 000 виконавців. Мистецтво засноване у Вашингтоні D. C, США.

Видобування веб-даних з Beautiful Soup не є таким складним. Наприклад, якщо ви зосереджуєтесь на букві Z, позначте і занотуйте ім'я в списку. У цьому випадку ім'я - Забаглія, Ніккола. Для послідовності вкажіть кількість сторінок та ім'я останнього виконавця на цій сторінці.

Як імпортувати запити та бібліотеку Beautiful суп

Щоб імпортувати бібліотеки, активуйте середовище програмування Python 3. Переконайтеся, що ви знаходитесь в тому самому каталозі, що знаходиться у вашому середовищі програмування. Щоб розпочати, виконайте наступну команду. my_env / bin / activate.

Створіть новий файл і почніть імпортувати бібліотеки Beautiful Soup та Requests. Запит бібліотеки дозволить вам використовувати HTTP у своїх програмах Python у читабельних форматах. З іншого боку, прекрасний суп працює над швидким видаленням сторінок. Використовуйте bs4 для імпорту Beautiful Soup.

Як збирати та аналізувати веб-сторінку

Використовуючи запити, збирати URL-адресу вашої першої сторінки. URL-адреса першої сторінки буде призначена для сторінки змінної. Створіть об'єкт BeautifulSoup з запитів і проаналізуйте об'єкт з аналізатора Python.

У цьому навчальному посібнику метою є збирання посилань та імен художників. Наприклад, ви можете збирати дати та національні артисти. Для користувачів Windows клацніть правою кнопкою миші на ім'я виконавця. У цьому випадку використовуйте Zabaglia, Niccola. Для користувачів Mac OS натисніть "CTRL" і натисніть ім'я. Клацніть меню "Оглянути елемент", щоб з'явилися спливаючі вікна на екрані, щоб отримати доступ до інструментів веб-розробників. Друк імен виконавця, щоб зробити Beautiful Soup швидко розбирати дерево.

Видалення нижніх ліній

Щоб видалити нижні посилання на вашій веб-сторінці, перевірте DOM, клацнувши правою кнопкою миші елемент. Ви визначите, що посилання розташовані під таблицею HTML. Використовуючи Beautiful Soup, використовуйте метод "розкладання", щоб видалити теги з дерева розбору.

Як витягувати вміст з тега

Вам не потрібно друкувати весь тег посилання, використовуйте Beautiful Soup для видалення матеріалу з тегу. Ви також можете захоплювати URL-адреси, пов'язані з виконавцями, використовуючи Beautiful Soup 4.

Захоплення знятих даних у файл CSV

Файл CSV дозволить вам зберігати структуровані дані у звичайному тексті, форматі, який в основному використовується для таблиць. Рекомендується знати про обробку простих текстових файлів у Python.

Видобування веб-даних використовується для зняття сторінок та отримання інформації. Будьте уважні на веб-сайтах, з яких ви отримуєте інформацію. Деякі динамічні веб-сайти обмежують вилучення веб-даних на своїх сайтах. Стрижка сторінки з Beautiful Soup і Python 3 - це просто.

December 22, 2017