Справка
x
Поиск
Закладки
Озвучить книгу
Изменить режим чтения
Изменить размер шрифта
Оглавление
Для озвучивания и цитирования книги перейдите в режим постраничного просмотра.
Скрапинг веб-сайтов с помощю Python
ЧАСТЬ II. ПРОДВИНУТЫЙ СКРАПИНГ
Поставить закладку
Для продолжения работы требуется
Registration
Предыдущая страница
Следующая страница
Table of contents
Предисловие
Вступление
ЧАСТЬ I. ПОСТРОЕНИЕ СКРАПЕРОВ
+
ЧАСТЬ II. ПРОДВИНУТЫЙ СКРАПИНГ
-
Глава 7. Очистка данных
Очистка данных на этапе создания кода
Нормализация данных
Очистка данных постфактум
OpenRefine
Глава 8. Чтение и запись естественных языков
Аннотирование данных
Марковские модели
Шесть шагов Википедии: заключительная часть
Natural Language Toolkit
Установка и настройка
Статистический анализ с помощью NLTK
Лексикографический анализ с помощью NLTK
Дополнительные ресурсы
Глава 9. Краулинг сайтов, использующих веб-формы
Библиотека requests
Отправка простой формы
Радиокнопки, флажки и другие элементы ввода данных
Отправка файлов и изображений
Работа с логинами и cookies
Базовая HTTP-аутентификация
Другие проблемы при работе с формами
Глава 10. Скрапинг JavaScript-кода
Краткое введение в JavaScript
Распространенные библиотеки JavaScript
Ajax и динамический HTML
Выполнение JavaScript в Python с помощью библиотеки Selenium
Обработка редиректов
Глава 11. Обработка изображений и распознавание текста
Обзор библиотек
Pillow
Tesseract
NumPy
Обработка хорошо отформатированного текста
Скрапинг текста с изображений, размещенных на веб-сайтах
Чтение CAPTCHA и обучение Tesseract
Обучение Теsseract
Извлечение CAPTCHA и отправка результатов распознавания
Глава 12. Обход ловушек в ходе скрапинга
Обратите внимание на этический аспект
Учимся выглядеть как человек
Настройте заголовки
Обработка cookies
Время решает все
Общие функции безопасности, используемые веб-формами
Значения полей скрытого ввода
Обходим "горшочки с медом"
Проверяем скрапер на "человечность"
Глава 13. Тестирование вашего сайта с помощью скраперов
Введение в тестирование
Что такое модульные тесты?
Питоновский модуль unittest
Тестирование Википедии
Тестирование с помощью Selenium
Взаимодействие с сайтом
Unittest или Selenium?
Глава 14. Скрапинг с помощью удаленных серверов
Зачем использовать удаленные серверы?
Как избежать блокировки IP-адреса
Переносимость и расширяемость
Tor
PySocks
Удаленный хостинг
Запуск с аккаунта веб-хостинга
Запуск из облака
Дополнительные ресурсы
Заглянем в будущее
Приложение А. Кратко о том, как работает Python
+
Приложение В. Кратко о том, как работает Интернет
Приложение С. Правовые и этические аспекты веб-скрапинга
+
Об авторе
Колофон
Предметный указатель
Данный блок поддерживает скрол*