Справка
x
Поиск
Закладки
Озвучить книгу
Изменить режим чтения
Изменить размер шрифта
Оглавление
Для озвучивания и цитирования книги перейдите в режим постраничного просмотра.
Обработка естественного языка на Java
Глава 2. Поиск фрагментов текста
Предыдущая страница
Следующая страница
Оглавление
Об авторе
О рецензентах
Предисловие
Глава 1. Основы обработки естественного языка
+
Глава 2. Поиск фрагментов текста
-
Части или фрагменты текста
Что такое токенизация
Использование токенизаторов
Простые токенизаторы языка Java
Использование класса Scanner
Определение разделителя
Использование метода split()
Использование класса BreakIterator
Использование класса StreamTokenizer
Использование класса StringTokenizer
Проблемы производительности при выполнении токенизации штатными средствами Java
Прикладные программные интерфейсы NLP для токенизации
Использование класса Tokenizer из библиотеки OpenNLP
Использование класса SimpleTokenizer
Использование класса WhitespaceTokenizer
Использование класса TokenizerME
Использование токенизатора из библиотеки Stanford
Использование класса PTBTokenizer
Использование класса DocumentPreprocessor
Использование конвейера
Использование токенизаторов из библиотеки LingPipe
Обучение токенизатора поиску заданных элементов текста
Сравнение токенизаторов
Нормализация
Преобразование букв в нижний регистр
Удаление шумовых слов
Создание класса StopWords
Использование библиотеки LingPipe для удаления шумовых слов
Использование стемминга
Использование инструмента стемминга Porter Stemmer
Стемминг с использованием библиотеки LingPipe
Использование лемматизации
Использование класса StanfordLemmatizer
Поддержка лемматизации в библиотеке OpenNLP
Нормализация с применением конвейера
Резюме
Глава 3. Поиск предложений
+
Глава 4. Поиск людей и именованных объектов
+
Глава 5. Определение частей речи
+
Глава 6. Классификация текстов и документов
+
Глава 7. Использование синтаксического анализатора (парсера) для выделения взаимосвязей
+
Глава 8. Комплексные методики
+
Предметный указатель
Данный блок поддерживает скрол*