YaCy 'fediscope-net': Crawl Start

Расширенная индексация

Индексатор

Сеть индексирования

Нажмите для просмотра документации по параметрам POST-запросов для запуска индексирования.

Расширенное индексирование

Запустить индексирование: Здесь можете указать начальные ссылки и запустить индексирование. "Индексирование" означает, что YaCy загрузит данные сайта, извлечёт все ссылки и загрузит содержимое по извлечённым ссылкам. Длительность индексирования зависит от заданной "глубины индексирования". Индексирование можно также запустить, используя wget и POST-аргументы на этой вэб-странице.

Индексирование

Индексирование состоит из одной или более начальных точек, ограничений и правил индексирования документов.

Начальная точка

Одна или несколько ссылок: (должна начинаться с http:// https:// ftp:// smb:// file://): Укажите одну или несколько начальных ссылок здесь. Несколько ссылок указывайте отдельными строками. Каждая из этих ссылок загружается в начале индексирования, существующие ссылки всегда перезагружаются. Уже посещённые ссылки сортируются как повторные, если не разрешена их переиндексация.

Из списка ссылок
Из карты сайта
Из файла (укажите путь в пределах вашей локальной системы)

Фильтр индексатора

Ограничения работы индексатора. Фильтры применяются до загрузки страницы.

Глубина индексирования

Определяет, как часто индексатор будет идти по ссылкам (из ссылок ...) вэб-сайтов. Ноль означает, что только начальная страница будет добавлена для индексации. 2-4 это нормальное индексирование. Значения более 8 использовать не целесообразно, поскольку такая глубина индексирования предполагает примерно 25.600.000.000 страниц в индексе, возможно это весь WWW. также все связанные не-проанализированные документы

Неограниченная глубина индексирования для ссылок совпадающих с

Максимальное число страниц домена

Вы можете ограничить максимальное число извлечённых и проиндексированных страниц одного домена с помощью этой опции. Вы можете совместить это ограничение с фильтром 'Авто-домен' так как это ограничение применяется ко всем доменам без указания уровня. Домены за пределами указанного уровня сортируются в любом случае. Использовать: Страниц:

Разные ограничения

Вопросительный знак обычно означает динамическую страницу. Ссылки, указывающие на динамический контент. обычно не индексируются. Однако, иногда встречаются вэб-страницы со статическим содержимым, которое доступно по ссылкам, содержащим вопросительный знак. Если вы не уверены, то не включайте эту опцию, чтобы избежать замкнутого индексирования. Following frames is NOT done by Gxxg1e, but we do by default to have a richer content. 'nofollow' in robots metadata can be overridden; this does not affect obeying of the robots.txt which is never ignored. Принимать ссылки с ('?') в части запроса:
Учитывать html-robots-noindex:
Obey html-robots-nofollow:

Media Type detection

Not loading URLs with unsupported file extension is faster but less accurate. Indeed, for some web resources the actual Media Type is not consistent with the URL file extension. Here are some examples:

https://en.wikipedia.org/wiki/.de : the .de extension is unknown, but the actual Media Type of this page is text/html
https://en.wikipedia.org/wiki/Ask.com : the .com extension is not supported (executable file format), but the actual Media Type of this page is text/html
https://commons.wikimedia.org/wiki/File:YaCy_logo.png : the .png extension is a supported image format, but the actual Media Type of this page is text/html

Do not load URLs with an unsupported file extension Always cross check file extension against Content-Type header

Фильтр ссылок

Фильтр это регулярное выражение. Например, для разрешения только ссылок, содержащих слово 'science' , нужно установить фильтр '.*science.*'. Вы можете также использовать автоматическое ограничение домена при полном индексировании простого домена. Attention: you can test the functionality of your regular expressions using the Regular Expression Tester within YaCy.

должно совпадать
Запретить запуск домена
Запретить часть пути
Использовать фильтр	(не должен быть пустым)
не должно совпадать

Load Filter on URL origin of links

Фильтр это регулярное выражение. Example: to allow loading only links from pages on example.org domain, set the must-match filter to '.*example.org.*'. Attention: you can test the functionality of your regular expressions using the Regular Expression Tester within YaCy.

должно совпадать	(не должен быть пустым)
не должно совпадать

Фильтр IP-адресов

должно совпадать	(не должен быть пустым)
не должно совпадать

Фильтр стран

Индексаторы могут быть запрещены для определённых стран. При этом используется код страны, который может быть вычислен по IP-адресу сервера, на котором размещена страница. Фильтр не использует регулярные выражения. Список кодов стран перечисляется через запятую. Oграничение по странам отсутствует
Использовать фильтр

Фильтр документов

Ограничения на получение индекса. Фильтры применяются после загрузки вэб-страницы.

Фильтр ссылок

Фильтр это регулярное выражение которое не должно совпадать с ссылками, если контент по этой ссылке проиндексирован. Attention: you can test the functionality of your regular expressions using the Regular Expression Tester within YaCy.

должно совпадать	(не должен быть пустым)
не должно совпадать
No Indexing when Canonical present and Canonical != URL

Фильтр содержимого документа (весь видимый текст, включая слитно написанные ссылки и заголовок)

должно совпадать	(не должен быть пустым)
не должно совпадать

Filter on Document Media Type (aka MIME type)

Фильтр это регулярное выражение that must match with the document Media Type (also known as MIME Type) to allow the URL to be indexed. Standard Media Types are described at the IANA registry. Attention: you can test the functionality of your regular expressions using the Regular Expression Tester within YaCy.

должно совпадать
не должно совпадать

Solr query filter on any active indexed field(s)

Each parsed document is checked against the given Solr query before being added to the index. The query must be written in respect to the standard Solr query syntax.

должно совпадать

не должно совпадать

Content Filter

These are limitations on parts of a document. The filter will be applied after a web page was loaded. You can choose to:

Evaluate by default

Use all words in document by default until a CSS class as listed below appears; then ignore all

Ignore by default

Ignore all words in document by default until a CSS class as listed below appears, then evaluate all

Filter div or nav class names

comma-separated list of <div> or <nav> element class names which should be filtered out/in according to switch above.

Очистка перед началом индексирования

Clean up search events cache: Check this option to be sure to get fresh search results including newly crawled documents. Beware that it will also interrupt any refreshing/resorting of search results currently requested from browser-side.
Без удаления: Если индексирование было выполнено раньше, то документ может потерять актуальность и даже быть удалён из индексируемого сайта. Переиндексации недостаточно после удаления старых файлов из поискового индекса, но может быть необходимо, так как старые файлы уже не существуют. Использование этой функции вместе с переиндексацией может занять много времени. Не удалять любые документы перед началом индексирования.
Удалить часть ссылки: Для каждого хоста в начальном списке ссылок, удалять все документы (даже в подпапках) из хоста.
Удалить только устаревшие: Считать загруженные документы устаревшими, и удалять из перед началом индексирования.

Правила повторной проверки

Нет повторов: Вэб-индексатор выполняет повторную проверку всех ссылок, найденных в интернете с внутренней базой данных. Если ссылки найдены опять, то они считаются повторными, если вы включите опцию "Нет повторов". Ссылка может быть загружена опять, если она достигла определённого возраста. Для этого включите опцию "Повторная загрузка". Никогда не загружать любую страницу, если она уже известна. Только начальная ссылка может быть загружена опять.
Повторная загрузка: Считать загруженные документы устаревшими и загрузить их снова. Если они свежее, то они игнорируются.

Кэш документа

Хранить в вэб-кэше: Эта опция используется по-умолчанию для прокси, но не используется для явного индексирования.
Политика использования вэб-кэша: Политика состояний кэширования, когда кэш используется во время индексации: без кэша: Никогда не использовать кэш, весь контент из нового интернет-источника; если свежий кэш: использовать кэш, если кэш существует и это новое использование правил прокси если кэш существует: использовать кэш, если кэш существует. Не проверять на обновления. Иначе использовать интернет-источник; только кэш: всегда оффлайн, использовать весь контент из кэша. Если кэш не существует, то считать что контент недоступен. без кэша если свежий кэш если кэш существует только кэш

Поведение робота

Использовать специальный User Agent и идентификацию робота: Because YaCy can be used as replacement for commercial search appliances (like the Google Search Appliance aka GSA) the user must be able to crawl all web pages that are granted to such commercial platforms. Отсутствие этой опции может сильно припятствовать профессиональному использованию этой программы. Поэтому вы можете выбрать альтернативные User-Agent'ты здесь. Они будут иметь различные задержки индексирования и также идентифицировать себя с другим User-Agent'ом и соблюдать соответствующие правила роботов.

Создание снимка

Максимальная глубина снимка: Снимки состоят их XML-данных и изображений вэб-страниц и могут быть созданы во время индексирования. XML-данные хранятся таким же образом, как и результаты поиска Solr; изображения сохраняются в формате pdf в директории HTCACHE/snapshots/. Из pdf создаются эскизы в формате jpg. Создание снимков регулируется параметром "глубина снимка". Это означает, что снимки создаются только, если глубина индексирования документов низкая или равна заданному здесь значению. Если значение "-1", то снимки не создаются.
Версии снимков: заменить старые снимки новыми добавить новые версии для каждого индексирования
must-not-match filter for snapshot generation
Image Creation

Index Attributes

Indexing: Разрешает индексирование вэб-страниц, пока индексатор производит загрузку. По-умолчанию включено. Кэш документов без индексирования. Индекс текста: Индекс медиа-файлов:
Добавить результат индексирования в хранилище: Результат индексирования может быть помечен с именами в кандидаты для запроса в хранилище. Эти тэги могут быть указаны интерфейсе GSA с помощью оператора 'site'. При использовании этой опции, поле 'collection_sxt' должено быть включено. Схема Solr
Time Zone Offset: The time zone is required when the parser detects a date in the crawled web page. Content can be searched with the on: - modifier which requires also a time zone when a query is made. To normalize all given dates, the date is stored in UTC time zone. To get the right offset from dates without time zones to UTC, this offset must be given here. The offset is given in minutes; Time zone offsets for locations east of UTC must be negative; offsets for zones west of UTC must be positve.

Первые шаги

Мониторинг

Индексирование

Управление узлом

Интеграция поиска

Расширенная индексация

Индексатор

Сеть индексирования

Расширенное индексирование