API Нажмите для просмотра документации по параметрам POST-запросов для запуска индексирования.

Расширенное индексирование

Запустить индексирование:  Здесь можете указать начальные ссылки и запустить индексирование. "Индексирование" означает, что YaCy загрузит данные сайта, извлечёт все ссылки и загрузит содержимое по извлечённым ссылкам. Длительность индексирования зависит от заданной "глубины индексирования". Индексирование можно также запустить, используя wget и POST-аргументы на этой вэб-странице.

Индексирование

Индексирование состоит из одной или более начальных точек, ограничений и правил индексирования документов.

Начальная точка
Одна или несколько ссылок:
(должна начинаться с http:// https:// ftp:// smb:// file://)
infoУкажите одну или несколько начальных ссылок здесь. Несколько ссылок указывайте отдельными строками. Каждая из этих ссылок загружается в начале индексирования, существующие ссылки всегда перезагружаются. Уже посещённые ссылки сортируются как повторные, если не разрешена их переиндексация.  
empty
Из списка ссылок

Из карты сайта
Из файла (укажите путь
в пределах вашей локальной системы)
Фильтр индексатора

Ограничения работы индексатора. Фильтры применяются до загрузки страницы.

Глубина индексирования
info Определяет, как часто индексатор будет идти по ссылкам (из ссылок ...) вэб-сайтов. Ноль означает, что только начальная страница будет добавлена для индексации. 2-4 это нормальное индексирование. Значения более 8 использовать не целесообразно, поскольку такая глубина индексирования предполагает примерно 25.600.000.000 страниц в индексе, возможно это весь WWW.     также все связанные не-проанализированные документы
Неограниченная глубина индексирования для ссылок совпадающих с
Максимальное число страниц домена
info Вы можете ограничить максимальное число извлечённых и проиндексированных страниц одного домена с помощью этой опции. Вы можете совместить это ограничение с фильтром 'Авто-домен' так как это ограничение применяется ко всем доменам без указания уровня. Домены за пределами указанного уровня сортируются в любом случае. :    :
info Вопросительный знак обычно означает динамическую страницу. Ссылки, указывающие на динамический контент. обычно не индексируются. Однако, иногда встречаются вэб-страницы со статическим содержимым, которое доступно по ссылкам, содержащим вопросительный знак. Если вы не уверены, то не включайте эту опцию, чтобы избежать замкнутого индексирования. Following frames is NOT done by Gxxg1e, but we do by default to have a richer content. 'nofollow' in robots metadata can be overridden; this does not affect obeying of the robots.txt which is never ignored. Принимать ссылки с ('?') в части запроса:
Учитывать html-robots-noindex:
Obey html-robots-nofollow:
Media Type detection
Media Type checking info Not loading URLs with unsupported file extension is faster but less accurate. Indeed, for some web resources the actual Media Type is not consistent with the URL file extension. Here are some examples:
Фильтр ссылок
info Фильтр это регулярное выражение. Например, для разрешения только ссылок, содержащих слово 'science' , нужно установить фильтр '.*science.*'. Вы можете также использовать автоматическое ограничение домена при полном индексировании простого домена. Attention: you can test the functionality of your regular expressions using the Regular Expression Tester within YaCy.
должно совпадать
Запретить запуск домена
Запретить часть пути
Использовать фильтр (не должен быть пустым)
не должно совпадать
Load Filter on URL origin of links
info Фильтр это регулярное выражение. Example: to allow loading only links from pages on example.org domain, set the must-match filter to '.*example.org.*'. Attention: you can test the functionality of your regular expressions using the Regular Expression Tester within YaCy.
должно совпадать (не должен быть пустым)
не должно совпадать
Фильтр IP-адресов
должно совпадать (не должен быть пустым)
не должно совпадать
info Индексаторы могут быть запрещены для определённых стран. При этом используется код страны, который может быть вычислен по IP-адресу сервера, на котором размещена страница. Фильтр не использует регулярные выражения. Список кодов стран перечисляется через запятую. Oграничение по странам отсутствует
Использовать фильтр  
Фильтр документов

Ограничения на получение индекса. Фильтры применяются после загрузки вэб-страницы.

Фильтр ссылок
info Фильтр это регулярное выражение которое не должно совпадать с ссылками, если контент по этой ссылке проиндексирован. Attention: you can test the functionality of your regular expressions using the Regular Expression Tester within YaCy.
должно совпадать (не должен быть пустым)
не должно совпадать
No Indexing when Canonical present and Canonical != URL
Фильтр содержимого документа
(весь видимый текст, включая слитно написанные ссылки и заголовок)
должно совпадать (не должен быть пустым)
не должно совпадать
Filter on Document Media Type (aka MIME type)
Media Type filter info Фильтр это регулярное выражение that must match with the document Media Type (also known as MIME Type) to allow the URL to be indexed. Standard Media Types are described at the IANA registry. Attention: you can test the functionality of your regular expressions using the Regular Expression Tester within YaCy.
должно совпадать
не должно совпадать
Solr query filter on any active indexed field(s)
Solr query filter info Each parsed document is checked against the given Solr query before being added to the index. The query must be written in respect to the standard Solr query syntax.
должно совпадать
не должно совпадать
Content Filter

These are limitations on parts of a document. The filter will be applied after a web page was loaded. You can choose to:

Evaluate by default
Use all words in document by default until a CSS class as listed below appears; then ignore all
Ignore by default
Ignore all words in document by default until a CSS class as listed below appears, then evaluate all
Filter div or nav class names
comma-separated list of <div> or <nav> element class names which should be filtered out/in according to switch above.
Очистка перед началом индексирования
Clean up search events cache info Check this option to be sure to get fresh search results including newly crawled documents. Beware that it will also interrupt any refreshing/resorting of search results currently requested from browser-side.
Без удаления
info Если индексирование было выполнено раньше, то документ может потерять актуальность и даже быть удалён из индексируемого сайта. Переиндексации недостаточно после удаления старых файлов из поискового индекса, но может быть необходимо, так как старые файлы уже не существуют. Использование этой функции вместе с переиндексацией может занять много времени. Не удалять любые документы перед началом индексирования.
Удалить часть ссылки
Для каждого хоста в начальном списке ссылок, удалять все документы (даже в подпапках) из хоста.
Удалить только устаревшие
Считать загруженные документы устаревшими, и удалять из перед началом индексирования.
Правила повторной проверки
Нет повторов
info Вэб-индексатор выполняет повторную проверку всех ссылок, найденных в интернете с внутренней базой данных. Если ссылки найдены опять, то они считаются повторными, если вы включите опцию "Нет повторов". Ссылка может быть загружена опять, если она достигла определённого возраста. Для этого включите опцию "Повторная загрузка". Никогда не загружать любую страницу, если она уже известна. Только начальная ссылка может быть загружена опять.
Повторная загрузка
Считать загруженные документы устаревшими и загрузить их снова. Если они свежее, то они игнорируются.
Кэш документа
info Эта опция используется по-умолчанию для прокси, но не используется для явного индексирования.
info Политика состояний кэширования, когда кэш используется во время индексации: без кэша: Никогда не использовать кэш, весь контент из нового интернет-источника; если свежий кэш: использовать кэш, если кэш существует и это новое использование правил прокси если кэш существует: использовать кэш, если кэш существует. Не проверять на обновления. Иначе использовать интернет-источник; только кэш: всегда оффлайн, использовать весь контент из кэша. Если кэш не существует, то считать что контент недоступен. без кэша    если свежий кэш    если кэш существует    только кэш
Поведение робота
info Because YaCy can be used as replacement for commercial search appliances (like the Google Search Appliance aka GSA) the user must be able to crawl all web pages that are granted to such commercial platforms. Отсутствие этой опции может сильно припятствовать профессиональному использованию этой программы. Поэтому вы можете выбрать альтернативные User-Agent'ты здесь. Они будут иметь различные задержки индексирования и также идентифицировать себя с другим User-Agent'ом и соблюдать соответствующие правила роботов.
Создание снимка
info Снимки состоят их XML-данных и изображений вэб-страниц и могут быть созданы во время индексирования. XML-данные хранятся таким же образом, как и результаты поиска Solr; изображения сохраняются в формате pdf в директории HTCACHE/snapshots/. Из pdf создаются эскизы в формате jpg. Создание снимков регулируется параметром "глубина снимка". Это означает, что снимки создаются только, если глубина индексирования документов низкая или равна заданному здесь значению. Если значение "-1", то снимки не создаются.
заменить старые снимки новыми    добавить новые версии для каждого индексирования
Index Attributes
Indexing
info Разрешает индексирование вэб-страниц, пока индексатор производит загрузку. По-умолчанию включено. Кэш документов без индексирования. :     :
info Результат индексирования может быть помечен с именами в кандидаты для запроса в хранилище. Эти тэги могут быть указаны интерфейсе GSA с помощью оператора 'site'. При использовании этой опции, поле 'collection_sxt' должено быть включено. Схема Solr
info The time zone is required when the parser detects a date in the crawled web page. Content can be searched with the on: - modifier which requires also a time zone when a query is made. To normalize all given dates, the date is stored in UTC time zone. To get the right offset from dates without time zones to UTC, this offset must be given here. The offset is given in minutes; Time zone offsets for locations east of UTC must be negative; offsets for zones west of UTC must be positve.