Wdrażanie wtyczki Norconex HTTP Collector Indexer

Ten przewodnik jest przeznaczony dla administratorów wtyczki indeksującej Google Cloud Search Norconex HTTP Collector, czyli osób odpowiedzialnych za pobieranie, wdrażanie, konfigurowanie i konserwowanie wtyczki indeksującej. W tym przewodniku zakładamy, że znasz systemy operacyjne Linux, podstawy indeksowania stron internetowych, XML i Norconex HTTP Collector.

Ten przewodnik zawiera instrukcje wykonywania kluczowych zadań związanych z wdrażaniem wtyczki indeksującej:

  • Pobieranie oprogramowania wtyczki indeksującej
  • Konfigurowanie Google Cloud Search
  • Konfigurowanie Norconex HTTP Collector i indeksowania stron internetowych
  • Rozpocznij indeksowanie internetu i przesyłanie treści

W tym przewodniku nie znajdziesz informacji o zadań, które musi wykonać administrator Google Workspace, aby zmapować Google Cloud Search na wtyczkę indeksującą Norconex HTTP Collector. Więcej informacji o tych zadaniach znajdziesz w artykule Zarządzanie zewnętrznymi źródłami danych.

Omówienie wtyczki indeksującej Norconex HTTP Collector w Cloud Search

Domyślnie Cloud Search może wykrywać, indeksować i udostępniać treści z usług Google Workspace, takich jak Dokumenty Google i Gmail. Możesz rozszerzyć zasięg Google Cloud Search, aby obejmował wyświetlanie treści internetowych użytkownikom, wdrażając wtyczkę indeksującą dla Norconex HTTP Collector, czyli open source’owego robota internetowego dla przedsiębiorstw.

Pliki właściwości konfiguracji

Aby wtyczka indeksująca mogła przeprowadzać indeksowanie internetu i przesyłać treści do interfejsu API indeksowania, administrator wtyczki indeksującej musi podać określone informacje podczas czynności konfiguracyjnych opisanych w tym dokumencie w sekcji Czynności związane z wdrażaniem.

Aby używać wtyczki indeksującej, musisz ustawić właściwości w 2 plikach konfiguracyjnych:

  • {gcs-crawl-config.xml}-- zawiera ustawienia kolektora HTTP Norconex.
  • sdk-configuration.properties-- zawiera ustawienia Google Cloud Search.

Właściwości w każdym pliku umożliwiają wtyczce indeksującej Google Cloud Search i Norconex HTTP Collector komunikację ze sobą.

Indeksowanie internetu i przesyłanie treści

Po wypełnieniu plików konfiguracyjnych masz niezbędne ustawienia, aby rozpocząć indeksowanie internetu. Norconex HTTP Collector indeksuje internet, odkrywając treści dokumentów, które są zgodne z jego konfiguracją, i przesyła oryginalne wersje binarne (lub tekstowe) treści dokumentów do interfejsu Cloud Search Indexing API, gdzie są indeksowane i ostatecznie udostępniane użytkownikom.

Obsługiwany system operacyjny

Wtyczkę indeksującą Norconex HTTP Collector Google Cloud Search należy zainstalować w systemie Linux.

Obsługiwana wersja Norconex HTTP Collector

Wtyczka indeksująca Google Cloud Search Norconex HTTP Collector obsługuje wersję 2.8.0.

Obsługa list ACL

Wtyczka indeksująca obsługuje kontrolowanie dostępu do dokumentów w domenie Google Workspace za pomocą list kontroli dostępu (ACL).

Jeśli w konfiguracji wtyczki Google Cloud Search są włączone domyślne listy ACL (defaultAcl.mode ustawione na wartość inną niż none i skonfigurowane za pomocą defaultAcl.*), wtyczka indeksująca najpierw próbuje utworzyć i zastosować domyślną listę ACL.

Jeśli domyślne listy ACL nie są włączone, wtyczka przyznaje uprawnienia do odczytu całej domenie Google Workspace.

Szczegółowe opisy parametrów konfiguracji ACL znajdziesz w sekcji Parametry łącznika dostarczonego przez Google.

Wymagania wstępne

Zanim wdrożysz wtyczkę indeksującą, upewnij się, że masz te wymagane komponenty:

  • Środowisko Java JRE 1.8 zainstalowane na komputerze, na którym działa wtyczka indeksująca.
  • Informacje o Google Workspace wymagane do utworzenia relacji między Cloud Search a Norconex HTTP Collector:

    Zazwyczaj administrator Google Workspace w domenie może podać te dane logowania.

Etapy wdrażania

Aby wdrożyć wtyczkę indeksującą, wykonaj te czynności:

  1. Zainstaluj Norconex HTTP Collector i oprogramowanie wtyczki indeksującej
  2. Konfigurowanie Google Cloud Search
  3. Konfigurowanie kolektora HTTP Norconex
  4. Konfigurowanie indeksowania sieci
  5. Rozpoczynanie indeksowania witryny i przesyłania treści

Krok 1. Zainstaluj Norconex HTTP Collector i oprogramowanie wtyczki indeksującej

  1. Pobierz oprogramowanie Norconex commiter ze strony.
  2. Rozpakuj pobrane oprogramowanie do folderu ~/norconex/.
  3. Sklonuj wtyczkę commiter z GitHuba. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git, a później cd norconex-committer-plugin
  4. Sprawdź wybraną wersję wtyczki zatwierdzającej i utwórz plik ZIP:git checkout tags/v1-0.0.3mvn package (aby pominąć testy podczas tworzenia złącza, użyj mvn package -DskipTests).
  5. cd target
  6. Skopiuj utworzony plik JAR wtyczki do katalogu lib Norconex. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Wyodrębnij utworzony plik ZIP, a następnie go rozpakuj: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Uruchom skrypt instalacyjny, aby skopiować plik JAR wtyczki i wszystkie wymagane biblioteki do katalogu modułu zbierającego HTTP:
    1. Przejdź do wyodrębnionej wtyczki commiter rozpakowanej powyżej: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. Wykonaj polecenie $ sh install.sh i podaj pełną ścieżkę do norconex/norconex-collector-http-{version}/lib jako katalogu docelowego, gdy pojawi się odpowiedni monit.
    3. Jeśli zostaną znalezione zduplikowane pliki JAR, wybierz opcję 1 (Copy source Jar only if greater or same version as target Jar after renaming target Jar).

Krok 2. Skonfiguruj Google Cloud Search

Aby wtyczka indeksująca mogła połączyć się z Norconex HTTP Collector i zaindeksować odpowiednie treści, musisz utworzyć plik konfiguracji Cloud Search w katalogu Norconex, w którym jest zainstalowany Norconex HTTP Collector. Google zaleca, aby plik konfiguracji Cloud Search miał nazwę sdk-configuration.properties.

Ten plik konfiguracji musi zawierać pary klucz/wartość, które definiują parametr. Plik konfiguracji musi zawierać co najmniej te parametry, które są niezbędne do uzyskania dostępu do źródła danych Cloud Search.

Ustawienie Parametr
Identyfikator źródła danych api.sourceId = 1234567890abcdef
Wymagane. Identyfikator źródła Cloud Search skonfigurowany przez administratora Google Workspace.
Konto usługi api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Wymagane. Plik klucza konta usługi Cloud Search utworzony przez administratora Google Workspace na potrzeby wtyczki indeksującej.

Poniższy przykład przedstawia sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Plik konfiguracji może też zawierać parametry konfiguracji dostarczone przez Google. Te parametry mogą wpływać na sposób, w jaki ta wtyczka przesyła dane do interfejsu Google Cloud Search API. Na przykład zestaw parametrów batch.* określa, w jaki sposób łącznik łączy żądania.

Jeśli nie zdefiniujesz parametru w pliku konfiguracyjnym, zostanie użyta wartość domyślna (jeśli jest dostępna). Szczegółowe opisy poszczególnych parametrów znajdziesz w artykule Parametry łącznika dostarczonego przez Google.

Możesz skonfigurować wtyczkę indeksującą, aby wypełniała metadane i dane strukturalne dla indeksowanych treści. Wartości, które mają być wypełniane w polach metadanych i danych strukturalnych, można wyodrębniać z metatagów w indeksowanej treści HTML lub wartości domyślne można określić w pliku konfiguracyjnym.

Ustawienie Parametr
Tytuł itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Domyślnie wtyczka używa HTML title jako tytułu indeksowanego dokumentu. Jeśli tytuł nie jest dostępny, możesz odwołać się do atrybutu metadanych, który zawiera wartość odpowiadającą tytułowi dokumentu, lub ustawić wartość domyślną.
Sygnatura czasowa utworzenia itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Atrybut metadanych, który zawiera wartość sygnatury czasowej utworzenia dokumentu.
Czas ostatniej modyfikacji itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Atrybut metadanych, który zawiera wartość sygnatury czasowej ostatniej modyfikacji dokumentu.
Język dokumentu itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Język treści indeksowanych dokumentów.
Typ obiektu schematu itemMetadata.objectType=movie
Typ obiektu używany przez witrynę, zdefiniowany w  definicjach obiektu schematu źródła danych. Jeśli ta właściwość nie zostanie określona, łącznik nie zindeksuje żadnych uporządkowanych danych.

Uwaga: ta właściwość konfiguracji wskazuje wartość, a nie atrybut metadanych, więc sufiksy .field.defaultValue nie są obsługiwane.

Formaty daty i godziny

Formaty daty i godziny określają formaty oczekiwane w atrybutach metadanych. Jeśli plik konfiguracyjny nie zawiera tego parametru, używane są wartości domyślne. W tabeli poniżej znajdziesz ten parametr.

Ustawienie

Parametr

Dodatkowe wzorce daty i godziny

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Lista dodatkowych wzorców java.time.format.DateTimeFormatter rozdzielonych średnikami. Wzorce są używane podczas analizowania wartości ciągów znaków w przypadku pól daty lub daty i godziny w metadanych lub schemacie. Wartość domyślna to pusta lista, ale formaty RFC 3339 i RFC 1123 są zawsze obsługiwane.

Krok 3. Skonfiguruj Norconex HTTP Collector

Archiwum ZIP norconex-committer-google-cloud-search-{version}.zipzawiera przykładowy plik konfiguracyjnyminimum-config.xml.

Google zaleca rozpoczęcie konfiguracji od skopiowania pliku przykładowego:

  1. Przejdź do katalogu Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Skopiuj plik konfiguracji:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Edytuj nowo utworzony plik (w tym przykładzie gcs-crawl-config.xml) i dodaj lub zastąp istniejące węzły <committer><tagger> zgodnie z opisem w tabeli poniżej.
Ustawienie Parametr
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Wymagane. Aby włączyć wtyczkę, musisz dodać węzeł <committer> jako element podrzędny węzła głównego <httpcollector>.
<UploadFormat> <uploadFormat>raw</uploadFormat>
Opcjonalnie. Format, w którym wtyczka indeksująca przesyła treść dokumentu do interfejsu API indeksatora Google Cloud Search. Prawidłowe wartości:
  • raw: wtyczka indeksująca przesyła oryginalną, nieprzekonwertowaną zawartość dokumentu.
  • text: wtyczka indeksująca przesyła wyodrębnioną treść tekstową.

Wartością domyślną jest raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Wymagane, jeśli wartość parametru <UploadFormat> to raw. W takim przypadku wtyczka indeksująca musi mieć dostęp do pola zawartości binarnej dokumentu.

Węzeł BinaryContentTagger <tagger> musisz dodać jako element podrzędny węzła <importer> / <preParseHandlers>.

Poniższy przykład pokazuje wymaganą modyfikację gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Krok 4. Skonfiguruj indeksowanie internetu

Zanim rozpoczniesz indeksowanie internetu, musisz je skonfigurować tak, aby obejmowało tylko informacje, które Twoja organizacja chce udostępniać w wynikach wyszukiwania. Najważniejsze ustawienia indeksowania stron internetowych są częścią <crawler>węzłów i mogą obejmować:

  • Początkowe adresy URL
  • Maksymalna głębokość indeksowania
  • Liczba wątków

Zmień te wartości konfiguracji zgodnie z potrzebami. Szczegółowe informacje o konfigurowaniu indeksowania witryn oraz pełną listę dostępnych parametrów konfiguracji znajdziesz na stronie Konfiguracja modułu zbierającego HTTP.

Krok 5. Rozpocznij indeksowanie witryny i przesyłanie treści

Po zainstalowaniu i skonfigurowaniu wtyczki indeksującej możesz uruchomić ją samodzielnie w trybie lokalnym.

W przykładzie poniżej założono, że wymagane komponenty znajdują się w katalogu local w systemie Linux. Uruchom to polecenie:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Monitorowanie indeksowania za pomocą narzędzia JEF Monitor

Norconex JEF (Job Execution Framework) Monitor to graficzne narzędzie do monitorowania postępu procesów i zadań Norconex Web Crawler (HTTP Collector). Pełny samouczek dotyczący konfigurowania tego narzędzia znajdziesz w artykule Monitorowanie postępów robota za pomocą narzędzia JEF Monitor.