Hibernate Search – fulltext nad Hibernate ORM
Pokud chceme do naší Java aplikace integrovat fulltextové vyhledávání, dříve či později skončíme u Apache Lucene, frameworku, který je pro vyhledávání v Javě v podstatě standardem a synonymem. Pokud se rozhodneme používat čistý Lucene, musíme mj. řešit:
- mapování doménových objektů do Lucene (v Lucene jsou všechny atributy obyčejné řetězce)
- mapování výsledků vyhledávání zpátky do doménových objektů
- transakce
- otevírání a zavírání indexu
- zamykání indexu, v 1 okamžiku může do indexu zapisovat pouze 1 proces
- škálování fulltextu přes více serverů
Jestliže se však držíme zavedených řešení a používáme Hibernate (ať už Hibernate Core nebo Hibernate jako JPA providera), můžeme využít rozšíření Hibernate Search.
Hibernate Search je projekt, který Hibernate Core doplňuje o fulltextové prohledávání persistovaných objektů a funguje jako fasáda nad Lucene.
Hibernate Search nabízí:
- API nad fulltextem podobné JPA
- odstínění od low-level objektů Lucene-nestaráme se vůbec o otevření/uzavření indexu, o zamykání indexu 1 procesem, atd.
- fulltextové vyhledávání nad persistovanými objekty pomocí Lucene tříd a objektů
- automatický převod objektů do indexu a zpět (pokud nevyhovuje/nepostačuje, lze napsat převodníky)
- automatickou synchronizaci indexu s doménovými objekty
- reindexaci již persistovaných objektů
- výsledky vyhledávání jsou kompletní objekty, Hibernate Search vrátí na dotaz seznam vyhovujících ID a Hibernate pak načte z db objekty s těmito ID
- transakční chování – zápis do fulltext indexu se provádí až nakonec po commitu změn do db
- škálování jako master/slave pomocí JMS
- jednoduchost, pokud známe Lucene a Hibernate, můžeme jej začít používat okamžitě.
Ukázková aplikace
Pro praktickou ukázku integrujeme fulltextové vyhledávání do jednoduché webové aplikace pro správu firem (klasická create-read-update aplikace).
Použitý stack
- Hibernate Entity Manager 3.4.0.GA - persistence
- Hibernate Search 3.1.0.GA – fulltext
- Apache Maven 2.0.9 – project management
- Apache Wicket 1.3.5 – prezentační vrstva
- Spring 2.5.5 – lepidlo
- PostgreSQL 8.2-relační databáze
Poznámka k následujícím zdrojovým kódům: uvádím pouze soubory, které se bezprostředně týkají Hibernate Search, kompletní zdrojáky aplikace jsou na konci příspěvku.
Závislosti
pom.xml
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>org.hradil</groupId>
<artifactId>HibernateSearchSimpleApplication</artifactId>
<packaging>war</packaging>
<version>1.0</version>
<name>Hibernate Search Simple Application</name>
<dependencies>
<!-- wicket -->
<dependency>
<groupId>org.apache.wicket</groupId>
<artifactId>wicket</artifactId>
<version>1.3.5</version>
</dependency>
<!-- wicket+spring -->
<dependency>
<groupId>org.apache.wicket</groupId>
<artifactId>wicket-spring-annot</artifactId>
<version>1.3.5</version>
</dependency>
<dependency>
<groupId>org.hibernate</groupId>
<artifactId>hibernate-entitymanager</artifactId>
<version>3.4.0.GA</version>
</dependency>
<dependency>
<artifactId>hibernate-annotations</artifactId>
<groupId>org.hibernate</groupId>
<version>3.4.0.GA</version>
</dependency>
<!-- Hibernate Search -->
<dependency>
<groupId>org.hibernate</groupId>
<artifactId>hibernate-search</artifactId>
<version>3.1.0.GA</version>
</dependency>
<dependency>
<groupId>org.springframework</groupId>
<artifactId>spring</artifactId>
<version>2.5.5</version>
<exclusions>
<exclusion>
<groupId>commons-logging</groupId>
<artifactId>commons-logging</artifactId>
</exclusion>
</exclusions>
</dependency>
<!-- LOGGING DEPENDENCIES - LOG4J -->
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-api</artifactId>
<version>1.5.2</version>
</dependency>
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
<version>1.5.2</version>
</dependency>
<!-- work around for jetty commons logging issue -->
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>jcl-over-slf4j</artifactId>
<version>1.5.2</version>
</dependency>
<dependency>
<groupId>c3p0</groupId>
<artifactId>c3p0</artifactId>
<version>0.9.1.2</version>
</dependency>
<dependency>
<groupId>postgresql</groupId>
<artifactId>postgresql</artifactId>
<version>8.2-507.jdbc3</version>
<scope>compile</scope>
</dependency>
<!-- JUNIT DEPENDENCY FOR TESTING -->
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>3.8.2</version>
<scope>test</scope>
</dependency>
<!-- JETTY DEPENDENCIES FOR TESTING -->
<dependency>
<groupId>org.mortbay.jetty</groupId>
<artifactId>jetty</artifactId>
<version>6.1.4</version>
<scope>provided</scope>
</dependency>
</dependencies>
<build>
<resources>
<resource>
<directory>src/main/resources</directory>
</resource>
<resource>
<directory>src/main/java</directory>
<includes>
<include>**</include>
</includes>
<excludes>
<exclude>**/*.java</exclude>
</excludes>
</resource>
</resources>
<testResources>
<testResource>
<directory>src/test/java</directory>
<includes>
<include>**</include>
</includes>
<excludes>
<exclude>**/*.java</exclude>
</excludes>
</testResource>
</testResources>
<plugins>
<plugin>
<groupId>org.mortbay.jetty</groupId>
<artifactId>maven-jetty-plugin</artifactId>
<configuration>
<scanIntervalSeconds>5</scanIntervalSeconds>
<contextPath>/</contextPath>
</configuration>
</plugin>
<plugin>
<artifactId>maven-compiler-plugin</artifactId>
<version>2.0.2</version>
<configuration>
<source>1.6</source>
<target>1.6</target>
</configuration>
</plugin>
</plugins>
</build>
</project>
Konfigurace
applicationContext-jpa.xml
<?xml version="1.0" encoding="UTF-8"?>
<beans xmlns="http://www.springframework.org/schema/beans"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xmlns:tx="http://www.springframework.org/schema/tx"
xsi:schemaLocation="
http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans-2.5.xsd
http://www.springframework.org/schema/tx http://www.springframework.org/schema/tx/spring-tx-2.5.xsd"
>
<description>
Konfigurace kontextu pro JPA, vcetne datovych zdroju a transakcnich manazeru.
</description>
<bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" destroy-method="close">
<description>
Datovy zdroj pro persistentni vrstvu. Obsahuje udaje o pripojeni k databazi.
</description>
<property name="driverClass" value="org.postgresql.Driver"/>
<property name="jdbcUrl" value="jdbc:postgresql://localhost/HibernateSearchSimple"/>
<property name="user" value="postgres"/>
<property name="password" value=""/>
</bean>
<bean id="entityManagerFactory" class="org.springframework.orm.jpa.LocalContainerEntityManagerFactoryBean">
<description>
Tovarna pro manazer entit. Je pouzita trida LocalContainerEntityManagerFactoryBean,
ktera je doporucena pro produkcni nasazeni JPA.
Viz. http://static.springframework.org/spring/docs/2.5.x/reference/orm.html
</description>
<property name="dataSource" ref="dataSource"/>
<property name="jpaVendorAdapter">
<bean class="org.springframework.orm.jpa.vendor.HibernateJpaVendorAdapter">
<property name="databasePlatform" value="org.hibernate.dialect.PostgreSQLDialect" />
<property name="generateDdl" value="false"/>
</bean>
</property>
<!-- nastaveni JPA a Hibernate Search -->
<property name="jpaProperties">
<value>
# konfigurace JPA
hibernate.dialect=org.hibernate.dialect.PostgreSQLDialect
hibernate.hbm2ddl.auto=validate
# debugging / logging
hibernate.show_sql=true
hibernate.format_sql=true
hibernate.use_sql_comments=true
# konfigurace Hibernate Search
# kde bude ulozen Lucene index
hibernate.search.default.indexBase=/tmp/index
</value>
</property>
</bean>
<tx:annotation-driven transaction-manager="transactionManager"/>
<!-- transakcni manazer -->
<bean id="transactionManager" class="org.springframework.orm.jpa.JpaTransactionManager">
<property name="entityManagerFactory" ref="entityManagerFactory"/>
</bean>
</beans>
Entita
Company.java
package org.hradil.search.entity;
import java.io.Serializable;
import javax.persistence.Column;
import javax.persistence.Entity;
import javax.persistence.GeneratedValue;
import javax.persistence.GenerationType;
import javax.persistence.Id;
import javax.persistence.SequenceGenerator;
import javax.persistence.Table;
import org.hibernate.search.annotations.DocumentId;
import org.hibernate.search.annotations.Field;
import org.hibernate.search.annotations.Indexed;
/**
* Entita reprezentuje firmu.
* Firmu lze ve fulltextu vyhledat podle id, name a regNo.
*
* @author jirka@hradil.org
*/
@Entity
@Table(name = "company")
@Indexed //tridu budeme chtit indexovat ve fulltextu
public class Company implements Serializable {
private static final long serialVersionUID = 1216348069826762176L;
@Id
@Column(name = "id")
@SequenceGenerator(name = "company_id_seq", sequenceName = "company_id_seq")
@GeneratedValue(strategy = GenerationType.SEQUENCE, generator = "company_id_seq")
@DocumentId //primarni klic objektu ve fulltextu, zaroven podle nej muzeme vyhledavat
private int id;
@Column
@Field //ve fulltextu chceme hledat firmu podle nazvu
private String name;
@Column
@Field //ve fulltextu chceme hledat firmu podle IC
private String regNo;
/**
* Vytvori novou firmu.
*/
public Company() {
}
/**
* Vytvori novou firmu a predvyplni atributy.
* @param name nazev firmy
* @param regNo IC
*/
public Company(final String name, final String regNo) {
this.name = name;
this.regNo = regNo;
}
/**
* Vrati id firmy
* @return id
*/
public int getId() {
return id;
}
/**
* Nastavi id firmy
* @param id id
*/
public void setId(int id) {
this.id = id;
}
/**
* Vrati nazev firmy.
* @return nazev
*/
public String getName() {
return name;
}
/**
* Nastavi nazev firmy.
* @param name nazev
*/
public void setName(String name) {
this.name = name;
}
/**
* Vrati IC firmy.
* @return IC
*/
public String getRegNo() {
return regNo;
}
/**
* Nastavi IC firmy.
* @param regNo IC
*/
public void setRegNo(String regNo) {
this.regNo = regNo;
}
}
Servisní vrstva - uložení, úprava, vyhledání
CompanyServiceImpl.java
package org.hradil.search.service;
import org.hradil.search.entity.Company;
import java.util.List;
import javax.persistence.EntityManager;
import javax.persistence.PersistenceContext;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.queryParser.MultiFieldQueryParser;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.MatchAllDocsQuery;
import org.apache.lucene.search.Sort;
import org.apache.lucene.search.SortField;
import org.hibernate.search.jpa.FullTextQuery;
import org.hibernate.search.jpa.Search;
import org.hibernate.search.jpa.FullTextEntityManager;
import org.springframework.stereotype.Service;
import org.springframework.transaction.annotation.Propagation;
import org.springframework.transaction.annotation.Transactional;
import org.springframework.util.Assert;
import org.springframework.util.StringUtils;
/**
* Implementace sluzby pro firmu.
*
* @author jirka@hradil.org
*/
@Transactional(propagation = Propagation.REQUIRED)
@Service
public class CompanyServiceImpl implements CompanyService {
@PersistenceContext
private EntityManager em;
/**
* {@inheritDoc}
*/
@Override
public void addCompany(Company newCompany) {
em.persist(newCompany);
}
/**
* {@inheritDoc}
*/
@Override
@SuppressWarnings("unchecked")
@Transactional(readOnly = true)
public List<Company> findCompanyBy(final String fulltextQuery) {
Assert.notNull(fulltextQuery, "retezec pro vyhledavani nesmi byt null!");
//vezmeme instanci manazeru fulltextu
FullTextEntityManager ftEm = Search.getFullTextEntityManager(em);
//vytvorime parser pro prohledavane atributy firmy, pouzijeme standardni analyzer
QueryParser parser = new MultiFieldQueryParser(new String[]{"id", "name", "regNo"}, new StandardAnalyzer());
//vytvorime dotaz do Lucene
org.apache.lucene.search.Query luceneQuery;
//pokud po zruseni vsech bilych znaku a hvezdicek zustane jen prazdny retezec, pak vracime vsechny zaznamy
//napr. dotaz "**** * ** *" bude vyhodnocen tak, ze chceme prohledavat vsechny firmy
if (StringUtils.trimAllWhitespace(StringUtils.deleteAny(fulltextQuery, "*")).isEmpty()) {
luceneQuery = new MatchAllDocsQuery();
} else { //byl zadan retezec, vyhledavame
try {
luceneQuery = parser.parse(fulltextQuery); //zparsujeme predany dotaz pomoci parseru Lucene
} catch (ParseException e) { //neplatny dotaz, prekonverujeme na runtime vyjimku, nemusime zachytavat
throw new RuntimeException("Neplatny dotaz do fulltextu: " + fulltextQuery, e);
}
}
//vytvorime normalni JPA dotaz, ale pres rozhrani fulltextu
FullTextQuery query = ftEm.createFullTextQuery(
luceneQuery,
Company.class);
//tridime dle relevance DESC, pote dle id DESC
SortField[] sortFields = new SortField[2];
sortFields[0] = SortField.FIELD_SCORE; //relevance, default DESC
sortFields[1] = new SortField("id", SortField.INT, true); //id, je to intener, DESC=true
Sort sort = new Sort(sortFields);
//pridame trideni do dotazu
query.setSort(sort);
//a vratime rovnou vyhovujici seznam firem z ORM
return query.getResultList();
}
/**
* {@inheritDoc}
*/
@Override
@SuppressWarnings("unchecked")
@Transactional(readOnly = true)
public Company findCompanyBy(int id) {
return em.find(Company.class, id);
}
@Override
@Transactional(readOnly = false)
public void updateCompany(Company company) {
em.merge(company);
}
}
Zdrojové kódy aplikace
Konfiguraci a rozjetí v clusteru si ukážeme v některém dalším příspěvku.