estoy usando Solr para indexar documentos en 3 langues (árabe, francés e inglés), que han utilizado este FieldType:Solr para árabe
<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
Todo era bueno, pero en idioma árabe cuando pongo esta solicitar para buscar una palabra como حقل
Solr no encuentra la palabra, pero cuando pongo la palabra en لقح
de izquierda a derecha Solr encuentra la palabra y devuelve el resultado.
¿Puedo obtener un resultado para palabras en árabe?
No conozco ningún mecanismo que pueda invertir el orden del texto RTL en Solr. Generalmente, la gente encuentra que quiere algún tipo de lematización en árabe para manejar todas las formas flexionadas. ¿Qué estás usando para construir la UI en la que estás escribiendo los términos de búsqueda? – bmargulies
Estoy usando una página web, también en mi prueba uso Eclipse directamente con API solrj. –
¿Está usted por casualidad extrayendo su texto de archivos PDF? Si es así, parece haber un problema conocido con Tika: https://issues.apache.org/jira/browse/TIKA-469?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=12995516 –