Indexes - Analyze

Muestra cómo un analizador divide el texto en tokens.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2026-04-01

Parámetros de identificador URI

Nombre En Requerido Tipo Description
endpoint
path True

string (uri)

La dirección URL del punto de conexión del servicio de búsqueda.

indexName
path True

string

Nombre del índice.

api-version
query True

string

minLength: 1

Versión de la API que se va a usar para esta operación.

Encabezado de la solicitud

Nombre Requerido Tipo Description
Accept

Accept

El encabezado Aceptar.

x-ms-client-request-id

string (uuid)

Identificador de cadena globalmente único y generado por el cliente para la solicitud.

Cuerpo de la solicitud

Nombre Requerido Tipo Description
text True

string

Texto que se va a dividir en tokens.

analyzer

LexicalAnalyzerName

Nombre del analizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un tokenizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes.

charFilters

CharFilterName[]

Lista opcional de filtros de caracteres que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer.

normalizer

LexicalNormalizerName

El nombre del normalizador que se usará para normalizar el texto dado.

tokenFilters

TokenFilterName[]

Una lista opcional de filtros de token que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer.

tokenizer

LexicalTokenizerName

Nombre del tokenizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un analizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes.

Respuestas

Nombre Tipo Description
200 OK

AnalyzeResult

La solicitud se ha realizado correctamente.

Other Status Codes

ErrorResponse

Una respuesta de error inesperada.

Seguridad

api-key

Tipo: apiKey
En: header

OAuth2Auth

Tipo: oauth2
Flujo: implicit
Dirección URL de autorización: https://login.microsoftonline.com/common/oauth2/v2.0/authorize

Ámbitos

Nombre Description
https://search.azure.com/.default

Ejemplos

SearchServiceIndexAnalyze

Solicitud de ejemplo

POST https://exampleservice.search.windows.net/indexes('example-index')/search.analyze?api-version=2026-04-01


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

Respuesta de muestra

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definiciones

Nombre Description
Accept

El encabezado Aceptar.

AnalyzedTokenInfo

Información sobre un token devuelto por un analizador.

AnalyzeRequest

Especifica algunos componentes de texto y análisis que se usan para dividir ese texto en tokens.

AnalyzeResult

Resultado de probar un analizador en el texto.

CharFilterName

Define los nombres de todos los filtros de caracteres admitidos por el motor de búsqueda.

ErrorAdditionalInfo

Información adicional sobre el error de administración de recursos.

ErrorDetail

Detalle del error.

ErrorResponse

Respuesta común a errores para todas las APIs de Azure Resource Manager para devolver detalles de error por operaciones fallidas. (Esto también sigue el formato de respuesta de error de OData).

LexicalAnalyzerName

Define los nombres de todos los analizadores de texto compatibles con el motor de búsqueda.

LexicalNormalizerName

Define los nombres de todos los normalizadores de texto admitidos por el motor de búsqueda.

LexicalTokenizerName

Define los nombres de todos los tokenizadores admitidos por el motor de búsqueda.

TokenFilterName

Define los nombres de todos los filtros de token admitidos por el motor de búsqueda.

Accept

El encabezado Aceptar.

Valor Description
application/json;odata.metadata=minimal

AnalyzedTokenInfo

Información sobre un token devuelto por un analizador.

Nombre Tipo Description
endOffset

integer (int32)

Índice del último carácter del token en el texto de entrada.

position

integer (int32)

Posición del token en el texto de entrada en relación con otros tokens. El primer token del texto de entrada tiene la posición 0, la siguiente tiene la posición 1, etc. Dependiendo del analizador usado, algunos tokens podrían tener la misma posición, por ejemplo, si son sinónimos entre sí.

startOffset

integer (int32)

Índice del primer carácter del token en el texto de entrada.

token

string

Token devuelto por el analizador.

AnalyzeRequest

Especifica algunos componentes de texto y análisis que se usan para dividir ese texto en tokens.

Nombre Tipo Description
analyzer

LexicalAnalyzerName

Nombre del analizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un tokenizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes.

charFilters

CharFilterName[]

Lista opcional de filtros de caracteres que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer.

normalizer

LexicalNormalizerName

El nombre del normalizador que se usará para normalizar el texto dado.

text

string

Texto que se va a dividir en tokens.

tokenFilters

TokenFilterName[]

Una lista opcional de filtros de token que se usarán al interrumpir el texto especificado. Este parámetro solo se puede establecer cuando se usa el parámetro tokenizer.

tokenizer

LexicalTokenizerName

Nombre del tokenizador que se va a usar para interrumpir el texto especificado. Si no se especifica este parámetro, debe especificar un analizador en su lugar. Los parámetros de tokenizador y analizador son mutuamente excluyentes.

AnalyzeResult

Resultado de probar un analizador en el texto.

Nombre Tipo Description
tokens

AnalyzedTokenInfo[]

La lista de tokens devueltos por el analizador especificado en la solicitud.

CharFilterName

Define los nombres de todos los filtros de caracteres admitidos por el motor de búsqueda.

Valor Description
html_strip

Filtro de caracteres que intenta quitar construcciones HTML. Vea https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html.

ErrorAdditionalInfo

Información adicional sobre el error de administración de recursos.

Nombre Tipo Description
info

Información adicional.

type

string

Tipo de información adicional.

ErrorDetail

Detalle del error.

Nombre Tipo Description
additionalInfo

ErrorAdditionalInfo[]

Información adicional del error.

code

string

Código de error.

details

ErrorDetail[]

Detalles del error.

message

string

El mensaje de error.

target

string

Destino del error.

ErrorResponse

Respuesta común a errores para todas las APIs de Azure Resource Manager para devolver detalles de error por operaciones fallidas. (Esto también sigue el formato de respuesta de error de OData).

Nombre Tipo Description
error

ErrorDetail

Objeto de error.

LexicalAnalyzerName

Define los nombres de todos los analizadores de texto compatibles con el motor de búsqueda.

Valor Description
ar.microsoft

Analizador Microsoft para árabe.

ar.lucene

Analizador Lucene para árabe.

hy.lucene

Analizador Lucene para armenio.

bn.microsoft

Analizador Microsoft para bangla.

eu.lucene

Analizador Lucene para euskera.

bg.microsoft

Analizador Microsoft para búlgaro.

bg.lucene

Analizador Lucene para búlgaro.

ca.microsoft

Analizador Microsoft para catalán.

ca.lucene

Analizador Lucene para catalán.

zh-Hans.microsoft

Analizador Microsoft para chino (simplificado).

zh-Hans.lucene

Analizador Lucene para chino (simplificado).

zh-Hant.microsoft

Analizador Microsoft para chino (tradicional).

zh-Hant.lucene

Analizador Lucene para chino (tradicional).

hr.microsoft

Analizador Microsoft para croata.

cs.microsoft

Analizador Microsoft para checo.

cs.lucene

Analizador Lucene para checo.

da.microsoft

Analizador Microsoft para danés.

da.lucene

Analizador Lucene para danés.

nl.microsoft

Analizador de Microsoft para holandés.

nl.lucene

Analizador Lucene para holandés.

en.microsoft

Analizador Microsoft para inglés.

en.lucene

Analizador Lucene para inglés.

et.microsoft

Analizador Microsoft para estonio.

fi.microsoft

Analizador Microsoft para finlandés.

fi.lucene

Analizador Lucene para finlandés.

fr.microsoft

Analizador Microsoft para francés.

fr.lucene

Analizador Lucene para francés.

gl.lucene

Analizador Lucene para gallego.

de.microsoft

Analizador Microsoft para alemán.

de.lucene

Analizador Lucene para alemán.

el.microsoft

Analizador Microsoft para griego.

el.lucene

Analizador Lucene para griego.

gu.microsoft

Analizador de Microsoft para gujarati.

he.microsoft

Analizador Microsoft para hebreo.

hi.microsoft

Analizador Microsoft para hindi.

hi.lucene

Analizador Lucene para hindi.

hu.microsoft

Analizador Microsoft para húngaro.

hu.lucene

Analizador Lucene para húngaro.

is.microsoft

Analizador Microsoft para islandés.

id.microsoft

Analizador Microsoft para indonesio (Bahasa).

id.lucene

Analizador Lucene para indonesio.

ga.lucene

Analizador Lucene para irlandés.

it.microsoft

Analizador Microsoft para italiano.

it.lucene

Analizador Lucene para italiano.

ja.microsoft

Analizador Microsoft para japonés.

ja.lucene

Analizador Lucene para japonés.

kn.microsoft

Analizador Microsoft para kannada.

ko.microsoft

Analizador Microsoft para coreano.

ko.lucene

Analizador Lucene para coreano.

lv.microsoft

Analizador Microsoft para letón.

lv.lucene

Analizador Lucene para letón.

lt.microsoft

Analizador Microsoft para lituano.

ml.microsoft

Analizador Microsoft para malayalam.

ms.microsoft

Analizador Microsoft para malayo (latín).

mr.microsoft

Analizador Microsoft para maratí.

nb.microsoft

Microsoft analyzer for Norwegian (Bokmål).

no.lucene

Analizador Lucene para noruego.

fa.lucene

Analizador Lucene para persa.

pl.microsoft

Analizador Microsoft para polaco.

pl.lucene

Analizador Lucene para polaco.

pt-BR.microsoft

Analizador Microsoft para portugués (Brasil).

pt-BR.lucene

Analizador Lucene para portugués (Brasil).

pt-PT.microsoft

Analizador Microsoft para portugués (Portugal).

pt-PT.lucene

Analizador Lucene para portugués (Portugal).

pa.microsoft

Analizador Microsoft para punjabi.

ro.microsoft

Analizador Microsoft para rumano.

ro.lucene

Analizador Lucene para rumano.

ru.microsoft

Analizador Microsoft para ruso.

ru.lucene

Analizador Lucene para ruso.

sr-cyrillic.microsoft

Analizador Microsoft para serbio (cirílico).

sr-latin.microsoft

Analizador Microsoft para serbio (latín).

sk.microsoft

Analizador de Microsoft para eslovaco.

sl.microsoft

Analizador de Microsoft para esloveno.

es.microsoft

Analizador Microsoft para español.

es.lucene

Analizador Lucene para español.

sv.microsoft

Analizador Microsoft para sueco.

sv.lucene

Analizador Lucene para sueco.

ta.microsoft

Analizador Microsoft para tamil.

te.microsoft

Analizador Microsoft para telugu.

th.microsoft

Analizador Microsoft para tailandés.

th.lucene

Analizador Lucene para tailandés.

tr.microsoft

Analizador Microsoft para turco.

tr.lucene

Analizador Lucene para turco.

uk.microsoft

Analizador Microsoft para ucraniano.

ur.microsoft

Analizador Microsoft para urdu.

vi.microsoft

Analizador Microsoft para vietnamita.

standard.lucene

Analizador Lucene estándar.

standardasciifolding.lucene

Analizador Lucene plegable ASCII estándar. Vea https://dotnet.territoriali.olinfo.it/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers.

keyword

Trata todo el contenido de un campo como un solo token. Esto es útil para datos como códigos postales, identificadores y algunos nombres de producto. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html.

pattern

Separa el texto de manera flexible en términos a través de un patrón de expresión regular. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html.

simple

Divide el texto por donde no hay letras y lo convierte en minúsculas. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html.

stop

Divide el texto en letras no letras; Aplica los filtros de token en minúsculas y palabras irrelevantes. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html.

whitespace

Un analizador que usa el tokenizador de espacios en blanco. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html.

LexicalNormalizerName

Define los nombres de todos los normalizadores de texto admitidos por el motor de búsqueda.

Valor Description
asciifolding

Convierte caracteres alfabéticos, numéricos y simbólicos Unicode que no están en los primeros 127 caracteres ASCII (el bloque Unicode "Básico latino") en sus equivalentes ASCII, si existen dichos equivalentes. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.

elision

Elimina elisiones. Por ejemplo, "l'avion" (el plano) se convertirá en "avion" (plano). Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.

lowercase

Normaliza el texto del token a minúsculas. Vea https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html.

standard

Normalizador estándar, que consta de minúsculas y asciifolding. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.

uppercase

Normaliza el texto del token en mayúsculas. Vea https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.

LexicalTokenizerName

Define los nombres de todos los tokenizadores admitidos por el motor de búsqueda.

Valor Description
classic

Tokenizador basado en gramática que es adecuado para procesar la mayoría de los documentos de idioma europeo. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.

edgeNGram

Tokeniza la entrada de un borde en n gramos de los tamaños especificados. Vea https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.

keyword_v2

Emite la entrada completa como un solo token. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.

letter

Divide el texto en caracteres no alfabéticos. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.

lowercase

Divide el texto por donde no hay letras y lo convierte en minúsculas. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.

microsoft_language_tokenizer

Divide el texto mediante reglas específicas del idioma.

microsoft_language_stemming_tokenizer

Divide el texto mediante reglas específicas del idioma y reduce las palabras a sus formas base.

nGram

Tokeniza la entrada en n-gramas de los tamaños especificados. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.

path_hierarchy_v2

Tokenizador para jerarquías similares a rutas de acceso. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.

pattern

Tokenizer que usa la coincidencia de patrones regex para construir tokens distintos. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.

standard_v2

Analizador estándar de Lucene; Compuesto por el tokenizador estándar, el filtro en minúsculas y el filtro stop. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.

uax_url_email

Tokeniza las direcciones URL y los correos electrónicos como un token. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.

whitespace

Divide el texto en espacios en blanco. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.

TokenFilterName

Define los nombres de todos los filtros de token admitidos por el motor de búsqueda.

Valor Description
arabic_normalization

Un filtro de token que aplica el normalizador de árabe para normalizar la ortografía. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html.

apostrophe

Elimina todos los caracteres después de un apóstrofo (incluyendo el apóstrofo en sí mismo). Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html.

asciifolding

Convierte caracteres alfabéticos, numéricos y simbólicos Unicode que no están en los primeros 127 caracteres ASCII (el bloque Unicode "Básico latino") en sus equivalentes ASCII, si existen dichos equivalentes. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.

cjk_bigram

Forma bigrams de términos de CJK que se generan a partir del tokenizador estándar. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html.

cjk_width

Normaliza las diferencias de ancho de CJK. Pliega variantes ASCII de ancho completo en el latín básico equivalente, y variantes Katakana de medio ancho en el Kana equivalente. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html.

classic

Quita los posesivos en inglés y los puntos de los acrónimos. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html.

common_grams

Construye bigramas para términos que se repiten con frecuencia durante la indexación. Los términos individuales también se indexan, con los bigramas superpuestos. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html.

edgeNGram_v2

Genera n-gramas de los tamaños especificados a partir de la parte delantera o posterior de un token de entrada. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html.

elision

Elimina elisiones. Por ejemplo, "l'avion" (el plano) se convertirá en "avion" (plano). Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.

german_normalization

Normaliza los caracteres alemanes según la heurística del algoritmo de bola de nieve alemán2. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html.

hindi_normalization

Normaliza el texto en hindi para quitar algunas diferencias en las variaciones ortográficas. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html.

indic_normalization

Normaliza la representación Unicode de texto en las lenguas hindúes. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html.

keyword_repeat

Emite cada token entrante dos veces, una como palabra clave y una vez como palabra clave no clave. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html.

kstem

Filtro kstem de alto rendimiento para inglés. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html.

length

Quita las palabras que son demasiado largas o demasiado cortas. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html.

limit

Limita el número de tokens durante la indexación. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html.

lowercase

Normaliza el texto de los tokens a minúsculas. Vea https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html.

nGram_v2

Genera n-gramas de los tamaños especificados. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html.

persian_normalization

Aplica la normalización para el idioma persa. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html.

phonetic

Crea tokens para coincidencias fonéticas. Vea https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html.

porter_stem

Usa el algoritmo de lematización porter para transformar la secuencia de tokens. Vea http://tartarus.org/~martin/PorterStemmer.

reverse

Invierte la cadena de tokens. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.

scandinavian_normalization

Normaliza el uso de los caracteres escandinavos intercambiables entre sí. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html.

scandinavian_folding

Pliega caracteres escandinavos Ã¥ã... äæÃ"Æ->a y öÖà ̧à ̃-o>. También discrimina el uso de vocales dobles aa, ae, ao, oe y oo, dejando solo el primero. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html.

shingle

Crea combinaciones de tokens como un solo token. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html.

snowball

Filtro que deriva las palabras mediante un lematizador generado por Snowball. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html.

sorani_normalization

Normaliza la representación Unicode del texto Sorani. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html.

stemmer

Filtro de lematización específico del idioma. Vea https://dotnet.territoriali.olinfo.it/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters.

stopwords

Quita las palabras irrelevantes de una secuencia de tokens. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html.

trim

Elimina el espacio en blanco inicial y final de los tokens. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html.

truncate

Trunca los términos a una longitud específica. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html.

unique

Filtra los tokens con el mismo texto que el token anterior. Vea http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html.

uppercase

Normaliza el texto del token a letras mayúsculas. Vea https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.

word_delimiter

Divide palabras en subpalabras y realiza transformaciones opcionales en los grupos de subpalabras.