Indexes - Analyze

Mostra como um analisador divide o texto em tokens.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2026-04-01

Parâmetros de URI

Nome Em Obrigatório Tipo Description
endpoint
path True

string (uri)

A URL do ponto de extremidade do serviço de pesquisa.

indexName
path True

string

O nome do índice.

api-version
query True

string

minLength: 1

A versão da API a ser usada para esta operação.

Cabeçalho da solicitação

Nome Obrigatório Tipo Description
Accept

Accept

O cabeçalho Aceitar.

x-ms-client-request-id

string (uuid)

Um identificador de cadeia de caracteres opaco, globalmente exclusivo e gerado pelo cliente para a solicitação.

Corpo da solicitação

Nome Obrigatório Tipo Description
text True

string

O texto a ser dividido em tokens.

analyzer

LexicalAnalyzerName

O nome do analisador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um tokenizador. Os parâmetros do tokenizer e do analisador são mutuamente exclusivos.

charFilters

CharFilterName[]

Uma lista opcional de filtros de caracteres a serem usados ao quebrar o texto especificado. Esse parâmetro só pode ser definido ao usar o parâmetro tokenizer.

normalizer

LexicalNormalizerName

O nome do normalizador a ser usado para normalizar o texto fornecido.

tokenFilters

TokenFilterName[]

Uma lista opcional de filtros de token a serem usados ao quebrar o texto fornecido. Esse parâmetro só pode ser definido ao usar o parâmetro tokenizer.

tokenizer

LexicalTokenizerName

O nome do tokenizador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um analisador. Os parâmetros do tokenizer e do analisador são mutuamente exclusivos.

Respostas

Nome Tipo Description
200 OK

AnalyzeResult

A solicitação foi bem-sucedida.

Other Status Codes

ErrorResponse

Uma resposta de erro inesperada.

Segurança

api-key

Tipo: apiKey
Em: header

OAuth2Auth

Tipo: oauth2
Flow: implicit
URL de Autorização: https://login.microsoftonline.com/common/oauth2/v2.0/authorize

Escopos

Nome Description
https://search.azure.com/.default

Exemplos

SearchServiceIndexAnalyze

Solicitação de exemplo

POST https://exampleservice.search.windows.net/indexes('example-index')/search.analyze?api-version=2026-04-01


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

Resposta de exemplo

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definições

Nome Description
Accept

O cabeçalho Aceitar.

AnalyzedTokenInfo

Informações sobre um token retornado por um analisador.

AnalyzeRequest

Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens.

AnalyzeResult

O resultado do teste de um analisador no texto.

CharFilterName

Define os nomes de todos os filtros de caracteres suportados pelo mecanismo de pesquisa.

ErrorAdditionalInfo

As informações adicionais do erro de gerenciamento de recursos.

ErrorDetail

O detalhe do erro.

ErrorResponse

Resposta comum de erro para todas as APIs do Azure Resource Manager devolver detalhes de erro em operações falhadas. (Isso também segue o formato de resposta de erro OData.).

LexicalAnalyzerName

Define os nomes de todos os analisadores de texto suportados pelo mecanismo de pesquisa.

LexicalNormalizerName

Define os nomes de todos os normalizadores de texto suportados pelo mecanismo de pesquisa.

LexicalTokenizerName

Define os nomes de todos os tokenizadores suportados pelo mecanismo de pesquisa.

TokenFilterName

Define os nomes de todos os filtros de token suportados pelo mecanismo de pesquisa.

Accept

O cabeçalho Aceitar.

Valor Description
application/json;odata.metadata=minimal

AnalyzedTokenInfo

Informações sobre um token retornado por um analisador.

Nome Tipo Description
endOffset

integer (int32)

O índice do último caractere do token no texto de entrada.

position

integer (int32)

A posição do token no texto de entrada em relação a outros tokens. O primeiro token no texto de entrada tem a posição 0, o próximo tem a posição 1 e assim por diante. Dependendo do analisador usado, alguns tokens poderão ter a mesma posição, por exemplo, se forem sinônimos uns dos outros.

startOffset

integer (int32)

O índice do primeiro caractere do token no texto de entrada.

token

string

O token retornado pelo analisador.

AnalyzeRequest

Especifica alguns componentes de texto e análise usados para dividir esse texto em tokens.

Nome Tipo Description
analyzer

LexicalAnalyzerName

O nome do analisador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um tokenizador. Os parâmetros do tokenizer e do analisador são mutuamente exclusivos.

charFilters

CharFilterName[]

Uma lista opcional de filtros de caracteres a serem usados ao quebrar o texto especificado. Esse parâmetro só pode ser definido ao usar o parâmetro tokenizer.

normalizer

LexicalNormalizerName

O nome do normalizador a ser usado para normalizar o texto fornecido.

text

string

O texto a ser dividido em tokens.

tokenFilters

TokenFilterName[]

Uma lista opcional de filtros de token a serem usados ao quebrar o texto fornecido. Esse parâmetro só pode ser definido ao usar o parâmetro tokenizer.

tokenizer

LexicalTokenizerName

O nome do tokenizador a ser usado para quebrar o texto fornecido. Se esse parâmetro não for especificado, você deverá especificar um analisador. Os parâmetros do tokenizer e do analisador são mutuamente exclusivos.

AnalyzeResult

O resultado do teste de um analisador no texto.

Nome Tipo Description
tokens

AnalyzedTokenInfo[]

A lista de tokens retornados pelo analisador especificado na solicitação.

CharFilterName

Define os nomes de todos os filtros de caracteres suportados pelo mecanismo de pesquisa.

Valor Description
html_strip

Um filtro de caractere que tenta remover constructos HTML. Consulte https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

As informações adicionais do erro de gerenciamento de recursos.

Nome Tipo Description
info

As informações adicionais.

type

string

O tipo de informação adicional.

ErrorDetail

O detalhe do erro.

Nome Tipo Description
additionalInfo

ErrorAdditionalInfo[]

As informações adicionais do erro.

code

string

O código de erro.

details

ErrorDetail[]

Os detalhes do erro.

message

string

A mensagem de erro.

target

string

O destino do erro.

ErrorResponse

Resposta comum de erro para todas as APIs do Azure Resource Manager devolver detalhes de erro em operações falhadas. (Isso também segue o formato de resposta de erro OData.).

Nome Tipo Description
error

ErrorDetail

O objeto de erro.

LexicalAnalyzerName

Define os nomes de todos os analisadores de texto suportados pelo mecanismo de pesquisa.

Valor Description
ar.microsoft

Analisador Microsoft para árabe.

ar.lucene

Analisador Lucene para árabe.

hy.lucene

Analisador Lucene para armênio.

bn.microsoft

Analisador Microsoft para Bangla.

eu.lucene

Analisador Lucene para basco.

bg.microsoft

Analisador Microsoft para búlgaro.

bg.lucene

Analisador de Lucene para búlgaro.

ca.microsoft

Analisador Microsoft para catalão.

ca.lucene

Analisador Lucene para catalão.

zh-Hans.microsoft

Analisador Microsoft para chinês (Simplificado).

zh-Hans.lucene

Analisador Lucene para chinês (simplificado).

zh-Hant.microsoft

Analisador Microsoft para chinês (tradicional).

zh-Hant.lucene

Analisador de Lucene para chinês (tradicional).

hr.microsoft

Analisador Microsoft para croata.

cs.microsoft

Analisador Microsoft para tcheco.

cs.lucene

Analisador de Lucene para o checo.

da.microsoft

Analisador Microsoft para dinamarquês.

da.lucene

Analisador de Lucene para dinamarquês.

nl.microsoft

Analisador Microsoft para holandês.

nl.lucene

Analisador Lucene para holandês.

en.microsoft

Analisador Microsoft para inglês.

en.lucene

Analisador Lucene para inglês.

et.microsoft

Analisador Microsoft para estoniano.

fi.microsoft

Analisador Microsoft para finlandês.

fi.lucene

Analisador de Lucene para finlandês.

fr.microsoft

Analisador Microsoft para francês.

fr.lucene

Analisador de Lucene para francês.

gl.lucene

Analisador Lucene para galego.

de.microsoft

Analisador Microsoft para alemão.

de.lucene

Analisador Lucene para alemão.

el.microsoft

Analisador Microsoft para grego.

el.lucene

Analisador de Lucene para grego.

gu.microsoft

Analisador Microsoft para Gujarati.

he.microsoft

Analisador Microsoft para hebraico.

hi.microsoft

Analisador Microsoft para hindi.

hi.lucene

Analisador de Lucene para Hindi.

hu.microsoft

Analisador Microsoft para húngaro.

hu.lucene

Analisador Lucene para húngaro.

is.microsoft

Analisador Microsoft para islandês.

id.microsoft

Analisador Microsoft para indonésio (Bahasa).

id.lucene

Analisador de Lucene para indonésio.

ga.lucene

Analisador Lucene para irlandês.

it.microsoft

Analisador Microsoft para italiano.

it.lucene

Analisador de Lucene para italiano.

ja.microsoft

Analisador Microsoft para japonês.

ja.lucene

Analisador Lucene para japonês.

kn.microsoft

Analisador Microsoft para canarês.

ko.microsoft

Analisador Microsoft para coreano.

ko.lucene

Analisador de Lucene para coreano.

lv.microsoft

Analisador Microsoft para letão.

lv.lucene

Analisador de Lucene para letão.

lt.microsoft

Analisador Microsoft para lituano.

ml.microsoft

Analisador Microsoft para malaiala.

ms.microsoft

Analisador Microsoft para malaio (latim).

mr.microsoft

Analisador Microsoft para marata.

nb.microsoft

Microsoft analyzer for Norwegian (Bokmål).

no.lucene

Analisador de Lucene para norueguês.

fa.lucene

Analisador de Lucene para persa.

pl.microsoft

Analisador Microsoft para polonês.

pl.lucene

Analisador Lucene para polonês.

pt-BR.microsoft

Analisador Microsoft para português (Brasil).

pt-BR.lucene

Analisador Lucene para português (Brasil).

pt-PT.microsoft

Analisador Microsoft para português (Portugal).

pt-PT.lucene

Analisador Lucene para português (Portugal).

pa.microsoft

Analisador Microsoft para Punjabi.

ro.microsoft

Analisador Microsoft para romeno.

ro.lucene

Analisador de Lucene para romeno.

ru.microsoft

Analisador Microsoft para russo.

ru.lucene

Analisador de Lucene para o russo.

sr-cyrillic.microsoft

Analisador Microsoft para sérvio (cirílico).

sr-latin.microsoft

Analisador Microsoft para sérvio (latim).

sk.microsoft

Analisador Microsoft para eslovaco.

sl.microsoft

Analisador Microsoft para esloveno.

es.microsoft

Analisador Microsoft para espanhol.

es.lucene

Analisador Lucene para espanhol.

sv.microsoft

Analisador Microsoft para sueco.

sv.lucene

Analisador Lucene para sueco.

ta.microsoft

Analisador Microsoft para tâmil.

te.microsoft

Analisador Microsoft para Telugu.

th.microsoft

Analisador Microsoft para tailandês.

th.lucene

Analisador Lucene para tailandês.

tr.microsoft

Analisador Microsoft para turco.

tr.lucene

Analisador Lucene para turco.

uk.microsoft

Analisador Microsoft para ucraniano.

ur.microsoft

Analisador Microsoft para urdu.

vi.microsoft

Analisador Microsoft para vietnamita.

standard.lucene

Analisador Lucene padrão.

standardasciifolding.lucene

Analisador de Lucene Dobrável ASCII padrão. Consulte https://dotnet.territoriali.olinfo.it/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

Trata todo o conteúdo de um campo como um único token. Isso é útil para dados como cep, IDs e alguns nomes de produto. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

Separa texto em termos de forma flexível por meio de um padrão de expressão regular. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

Divide o texto em partes nos pontos onde não há letras e converte o texto resultante para minúsculas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

Divide o texto em letras não letras; Aplica os filtros de token de letras minúsculas e palavras irrelevantes. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

Um analisador que usa o tokenizador de espaço em branco. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

Define os nomes de todos os normalizadores de texto suportados pelo mecanismo de pesquisa.

Valor Description
asciifolding

Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Latino Básico") em seus equivalentes ASCII, se esses equivalentes existirem. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

Remove elisões. Por exemplo, "l'avion" (o plano) será convertido em "avion" (plano). Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

Normaliza o texto do token para minúsculas. Consulte https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

Normalizador padrão, que consiste em letras minúsculas e dobras ascii. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

Normaliza o texto do token para maiúsculas. Consulte https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Define os nomes de todos os tokenizadores suportados pelo mecanismo de pesquisa.

Valor Description
classic

Tokenizador baseado em gramática adequado para processar a maioria dos documentos em idioma europeu. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Tokeniza a entrada de uma borda em n-gramas dos tamanhos fornecidos. Consulte https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Emite a entrada inteira como um único token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Dividir o texto em pontos onde não há letras. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Divide o texto em partes nos pontos onde não há letras e converte o texto resultante para minúsculas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

Divide o texto usando regras específicas de idioma.

microsoft_language_stemming_tokenizer

Divide o texto usando regras específicas de idioma e reduz palavras às suas formas base.

nGram

Tokeniza a entrada em n-gramas dos tamanhos fornecidos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Tokenizador para hierarquias semelhantes a caminhos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Tokenizer que usa a correspondência de padrões regex para construir tokens distintos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Analisador Lucene Padrão; Composto pelo tokenizador padrão, filtro em letras minúsculas e filtro de parada. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Tokeniza URLs e e-mails como um único token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Divide o texto em espaços em branco. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Define os nomes de todos os filtros de token suportados pelo mecanismo de pesquisa.

Valor Description
arabic_normalization

Um filtro de token que aplica o normalizador em árabe para normalizar a ortografia. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

Remove todos os caracteres após um apóstrofo (incluindo o próprio apóstrofo). Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Latino Básico") em seus equivalentes ASCII, se esses equivalentes existirem. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Forma bigrams de termos CJK gerados a partir do tokenizador padrão. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Normaliza as diferenças de largura CJK. Dobra variantes ASCII de largura total no equivalente latim básico, e variantes Katakana de meia largura no Kana equivalente. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Remove possessivos em inglês e de acrônimos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Construa bigramas para termos que ocorrem com frequência durante a indexação. Termos únicos ainda são indexados também, com bigramas sobrepostos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Gera n-gramas dos tamanhos fornecidos a partir da frente ou da parte traseira de um token de entrada. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Remove elisões. Por exemplo, "l'avion" (o plano) será convertido em "avion" (plano). Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Normaliza os caracteres alemães de acordo com a heurística do algoritmo de bola de neve alemão2. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Normaliza o texto em hindi para remover algumas diferenças nas variações ortográficas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Normaliza a representação Unicode do texto nos idiomas indianos. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Emite cada token de entrada duas vezes, uma como palavra-chave e uma vez como palavra-chave. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Um filtro kstem de alto desempenho para inglês. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Remove palavras muito longas ou muito curtas. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Limita o número de tokens durante a indexação. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Normaliza o texto do token para letras minúsculas. Consulte https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Gera n-gramas dos tamanhos determinados. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Aplica a normalização para o persa. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Crie tokens para correspondências fonéticas. Consulte https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Usa o algoritmo porter para transformar o fluxo de token. Consulte http://tartarus.org/~martin/PorterStemmer

reverse

Inverte a cadeia de caracteres do token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

Normaliza o uso de caracteres escandinavos intercambiáveis. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

Dobra caracteres escandinavos Ã¥ã... ã¤Ã¦Ã"Æ-a> e öÖà ̧à ̃-o>. Também discrimina o uso de vogais duplas aa, ae, ao, oe e oo, deixando apenas a primeira. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

Cria combinações de tokens como um único token. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Um filtro que resulta em palavras usando um lematizador gerado por Bola de Neve. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Normaliza a representação Unicode do texto Sorani. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Filtro de lematização específico da linguagem. Consulte https://dotnet.territoriali.olinfo.it/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Remove palavras irrelevantes de um fluxo de tokens. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Corta o espaço em branco à esquerda e à direita de uma cadeia de tokens. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Trunca os termos para um comprimento específico. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Filtra os tokens com o mesmo texto como o token anterior. Consulte http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Normaliza o texto do token para letras maiúsculas. Consulte https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Divide as palavras em subpalavras e realiza transformações opcionais em grupos de subpalavras.