Métricas

Imprimir

Aviso sobre o uso das métricas

As métricas apresentadas neste sistema têm caráter experimental e exploratório. Elas resultam de uma proposta metodológica ainda em desenvolvimento e, até o momento, não passaram por validação empírica ampla ou sistemática (por exemplo, testes de confiabilidade interanotador em larga escala, validação externa ou comparação extensiva com corpora de referência). Assim, devem ser entendidas como instrumentos de investigação e apoio analítico, e não como medidas definitivas ou conclusivas.

Os indicadores principais são:

N — número de ocorrências (por 10.000 caracteres)
Corresponde à frequência de ocorrência de um fenômeno no texto, normalizada pela extensão do documento. A normalização evita que textos mais longos apresentem valores artificialmente maiores apenas por seu tamanho, permitindo comparações entre documentos de dimensões diferentes.

C — cobertura
Mede a proporção de caracteres do texto incluídos em segmentos anotados para determinado fenômeno em relação ao total de caracteres do documento. Diferentemente de N, que expressa quantas vezes algo ocorre, a cobertura expressa quanto do texto é ocupado por esse fenômeno.

i — índices
Os índices combinam frequência e cobertura por meio de uma média harmônica (F-score), dada por i = (2 * N * C) / (N + C). O objetivo desse cálculo é evitar interpretações enviesadas quando apenas um dos fatores é alto. Por exemplo, um fenômeno pode aparecer muitas vezes em trechos muito curtos (alta frequência e baixa cobertura) ou poucas vezes em trechos muito extensos (baixa frequência e alta cobertura). O índice busca identificar situações em que o fenômeno é ao mesmo tempo recorrente e distribuído ao longo do texto, reduzindo o peso de valores extremos em apenas uma dimensão.

Outros indicadores específicos
Algumas camadas incluem métricas adicionais (proporções internas, razões entre subtipos, distribuições por etiqueta etc.), destinadas a caracterizar qualitativamente a forma de ocorrência do fenômeno, e não apenas sua intensidade global.

Sugestões de novos indicadores são bem-vindas. Sempre que possível, eles poderão ser incorporados ao sistema, a depender da viabilidade de implementação — especialmente disponibilidade de dados anotados e custo computacional de cálculo.

Os resultados dependem diretamente do processo de anotação: granularidade dos segmentos, extensão das marcações, critérios de segmentação e conjunto de etiquetas e subclassificações adotados. Esses parâmetros também estão em revisão contínua e podem ser ajustados ao longo do desenvolvimento do projeto.

Por fim, os valores apresentados devem ser utilizados de maneira crítica. Eles não constituem, por si só, evidências conclusivas da ocorrência de um fenômeno discursivo. Os indicadores são sensíveis a múltiplas variáveis — gênero textual, estilo individual, tamanho do documento, distribuição temática, qualidade da anotação, entre outras — e precisam sempre ser interpretados em conjunto com a leitura qualitativa do material analisado.

Agressividade argumentativa

Definição:
Mede a proporção de segmentos argumentativos classificados como agressivos em relação ao total de segmentos argumentativos do texto. Indica com que frequência a argumentação assume formato de ataque, desqualificação, hostilidade ou confronto direto (conforme a definição operacional adotada na anotação)

Como ler:
0 = nenhum segmento argumentativo agressivo.
1 = todos os segmentos argumentativos são agressivos.
Valores mais altos = maior presença de agressividade na argumentação.
Valores mais baixos = argumentação majoritariamente não agressiva.

Cálculo:
AA = G / S
onde:
G = número de segmentos argumentativos agressivos
S = número total de segmentos argumentativos

Interpretação:
Valores maiores → texto mais “agressivo” (ataques pessoais, ameaças, distorções).
Valores menores → texto menos “agressivo” (argumentação mais construtiva).

Observação:
Depende do conjunto de argumentos classificados como “agressivos” no mapeamento de etiquetas.

Cobertura argumentativa

Definição:
Mede a proporção do texto efetivamente ocupada por trechos marcados como “Argumentação”. Indica quanto do documento, em caracteres, está coberto por marcação argumentativa.

Como ler:
0 = nenhum caractere do texto foi marcado como argumentação.
1 = todo o texto foi marcado como argumentação.
Valores mais altos = maior parcela do texto dedicada à argumentação.
Valores mais baixos = argumentação pontual, localizada ou ausente.

Cálculo:
CA = A / L
onde:
A = número de caracteres marcados como Argumentação
L = número de caracteres do documento

Interpretação:
Valores altos indicam que a argumentação se estende por uma grande parte do documento; valores baixos indicam que a argumentação aparece em ilhas/trechos delimitados (ou não aparece).

Observação:
Por ser uma proporção, é sensível a como a camada é anotada (marcações longas vs. curtas). Não distingue muitos argumentos curtos de poucos argumentos longos — isso é capturado pela incidência.

Cobertura de deslocamento semântico

Definição:
Mede a proporção do texto ocupada por trechos classificados como deslocamento semântico dentro da camada de figuração.

Como ler:
0 = nenhum caractere marcado como deslocamento semântico.
1 = todo o texto marcado como deslocamento semântico.
Valores mais altos = deslocamento semântico abrangente.
Valores mais baixos = ocorrência pontual/localizada.

Cálculo:
CDesl = A / L
onde:
A = número de caracteres marcados como deslocamento semântico
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que deslocamentos semânticos se estendem por grandes trechos; cobertura baixa indica ocorrências concentradas.

Observação:
Combine com incidência para distinguir poucos trechos longos de muitos trechos curtos.

Cobertura de encadeamento

Definição:
Mede a proporção do texto ocupada por trechos classificados como encadeamento dentro da camada de figuração.

Como ler:
0 = nenhum caractere marcado como encadeamento.
1 = todo o texto marcado como encadeamento.
Valores mais altos = encadeamento abrangente.
Valores mais baixos = encadeamento pontual.

Cálculo:
CEncad = A / L
onde:
A = número de caracteres marcados como encadeamento
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que encadeamentos atravessam grandes trechos; cobertura baixa indica ocorrências localizadas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de atribuição de responsabilidade

Definição:
Mede a proporção do texto ocupada por trechos ligados à atribuição de responsabilidade (somando responsabilização, desresponsabilização e responsabilização difusa) dentro da camada de encenação.

Como ler:
0 = nenhum caractere marcado como atribuição de responsabilidade.
1 = todo o texto marcado como atribuição de responsabilidade.
Valores mais altos = atribuição de responsabilidade abrangente.
Valores mais baixos = ocorrência pontual/localizada.

Cálculo:
CResp = A / L
onde:
A = número total de caracteres marcados como atribuição de responsabilidade (soma dos subtipos)
L = número total de caracteres do documento

Interpretação:
Cobertura alta sugere que a imputação de papéis de responsabilidade atravessa grande parte do texto; cobertura baixa sugere ocorrência localizada.

Observação:
Como é proporção, combine com incidência para distinguir poucos trechos longos de muitos trechos curtos. A comparabilidade depende da consistência na marcação dos subtipos.

Cobertura de estratégias de autorregulação

Definição:
Mede a proporção do texto ocupada por trechos classificados como autorregulação dentro da camada de regulação.

Como ler:
0 = nenhum caractere marcado como autorregulação.
1 = todo o texto marcado como autorregulação.
Valores mais altos = autorregulação abrangente.
Valores mais baixos = autorregulação pontual/localizada.

Cálculo:
CAuto = A / L
onde:
A = número de caracteres marcados como autorregulação
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que autorregulações atravessam grandes trechos; cobertura baixa indica ocorrências concentradas.

Observação:
Combine com incidência para distinguir poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de avaliação

Definição:
Mede a proporção do texto ocupada por trechos classificados como avaliação dentro da camada de modalização.

Como ler:
0 = nenhum caractere marcado como avaliação.
1 = todo o texto marcado como avaliação.
Valores mais altos = avaliação abrangente.
Valores mais baixos = avaliação pontual/localizada.

Cálculo:
CAval = A / L
onde:
A = número de caracteres marcados como avaliação
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a avaliação atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de citação

Definição:
Mede a proporção do texto ocupada por trechos classificados como citação dentro da camada de inscrição.

Como ler:
0 = nenhum caractere marcado como citação.
1 = todo o texto marcado como citação.
Valores mais altos = citação abrangente.
Valores mais baixos = citação pontual/localizada.

Cálculo:
CCit = A / L
onde:
A = número de caracteres marcados como citação
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a citação se estende por grandes trechos; cobertura baixa indica ocorrência localizada.

Observação:
Combine com incidência para distinguir poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de controle

Definição:
Mede a proporção do texto efetivamente ocupada por trechos marcados como “Controle”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de controle.

Como ler:
0 = nenhum caractere do texto foi marcado como Controle.
1 = todo o texto foi marcado como Controle.
Valores mais altos = maior parcela do texto dedicada a estratégias de controle.
Valores mais baixos = controle pontual, localizado ou ausente.

Cálculo:
CC = A / L
onde:
A = número de caracteres marcados como Controle
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que o controle se estende por grande parte do texto; cobertura baixa indica presença localizada (ou inexistente) de controle.

Observação:
Por ser uma proporção, não distingue muitos segmentos curtos de poucos segmentos longos. Para isso, combine com a incidência por 10.000 caracteres.

Cobertura de estratégias de deslegitimação

Definição:
Mede a proporção do texto ocupada por trechos classificados como deslegitimação dentro da camada de controle.

Como ler:
0 = nenhum caractere marcado como deslegitimação.
1 = todo o texto marcado como deslegitimação.
Valores mais altos = deslegitimação abrangente.
Valores mais baixos = deslegitimação pontual.

Cálculo:
CDesleg = A / L
onde:
A = número de caracteres marcados como deslegitimação
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a deslegitimação se estende por grandes trechos; cobertura baixa indica ocorrência localizada.

Observação:
Combine com incidência para diferenciar poucos trechos longos (baixa incidência/alta cobertura) de muitos trechos curtos (alta incidência/baixa cobertura).

Cobertura de estratégias de desubjetivação

Definição:
Mede a proporção do texto ocupada por trechos classificados como desubjetivação dentro da camada de subjetivação.

Como ler:
0 = nenhum caractere marcado como desubjetivação.
1 = todo o texto marcado como desubjetivação.
Valores mais altos = desubjetivação abrangente.
Valores mais baixos = desubjetivação pontual/localizada.

Cálculo:
CDesubj = A / L
onde:
A = número de caracteres marcados como desubjetivação
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a impessoalização/apagamento atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de dramatização

Definição:
Mede a proporção do texto ocupada por trechos classificados como dramatização dentro da camada de encenação.

Como ler:
0 = nenhum caractere marcado como dramatização.
1 = todo o texto marcado como dramatização.
Valores mais altos = dramatização abrangente.
Valores mais baixos = dramatização pontual.

Cálculo:
CDrama = A / L
onde:
A = número de caracteres marcados como dramatização
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a dramatização se estende por grandes trechos; cobertura baixa indica ocorrência localizada.

Observação:
Combine com incidência para distinguir poucos trechos longos (baixa incidência/alta cobertura) de muitos trechos curtos (alta incidência/baixa cobertura).

Cobertura de estratégias de encenação

Definição:
Mede a proporção do texto ocupada por trechos marcados como “Encenação”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de encenação.

Como ler:
0 = nenhum caractere marcado como encenação.
1 = todo o texto marcado como encenação.
Valores mais altos = encenação abrangente e distribuída.
Valores mais baixos = encenação pontual/localizada.

Cálculo:
CE = A / L
onde:
A = número de caracteres marcados como Encenação
L = número total de caracteres do documento

Interpretação:
Cobertura alta sugere que a encenação atravessa uma parcela ampla do texto; cobertura baixa sugere que aparece em momentos específicos (ou não aparece).

Observação:
Como é proporção, não diferencia muitos segmentos curtos de poucos segmentos longos. Para isso, combine com a incidência por 10.000 caracteres.

Cobertura de estratégias de enquadramento

Definição:
Mede a proporção do texto ocupada por trechos classificados como enquadramento dentro da camada de inscrição.

Como ler:
0 = nenhum caractere marcado como enquadramento.
1 = todo o texto marcado como enquadramento.
Valores mais altos = enquadramento abrangente.
Valores mais baixos = enquadramento pontual/localizado.

Cálculo:
CEnq = A / L
onde:
A = número de caracteres marcados como enquadramento
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que o enquadramento atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de figuração

Definição:
Mede a proporção do texto ocupada por trechos marcados como “Figuração”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de figuração.

Como ler:
0 = nenhum caractere marcado como figuração.
1 = todo o texto marcado como figuração.
Valores mais altos = figuração abrangente e distribuída.
Valores mais baixos = figuração pontual/localizada.

Cálculo:
CFig = A / L
onde:
A = número de caracteres marcados como Figuração
L = número total de caracteres do documento

Interpretação:
Cobertura alta sugere que a figuração atravessa grande parte do texto; cobertura baixa sugere ocorrências localizadas (ou inexistentes).

Observação:
Como é proporção, não distingue muitos segmentos curtos de poucos segmentos longos. Combine com a incidência por 10.000 caracteres.

Cobertura de estratégias de formulaicidade

Definição:
Mede a proporção do texto ocupada por trechos classificados como formulaicidade dentro da camada de inscrição.

Como ler:
0 = nenhum caractere marcado como formulaicidade.
1 = todo o texto marcado como formulaicidade.
Valores mais altos = formulaicidade abrangente.
Valores mais baixos = formulaicidade pontual/localizada.

Cálculo:
CForm = A / L
onde:
A = número de caracteres marcados como formulaicidade
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que fórmulas/padrões se estendem por grandes trechos; cobertura baixa indica ocorrências concentradas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de graduação

Definição:
Mede a proporção do texto ocupada por trechos classificados como graduação dentro da camada de modalização.

Como ler:
0 = nenhum caractere marcado como graduação.
1 = todo o texto marcado como graduação.
Valores mais altos = graduação abrangente.
Valores mais baixos = graduação pontual/localizada.

Cálculo:
CGrad = A / L
onde:
A = número de caracteres marcados como graduação
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a graduação atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de implicitação

Definição:
Mede a proporção do texto ocupada por trechos marcados como “Implicitação”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de implicitação.

Como ler:
0 = nenhum caractere marcado como implicitação.
1 = todo o texto marcado como implicitação.
Valores mais altos = implicitação abrangente e distribuída.
Valores mais baixos = implicitação pontual/localizada.

Cálculo:
CImpl = A / L
onde:
A = número de caracteres marcados como Implicitação
L = número total de caracteres do documento

Interpretação:
Cobertura alta sugere que a implicitação atravessa grande parte do texto; cobertura baixa sugere ocorrências localizadas.

Observação:
Como é proporção, não distingue muitos segmentos curtos de poucos segmentos longos. Combine com a incidência por 10.000 caracteres.

Cobertura de estratégias de inferência

Definição:
Mede a proporção do texto ocupada por trechos classificados como inferência dentro da camada de implicitação.

Como ler:
0 = nenhum caractere marcado como inferência.
1 = todo o texto marcado como inferência.
Valores mais altos = inferência abrangente.
Valores mais baixos = inferência pontual/localizada.

Cálculo:
CInfer = A / L
onde:
A = número de caracteres marcados como inferência
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que inferências atravessam grandes trechos; cobertura baixa indica ocorrências concentradas em poucos pontos.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de inscrição

Definição:
Mede a proporção do texto ocupada por trechos marcados como “Inscrição”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de inscrição.

Como ler:
0 = nenhum caractere marcado como inscrição.
1 = todo o texto marcado como inscrição.
Valores mais altos = inscrição abrangente e distribuída.
Valores mais baixos = inscrição pontual/localizada.

Cálculo:
CInsc = A / L
onde:
A = número de caracteres marcados como Inscrição
L = número total de caracteres do documento

Interpretação:
Cobertura alta sugere que a inscrição atravessa uma parcela ampla do texto; cobertura baixa sugere ocorrências localizadas.

Observação:
Como é proporção, combine com incidência para distinguir poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de insinuação

Definição:
Mede a proporção do texto ocupada por trechos classificados como insinuação dentro da camada de implicitação.

Como ler:
0 = nenhum caractere marcado como insinuação.
1 = todo o texto marcado como insinuação.
Valores mais altos = insinuação abrangente.
Valores mais baixos = insinuação pontual/localizada.

Cálculo:
CInsin = A / L
onde:
A = número de caracteres marcados como insinuação
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a insinuação se estende por trechos amplos; cobertura baixa indica ocorrências concentradas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de legitimação

Definição:
Mede a proporção do texto ocupada por trechos classificados como legitimação dentro da camada de controle. Indica quanto do documento, em caracteres, está coberto por marcação de legitimação.

Como ler:
0 = nenhum caractere marcado como legitimação.
1 = todo o texto marcado como legitimação.
Valores mais altos = legitimação distribuída/abrangente.
Valores mais baixos = legitimação pontual/localizada.

Cálculo:
CLeg = A / L
onde:
A = número de caracteres marcados como legitimação
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a legitimação ocupa porções extensas do texto; cobertura baixa indica aparições concentradas em segmentos específicos.

Observação:
Combine com a incidência: cobertura alta com baixa incidência sugere poucos trechos longos; incidência alta com baixa cobertura sugere muitos trechos curtos.

Cobertura de estratégias de modalização

Definição:
Mede a proporção do texto ocupada por trechos marcados como “Modalização”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de modalização.

Como ler:
0 = nenhum caractere marcado como modalização.
1 = todo o texto marcado como modalização.
Valores mais altos = modalização abrangente e distribuída.
Valores mais baixos = modalização pontual/localizada.

Cálculo:
CMod = A / L
onde:
A = número de caracteres marcados como Modalização
L = número total de caracteres do documento

Interpretação:
Cobertura alta sugere que a modalização atravessa grande parte do texto; cobertura baixa sugere ocorrências localizadas.

Observação:
Como é proporção, combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de modalização deontica

Definição:
Mede a proporção do texto ocupada por trechos classificados como modalização deôntica dentro da camada de modalização.

Como ler:
0 = nenhum caractere marcado como deôntica.
1 = todo o texto marcado como deôntica.
Valores mais altos = deôntica abrangente.
Valores mais baixos = deôntica pontual/localizada.

Cálculo:
CDeon = A / L
onde:
A = número de caracteres marcados como modalização deôntica
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a prescritividade/obrigação atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de modalização epistêmica

Definição:
Mede a proporção do texto ocupada por trechos classificados como modalização epistêmica dentro da camada de modalização.

Como ler:
0 = nenhum caractere marcado como epistêmica.
1 = todo o texto marcado como epistêmica.
Valores mais altos = epistêmica abrangente.
Valores mais baixos = epistêmica pontual/localizada.

Cálculo:
CEpist = A / L
onde:
A = número de caracteres marcados como modalização epistêmica
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a marcação de certeza/dúvida atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de naturalização

Definição:
Mede a proporção do texto ocupada por trechos classificados como naturalização dentro da camada de controle.

Como ler:
0 = nenhum caractere marcado como naturalização.
1 = todo o texto marcado como naturalização.
Valores mais altos = naturalização abrangente.
Valores mais baixos = naturalização pontual.

Cálculo:
CNat = A / L
onde:
A = número de caracteres marcados como naturalização
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a naturalização atravessa porções extensas do texto; cobertura baixa indica ocorrências concentradas em segmentos específicos.

Observação:
Combine com incidência para distinguir poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de polarização

Definição:
Mede a proporção do texto ocupada por trechos classificados como polarização dentro da camada de encenação.

Como ler:
0 = nenhum caractere marcado como polarização.
1 = todo o texto marcado como polarização.
Valores mais altos = polarização abrangente.
Valores mais baixos = polarização pontual.

Cálculo:
CPol = A / L
onde:
A = número de caracteres marcados como polarização
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a polarização atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de pré-construído

Definição:
Mede a proporção do texto ocupada por trechos classificados como pré-construído dentro da camada de inscrição.

Como ler:
0 = nenhum caractere marcado como pré-construído.
1 = todo o texto marcado como pré-construído.
Valores mais altos = pré-construído abrangente.
Valores mais baixos = pré-construído pontual/localizado.

Cálculo:
CPre = A / L
onde:
A = número de caracteres marcados como pré-construído
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que o pré-construído atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de pressuposição

Definição:
Mede a proporção do texto ocupada por trechos classificados como pressuposição dentro da camada de implicitação.

Como ler:
0 = nenhum caractere marcado como pressuposição.
1 = todo o texto marcado como pressuposição.
Valores mais altos = pressuposição abrangente.
Valores mais baixos = pressuposição pontual/localizada.

Cálculo:
CPresup = A / L
onde:
A = número de caracteres marcados como pressuposição
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a pressuposição atravessa porções extensas do texto; cobertura baixa indica ocorrências concentradas em poucos trechos.

Observação:
Como é proporção, combine com incidência para distinguir poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de problematização

Definição:
Mede a proporção do texto ocupada por trechos classificados como problematização dentro da camada de controle.

Como ler:
0 = nenhum caractere marcado como problematização.
1 = todo o texto marcado como problematização.
Valores mais altos = problematização abrangente.
Valores mais baixos = problematização pontual.

Cálculo:
CProb = A / L
onde:
A = número de caracteres marcados como problematização
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a problematização atravessa boa parte do texto; cobertura baixa indica que aparece em pontos específicos.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de progressão

Definição:
Mede a proporção do texto ocupada por trechos marcados como “Progressão”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de progressão.

Como ler:
0 = nenhum caractere marcado como progressão.
1 = todo o texto marcado como progressão.
Valores mais altos = progressão abrangente.
Valores mais baixos = progressão pontual/localizada.

Cálculo:
CProg = A / L
onde:
A = número de caracteres marcados como Progressão
L = número total de caracteres do documento

Interpretação:
Cobertura alta sugere que a organização do avanço textual atravessa grande parte do documento; cobertura baixa sugere ocorrências localizadas.

Observação:
Como é proporção, combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de regulação

Definição:
Mede a proporção do texto ocupada por trechos marcados como “Regulação”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de regulação.

Como ler:
0 = nenhum caractere marcado como regulação.
1 = todo o texto marcado como regulação.
Valores mais altos = regulação abrangente.
Valores mais baixos = regulação pontual/localizada.

Cálculo:
CReg = A / L
onde:
A = número de caracteres marcados como Regulação
L = número total de caracteres do documento

Interpretação:
Cobertura alta sugere que a regulação atravessa grande parte do texto; cobertura baixa sugere ocorrências localizadas.

Observação:
Como é proporção, combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de regulação dialógica

Definição:
Mede a proporção do texto ocupada por trechos classificados como regulação dialógica dentro da camada de regulação.

Como ler:
0 = nenhum caractere marcado como regulação dialógica.
1 = todo o texto marcado como regulação dialógica.
Valores mais altos = regulação dialógica abrangente.
Valores mais baixos = regulação dialógica pontual/localizada.

Cálculo:
CDialog = A / L
onde:
A = número de caracteres marcados como regulação dialógica
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a regulação do outro/interlocução atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.

Observação:
Combine com incidência para distinguir poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de subjetivação

Definição:
Mede a proporção do texto ocupada por trechos marcados como “Subjetivação”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de subjetivação.

Como ler:
0 = nenhum caractere marcado como subjetivação.
1 = todo o texto marcado como subjetivação.
Valores mais altos = subjetivação abrangente.
Valores mais baixos = subjetivação pontual/localizada.

Cálculo:
CSubj = A / L
onde:
A = número de caracteres marcados como Subjetivação
L = número total de caracteres do documento

Interpretação:
Cobertura alta sugere que a subjetivação atravessa grande parte do texto; cobertura baixa sugere ocorrências localizadas.

Observação:
Como é proporção, combine com incidência para distinguir poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de subjetivação total

Definição:
Mede a proporção do texto ocupada por trechos classificados como subjetivação total dentro da camada de subjetivação.

Como ler:
0 = nenhum caractere marcado como subjetivação total.
1 = todo o texto marcado como subjetivação total.
Valores mais altos = subjetivação total abrangente.
Valores mais baixos = subjetivação total pontual/localizada.

Cálculo:
CPess = A / L
onde:
A = número de caracteres marcados como subjetivação total
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a pessoalização forte atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de estratégias de vitimização

Definição:
Mede a proporção do texto ocupada por trechos classificados como vitimização dentro da camada de encenação.

Como ler:
0 = nenhum caractere marcado como vitimização.
1 = todo o texto marcado como vitimização.
Valores mais altos = vitimização abrangente.
Valores mais baixos = vitimização pontual.

Cálculo:
CVit = A / L
onde:
A = número de caracteres marcados como vitimização
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a vitimização atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de interpelação

Definição:
Mede a proporção do texto ocupada por trechos classificados como interpelação dentro da camada de figuração.

Como ler:
0 = nenhum caractere marcado como interpelação.
1 = todo o texto marcado como interpelação.
Valores mais altos = interpelação abrangente.
Valores mais baixos = interpelação pontual.

Cálculo:
CInterp = A / L
onde:
A = número de caracteres marcados como interpelação
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que a interpelação atravessa grandes trechos; cobertura baixa indica ocorrências localizadas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de inversão

Definição:
Mede a proporção do texto ocupada por trechos classificados como inversão dentro da camada de figuração.

Como ler:
0 = nenhum caractere marcado como inversão.
1 = todo o texto marcado como inversão.
Valores mais altos = inversão abrangente.
Valores mais baixos = inversão pontual.

Cálculo:
CInv = A / L
onde:
A = número de caracteres marcados como inversão
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que inversões se estendem por grandes trechos; cobertura baixa indica ocorrências localizadas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de repetição

Definição:
Mede a proporção do texto ocupada por trechos classificados como repetição dentro da camada de figuração.

Como ler:
0 = nenhum caractere marcado como repetição.
1 = todo o texto marcado como repetição.
Valores mais altos = repetição abrangente.
Valores mais baixos = repetição pontual.

Cálculo:
CRep = A / L
onde:
A = número de caracteres marcados como repetição
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que repetições atravessam grandes trechos; cobertura baixa indica ocorrências localizadas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de supressão

Definição:
Mede a proporção do texto ocupada por trechos classificados como supressão dentro da camada de figuração.

Como ler:
0 = nenhum caractere marcado como supressão.
1 = todo o texto marcado como supressão.
Valores mais altos = supressão abrangente.
Valores mais baixos = supressão pontual.

Cálculo:
CSupr = A / L
onde:
A = número de caracteres marcados como supressão
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que supressões atravessam grandes trechos; cobertura baixa indica ocorrências localizadas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Cobertura de transgressão

Definição:
Mede a proporção do texto ocupada por trechos classificados como transgressão dentro da camada de figuração.

Como ler:
0 = nenhum caractere marcado como transgressão.
1 = todo o texto marcado como transgressão.
Valores mais altos = transgressão abrangente.
Valores mais baixos = transgressão pontual.

Cálculo:
CTransg = A / L
onde:
A = número de caracteres marcados como transgressão
L = número total de caracteres do documento

Interpretação:
Cobertura alta indica que transgressões atravessam grandes trechos; cobertura baixa indica ocorrências localizadas.

Observação:
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.

Complexidade inferencial

Definição:
Encadeamento/continuidade de marcas argumentativas ao longo do texto por “cadeias” de proximidade. Resume a conectividade e a “teia” argumentativa (quantas cadeias existem e quão longas elas são).

Como ler:
— → camada Argumentação não foi anotada
nº de cadeias → quantas cadeias foram identificadas
comprimento médio/máximo → tamanho (nº de eventos) das cadeias
gap (G) → tolerância em caracteres para unir eventos na mesma cadeia argumentativa (padrão = 120)

Interpretação:
Mais cadeias → mais encadeamento argumentativo ao longo do texto.
Cadeias mais longas → argumentação mais complexa e interconectada.

Observação:
A métrica depende do parâmetro de proximidade (gap) e da densidade/segmentação da anotação.

Densidade lexical

Definição:
Proporção de palavras de conteúdo (substantivos, adjetivos, verbos e advérbios) no texto em relação ao total. Indica quanta “informação lexical” o texto carrega, em oposição a palavras funcionais (preposições, determinantes, pronomes etc.).

Como ler:
Faixas úteis (aprox.):
0,30-0,40 → fala/coloquialidade, narrativa simples
0,40-0,50 → informativo geral
0,50-0,60 → acadêmico/técnico (alta carga de conteúdo)
0,60+ → muito denso (lista técnica, texto altamente nominal)

Cálculo:
Densidade lexical = (tokens de conteúdo) / (tokens totais)

Interpretação:
Mais alta → texto mais informativo/terminológico (acadêmico, técnico, jornalístico denso).
Mais baixa → texto mais conversacional, narrativo ou com muita estrutura funcional.

Observação:
Depende da etiquetagem morfossintática (POS tagging) e do que você define como “conteúdo”.

Desresponsabilização

Definição:
Mede a incidência de trechos que retiram, atenuam ou negam responsabilidade de um agente/ator, normalizando pela extensão do documento. Expressa quantas ocorrências de desresponsabilização aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhuma desresponsabilização identificada.
Valores mais altos = desresponsabilização mais frequente.
Valores mais baixos = desresponsabilização rara ou ausente.

Cálculo:
Desresp10k = (S * 10000) / L
onde:
S = número de segmentos classificados como desresponsabilização
L = número total de caracteres do documento

Interpretação:
Valores altos indicam maior recorrência de movimentos que deslocam culpa, justificam, isentam ou minimizam agência/responsabilidade na cena discursiva.

Observação:
Métrica de incidência específica (por 10.000 caracteres). Deve ser interpretada junto de responsabilização e responsabilização difusa para caracterizar o “regime de imputação” do texto.

Dis legomena

Definição:
Palavras que aparecem exatamente duas vezes no texto (frequência = 2).
Complementa o hapax: indica repetição mínima (itens que reaparecem uma vez), ajudando a diferenciar texto muito “disperso” de texto com algum reaproveitamento de termos.

Como ler:
Faixa típica (dis ratio, aprox.):
0,04-0,08 → comum em muitos textos
Acima disso pode indicar reutilização de um conjunto de termos-chave.

Cálculo:
Dis legomena = número de palavras com frequência 2
Dis ratio = Dis / N
N = número total de tokens (palavras)

Interpretação:
Quanto maior, maior a presença de repetição mínima (itens que aparecem duas vezes), sugerindo algum reforço terminológico/temático.

Observação:
Em textos mais técnicos/argumentativos pode subir (terminologia reaparece).

Distribuição de entidades nomeadas (NER)

Definição:
Identificação automática de referências a pessoas, lugares, instituições e outros referentes específicos no texto. A distribuição por categoria mostra o “eixo referencial” do texto: sobre quem/onde/o quê o discurso se ancora.

Como ler:
Categorias típicas:
• PER → pessoas
• ORG → organizações/instituições
• LOC → lugares geográficos
• MISC → outros nomes próprios (eventos, leis, programas, obras etc.)

Cálculo:
NER = aplicar modelo de reconhecimento de entidades nomeadas e contar ocorrências (por categoria).
(Agregação típica: contagem absoluta e/ou por 1000 tokens.)

Interpretação:
Muitas PER → discurso centrado em atores/agentes.
Muitas ORG → institucional/administrativo.
Muitas LOC → contextualização espacial/histórica.
Muitas MISC → texto temático especializado.

Observação:
NER não mede diversidade lexical comum, mas densidade referencial. Um texto pode ser lexicalmente simples e altamente referencial (ex.: notícia política).

Distribuição de estratégias de controle

Definição:
Mapa de frequências por tipo de estratégia de controle. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Controle”, permitindo identificar quais estratégias predominam.

Como ler:
Resultado em formato de lista/mapa (tipo → contagem).
Valores mais altos em um tipo = aquele tipo ocorre mais no documento.
A leitura é comparativa: observe os tipos dominantes e sua concentração.

Cálculo:
DControle = {tipo: contagem, ...}
(estrutura: rótulo/tipo de controle → número de ocorrências)

Interpretação:
Permite caracterizar o “perfil” do controle no texto (quais procedimentos são mais ativados), complementando o índice global ao indicar “como” o controle se realiza.

Observação:
A interpretação depende do inventário de rótulos/tipos e de como foram definidos. Recomenda-se comparar documentos do mesmo gênero e sob as mesmas diretrizes de anotação.

Distribuição de estratégias de encenação

Definição:
Mapa de frequências por tipo de estratégia de encenação. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Encenação”, permitindo identificar quais estratégias predominam.

Cálculo:
DEnc = {tipo: contagem, ...}
(estrutura: rótulo/tipo de encenação → número de ocorrências)

Interpretação:
Permite caracterizar o perfil da encenação no texto (por exemplo, maior peso de dramatização, polarização, vitimização ou atribuição de responsabilidade), complementando os índices globais.

Observação:
A interpretação depende do inventário de rótulos e de suas definições. A visualização pode priorizar os tipos mais frequentes (ex.: “top 10”), conforme a forma de exibição adotada.

Distribuição de estratégias de implicitação

Definição:
Mapa de frequências por tipo de estratégia de implicitação. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Implicitação”, permitindo identificar quais procedimentos predominam.

Cálculo:
DImpl = {tipo: contagem, ...}
(estrutura: rótulo/tipo de implicitação → número de ocorrências)

Interpretação:
Permite caracterizar o perfil de implicitação do texto (por exemplo, maior peso de pressuposições, insinuações ou inferências), complementando o índice global.

Observação:
A interpretação depende do inventário de rótulos e de suas definições. A visualização pode destacar os tipos mais frequentes (ex.: “top 10”), conforme a forma de exibição adotada.

Distribuição de estratégias de inscrição

Definição:
Mapa de frequências por tipo de estratégia de inscrição. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Inscrição”, permitindo identificar quais procedimentos predominam.

Cálculo:
DInsc = {tipo: contagem, ...}
(estrutura: rótulo/tipo de inscrição → número de ocorrências)

Interpretação:
Permite caracterizar o perfil de inscrição do texto (por exemplo, maior peso de citação, enquadramento, formulaicidade, pré-construído), complementando o índice global.

Distribuição de estratégias de modalização

Definição:
Mapa de frequências por tipo de estratégia de modalização. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Modalização”, permitindo identificar quais procedimentos predominam.

Cálculo:
DMod = {tipo: contagem, ...}
(estrutura: rótulo/tipo de modalização → número de ocorrências)

Interpretação:
Permite caracterizar o perfil modal do texto (por exemplo, maior peso de avaliação, graduação, deôntica ou epistêmica), complementando índices globais.

Observação:
A interpretação depende do inventário de rótulos e de suas definições. A visualização pode destacar os tipos mais frequentes, conforme a forma de exibição adotada.

Distribuição de estratégias de progressão

Definição:
Mapa de frequências por tipo de estratégia de progressão. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Progressão”.

Como ler:
Resultado em formato de lista/mapa (tipo → contagem).
Valores mais altos em um tipo = aquele tipo ocorre mais.
A leitura é comparativa: observe os tipos dominantes.

Cálculo:
DProg = {tipo: contagem, ...}
(estrutura: rótulo/tipo de progressão → número de ocorrências)

Interpretação:
Ajuda a identificar como o texto avança (por quais movimentos/etapas), complementando índices globais ao indicar “o tipo” de progressão predominante.

Observação:
A interpretação depende do inventário de rótulos e de suas definições. Compare documentos sob o mesmo protocolo.

Distribuição de estratégias de regulação

Definição:
Mapa de frequências por tipo de estratégia de regulação. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Regulação”.

Como ler:
Resultado em formato de lista/mapa (tipo → contagem).
Valores mais altos em um tipo = aquele tipo ocorre mais.
A leitura é comparativa: observe os tipos dominantes.

Cálculo:
DReg = {tipo: contagem, ...}
(estrutura: rótulo/tipo de regulação → número de ocorrências)

Interpretação:
Ajuda a caracterizar como o texto se regula (por quais procedimentos), complementando índices globais ao indicar “o tipo” de regulação predominante.

Observação:
A interpretação depende do inventário de rótulos e de suas definições. Compare documentos sob o mesmo protocolo.

Distribuição de estratégias de subjetivação

Definição:
Mapa de frequências por tipo de estratégia de subjetivação. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Subjetivação”.

Como ler:
Resultado em formato de lista/mapa (tipo → contagem).
Valores mais altos em um tipo = aquele tipo ocorre mais.
A leitura é comparativa: observe os tipos dominantes.

Cálculo:
DSubj = {tipo: contagem, ...}
(estrutura: rótulo/tipo de subjetivação → número de ocorrências)

Interpretação:
Ajuda a caracterizar o perfil de subjetivação (como a presença do sujeito é construída), complementando índices globais ao indicar “o tipo” predominante.

Observação:
A interpretação depende do inventário de rótulos e de suas definições. Compare documentos sob o mesmo protocolo.

Distribuição de figuras de linguagem

Definição:
Mapa de frequências por tipo de figura/estratégia de figuração. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Figuração”, permitindo identificar quais procedimentos predominam.

Cálculo:
DFig = {tipo: contagem, ...}
(estrutura: rótulo/tipo de figuração → número de ocorrências)

Interpretação:
Ajuda a caracterizar o perfil figurativo do texto (por exemplo, maior peso de deslocamentos, interpelações, inversões etc.), complementando o índice global ao indicar “como” a figuração se realiza.

Distribuição de tipos argumentativos (top 10)

Definição:
Mapa de frequências por tipo argumentativo dentro da camada de Argumentação. Indica quantas ocorrências de cada tipo (rótulo) foram registradas no documento, permitindo identificar quais estratégias argumentativas predominam.

Como ler:
Resultado em formato de lista/mapa (tipo → contagem).
Valores mais altos em um tipo = aquele tipo ocorre mais no documento.
A leitura é comparativa: observe o “top 10” para ver os tipos dominantes.

Interpretação:
Ajuda a caracterizar o perfil argumentativo do texto (p.ex., maior presença de causas/consequências, exemplos, autoridade, analogias, etc., conforme o inventário de tipos). A distribuição complementa índices globais ao mostrar “como” se argumenta, não apenas “quanto”.

Observação:
A interpretação depende do seu mapeamento de etiquetas e da granularidade da anotação.

Entropia de Shannon (bits)

Definição:
Diversidade informacional do vocabulário.
Mede o “grau de imprevisibilidade” da distribuição de frequências: se muitas palavras têm frequências parecidas, a entropia tende a ser maior; se poucas palavras dominam, a entropia tende a ser menor.

Como ler:
Valores de referência (aprox.):
6,0-6,8 → fala espontânea / repetição alta
6,8-7,4 → informativo
7,4-8,2 → argumentativo/acadêmico
8,2+ → literário / alta diversidade

Cálculo:
H = - Σ p(w) · log2 p(w)
p(w) = frequência relativa da palavra w

Interpretação:
Maior = distribuição de frequências mais “uniforme” (menos previsível).
Menor = texto mais repetitivo (algumas palavras dominam).

Observação:
Dependente de pré-processamento (tokenização, remoção/normalização, lematização). Compare preferencialmente textos processados do mesmo modo.

Frequência relativa (Top lemas por 1000 tokens)

Definição:
Lista os lemas mais frequentes do texto em frequência absoluta (freq) e em frequência relativa normalizada pelo tamanho do texto. A normalização (por 1000 tokens) permite comparação direta entre textos de tamanhos diferentes.

Como ler:
Como interpretar:
• por_1000 permite comparar textos de tamanhos diferentes.
• Valores altos indicam itens muito recorrentes (marcas de tema ou de estilo).
• Se os tops forem sobretudo palavras funcionais (de, o, e, que), isso reflete a gramática; se forem termos de conteúdo (governança, eficiência), isso reflete tema.

Cálculo:
rel = freq / N
por_1000 = (freq / N) x 1000
N = número total de tokens (palavras)

Interpretação:
Valores altos (por_1000) indicam itens centrais no texto: podem sinalizar tema (termos de conteúdo) ou estilo/gramática (funcionais).

Observação:
O cálculo pode ser feito por palavra, lema ou unidade lexical. Aqui é por lema.

Hapax legomena

Definição:
Palavras que aparecem apenas uma vez no texto (frequência = 1).
Captura o quanto o texto “introduz” vocabulário novo sem repetição, servindo como indicador de exploração lexical e de variedade de escolha vocabular.

Como ler:
Valores de referência (hapax ratio, aprox.):
0,20-0,30 → fala espontânea
0,30-0,40 → informativo
0,40-0,55 → argumentativo/acadêmico
0,55+ → literário (muito variado)

Cálculo:
Hapax = número de palavras com frequência 1
Hapax ratio = Hapax / N
N = número total de tokens (palavras)

Interpretação:
Quanto maior, mais “exploratório” é o vocabulário (menos repetição) e maior a variedade lexical efetiva.

Observação:
Útil para caracterizar estilo e complexidade lexical; pode subir em textos longos e variados, e cair em textos com forte repetição temática/terminológica.

Herdan C (C de Herdan)

Definição:
Índice robusto de riqueza lexical.
Mede diversidade lexical corrigindo o efeito do tamanho do texto por meio de logaritmos. Em geral, permite comparações mais justas entre textos de comprimentos diferentes do que o TTR.

Como ler:
Valores de referência (aprox.):
0,80-0,86 → oralidade/coloquial
0,86-0,90 → informativo
0,90-0,93 → argumentativo/acadêmico
0,93+ → literário (alta variação)

Cálculo:
Herdan C = log(V) / log(N)
V = palavras diferentes (types)
N = palavras totais (tokens)

Interpretação:
Quanto mais próximo de 1, maior a riqueza lexical.

Observação:
Menos sensível ao tamanho do texto do que o TTR (mais apropriado para comparar textos longos ou de tamanhos diferentes).

Índice de argumentatividade

Definição:
Mede o grau global de argumentatividade combinando (i) a densidade de segmentos argumentativos e (ii) a cobertura do texto por argumentação. O índice aumenta quando há muitos segmentos argumentativos e quando a argumentação ocupa grande parte do documento, penalizando casos em que apenas um dos dois fatores é alto.

Como ler:
0 = ausência de argumentação (incidência e/ou cobertura nulas).
Valores mais altos = texto fortemente argumentativo, com argumentação frequente e distribuída/abrangente.
Valores mais baixos = texto pouco argumentativo; ou argumentação rara; ou argumentação concentrada em poucos trechos.

Cálculo:
IA = (2 * N * C) / (N + C)
onde:
N = incidência de argumentação por 10.000 caracteres
C = cobertura argumentativa escalada por 10.000 caracteres

Interpretação:
Funciona como uma média harmônica entre “quantos argumentos por extensão” e “quanto do texto é argumentativo”. Um texto com muitos segmentos argumentativos mas muito concentrados (alta incidência, baixa cobertura) não terá IA tão alta; o mesmo vale para cobertura alta com poucos segmentos.

Observação:
O índice depende do esquema de segmentação e de marcação: alterações na forma de contar segmentos ou na extensão marcada afetam N e C. Útil para comparação relativa entre documentos sob o mesmo procedimento de anotação.

Índice de autorregulação

Definição:
Mede o grau global de autorregulação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como autorregulação.

Como ler:
0 = ausência de autorregulação.
Valores mais altos = autorregulação frequente e abrangente.
Valores mais baixos = autorregulação rara ou localizada.

Cálculo:
IAuto = (2 * N * C) / (N + C)
onde:
N = incidência de autorregulação por 10.000 caracteres
C = cobertura de autorregulação escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra recorrência e extensão. Valores altos caracterizam textos em que o enunciador regula continuamente o próprio dizer de forma distribuída.

Observação:
Depende do protocolo e do gênero. Compare preferencialmente dentro de conjuntos homogêneos (p.ex., discursos orais vs. textos escritos revisados).

Índice de avaliação

Definição:
Mede o grau global de avaliação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como avaliação.

Como ler:
0 = ausência de avaliação.
Valores mais altos = avaliação frequente e abrangente.
Valores mais baixos = avaliação rara ou localizada.

Cálculo:
IAval = (2 * N * C) / (N + C)
onde:
N = incidência de avaliação por 10.000 caracteres
C = cobertura de avaliação escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência. Valores altos caracterizam textos em que a avaliação é um procedimento sistemático e distribuído de posicionamento.

Observação:
Depende do protocolo e do gênero textual. Em certos gêneros opinativos, avaliação é esperada e pode ser estrutural.

Índice de citação

Definição:
Mede o grau global de citação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como citação.

Como ler:
0 = ausência de citação.
Valores mais altos = citação frequente e abrangente.
Valores mais baixos = citação rara ou localizada.

Cálculo:
ICit = (2 * N * C) / (N + C)
onde:
N = incidência de citação por 10.000 caracteres
C = cobertura de citação escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra recorrência e extensão. Valores altos caracterizam textos em que a citação é um procedimento sistemático e distribuído.

Observação:
A interpretação depende do protocolo (o que conta como citação) e do gênero textual. Em alguns gêneros, citação é esperada e não necessariamente marcada estrategicamente.

Índice de controle

Definição:
Mede o grau global de controle combinando (i) a densidade de segmentos de controle e (ii) a cobertura do texto por controle. O índice cresce quando há muitos segmentos e quando o controle ocupa grande parte do documento, penalizando casos em que apenas um dos fatores é alto.

Como ler:
0 = ausência de controle (incidência e/ou cobertura nulas).
Valores mais altos = controle frequente e abrangente no texto.
Valores mais baixos = controle raro, restrito a poucos trechos, ou inexistente.

Cálculo:
IControle = (2 * N * C) / (N + C)
onde:
N = incidência de controle por 10.000 caracteres
C = cobertura de controle escalada por 10.000 (cobertura * 10000)

Interpretação:
Funciona como uma média harmônica entre frequência e extensão. Um texto pode ter muitos segmentos de controle mas muito concentrados (alta incidência, baixa cobertura) sem atingir índice alto; e vice-versa.

Observação:
Depende do procedimento de anotação (o que conta como “Controle”) e do modo de segmentação. Útil para comparação relativa entre documentos com o mesmo protocolo.

Índice de deslegitimação

Definição:
Mede o grau global de deslegitimação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como deslegitimação.

Como ler:
0 = ausência de deslegitimação.
Valores mais altos = deslegitimação frequente e abrangente.
Valores mais baixos = deslegitimação rara ou pontual.

Cálculo:
IDesleg = (2 * N * C) / (N + C)
onde:
N = incidência de deslegitimação por 10.000 caracteres
C = cobertura de deslegitimação escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência da deslegitimação. Valores altos caracterizam textos em que a deslegitimação é uma estratégia dominante e distribuída.

Observação:
É sensível a definições operacionais: o que conta como deslegitimação (p.ex., exclusão, silenciamento, desqualificação) precisa estar estável no protocolo.

Índice de deslocamento semântico

Definição:
Mede o grau global de deslocamento semântico combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como deslocamento semântico.

Como ler:
0 = ausência de deslocamento semântico.
Valores mais altos = deslocamento semântico frequente e abrangente.
Valores mais baixos = deslocamento semântico raro ou localizado.

Cálculo:
IDesl = (2 * N * C) / (N + C)
onde:
N = incidência de deslocamento semântico por 10.000 caracteres
C = cobertura de deslocamento semântico escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência. Valores altos caracterizam textos em que o deslocamento semântico é um recurso recorrente e distribuído.

Observação:
A comparabilidade depende de definições operacionais claras para “deslocamento semântico”. Em textos curtos, variações pequenas podem afetar bastante o índice.

Índice de desubjetivação

Definição:
Mede o grau global de desubjetivação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como desubjetivação.

Como ler:
0 = ausência de desubjetivação.
Valores mais altos = desubjetivação frequente e abrangente.
Valores mais baixos = desubjetivação rara ou localizada.

Cálculo:
IDesubj = (2 * N * C) / (N + C)
onde:
N = incidência de desubjetivação por 10.000 caracteres
C = cobertura de desubjetivação escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência. Valores altos caracterizam textos em que a impessoalização/apagamento subjetivo é sistemática e distribuída.

Observação:
Depende do protocolo e do gênero. Textos técnicos/institucionais tendem a elevar desubjetivação.

Índice de dramatização

Definição:
Mede o grau global de dramatização combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como dramatização.

Como ler:
0 = ausência de dramatização.
Valores mais altos = dramatização frequente e abrangente.
Valores mais baixos = dramatização rara ou localizada.

Cálculo:
IDrama = (2 * N * C) / (N + C)
onde:
N = incidência de dramatização por 10.000 caracteres
C = cobertura de dramatização escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência: valores altos caracterizam textos em que a dramatização é sistemática e distribuída, não apenas pontual.

Observação:
Sensível ao protocolo de anotação. Em textos curtos, pequenas mudanças de marcação podem gerar variações grandes no índice.

Índice de encadeamento

Definição:
Mede o grau global de encadeamento combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como encadeamento.

Como ler:
0 = ausência de encadeamento.
Valores mais altos = encadeamento frequente e abrangente.
Valores mais baixos = encadeamento raro ou localizado.

Cálculo:
IEncad = (2 * N * C) / (N + C)
onde:
N = incidência de encadeamento por 10.000 caracteres
C = cobertura de encadeamento escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra recorrência e extensão. Valores altos caracterizam textos em que encadeamentos são estruturantes e distribuídos.

Observação:
Depende do protocolo e da segmentação. Em corpora heterogêneos, o gênero textual pode influenciar fortemente a presença de encadeamentos.

Índice de encenação

Definição:
Mede o grau global de encenação combinando (i) a densidade de segmentos de encenação e (ii) a cobertura do texto por encenação. O índice cresce quando a encenação é frequente e ocupa grande parte do documento, penalizando casos em que apenas um dos fatores é alto.

Como ler:
0 = ausência de encenação (incidência e/ou cobertura nulas).
Valores mais altos = encenação frequente e abrangente.
Valores mais baixos = encenação rara, localizada ou inexistente.

Cálculo:
IEnc = (2 * N * C) / (N + C)
onde:
N = incidência de encenação por 10.000 caracteres
C = cobertura de encenação escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência da encenação. Valores altos caracterizam textos em que a construção de cena e o manejo dramatúrgico/disputivo são estruturantes, e não apenas episódicos.

Observação:
Depende do protocolo de anotação e da granularidade da segmentação. Útil para comparação relativa entre documentos sob o mesmo procedimento.

Índice de enquadramento

Definição:
Mede o grau global de enquadramento combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como enquadramento.

Como ler:
0 = ausência de enquadramento.
Valores mais altos = enquadramento frequente e abrangente.
Valores mais baixos = enquadramento raro ou localizado.

Cálculo:
IEnq = (2 * N * C) / (N + C)
onde:
N = incidência de enquadramento por 10.000 caracteres
C = cobertura de enquadramento escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência. Valores altos caracterizam textos em que o recorte orientado do objeto (frame) é recorrente e distribuído.

Observação:
Depende do protocolo de anotação. Pode variar por gênero e por tema; compare dentro de conjuntos homogêneos.

Índice de figuração

Definição:
Mede o grau global de figuração combinando (i) a densidade de segmentos de figuração e (ii) a cobertura do texto por figuração. O índice cresce quando a figuração é frequente e ocupa grande parte do documento, penalizando casos em que apenas um dos fatores é alto.

Como ler:
0 = ausência de figuração (incidência e/ou cobertura nulas).
Valores mais altos = figuração frequente e abrangente.
Valores mais baixos = figuração rara, localizada ou inexistente.

Cálculo:
IFig = (2 * N * C) / (N + C)
onde:
N = incidência de figuração por 10.000 caracteres
C = cobertura de figuração escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência. Valores altos caracterizam textos em que a figuração é um modo sistemático de organização discursiva, e não apenas um recurso pontual.

Observação:
Depende do protocolo de anotação e da segmentação. Útil para comparação relativa entre documentos sob o mesmo procedimento.

Índice de formulaicidade

Definição:
Mede o grau global de formulaicidade combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como formulaicidade.

Como ler:
0 = ausência de formulaicidade.
Valores mais altos = formulaicidade frequente e abrangente.
Valores mais baixos = formulaicidade rara ou localizada.

Cálculo:
IForm = (2 * N * C) / (N + C)
onde:
N = incidência de formulaicidade por 10.000 caracteres
C = cobertura de formulaicidade escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra recorrência e extensão. Valores altos caracterizam textos em que o recurso a fórmulas estabilizadas é sistemático e distribuído.

Observação:
Depende do protocolo e do gênero textual. Em alguns gêneros institucionais, formulaicidade pode ser requisito composicional.

Índice de Gini (0 a 1)

Definição:
Desigualdade na distribuição de frequências lexicais.
Avalia quão “desiguais” são as frequências: próximo de 0 indica distribuição mais uniforme; próximo de 1 indica concentração extrema em poucos itens.

Como ler:
Faixas úteis (aprox.):
0,25-0,35 → distribuição bem uniforme
0,35-0,50 → distribuição típica de textos argumentativos
0,50+ → alta concentração/repetição (retórica, slogans, textos muito redundantes)

Cálculo:
Gini ≈ 0 → frequências bem uniformes
Gini ≈ 1 → extrema concentração (poucas palavras dominam)

Interpretação:
Maior = texto mais concentrado em um conjunto pequeno de palavras.
Menor = vocabulário mais uniformemente distribuído.

Observação:
Como outras medidas de distribuição, depende do pré-processamento (palavra vs lema; remoção de stopwords etc.).

Índice de graduação

Definição:
Mede o grau global de graduação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como graduação.

Como ler:
0 = ausência de graduação.
Valores mais altos = graduação frequente e abrangente.
Valores mais baixos = graduação rara ou localizada.

Cálculo:
IGrad = (2 * N * C) / (N + C)
onde:
N = incidência de graduação por 10.000 caracteres
C = cobertura de graduação escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência. Valores altos caracterizam textos em que a modulação de intensidade/força é um recurso sistemático e distribuído.

Observação:
Depende do protocolo. Em alguns gêneros persuasivos, a graduação pode ser constitutiva do estilo.

Índice de Guiraud

Definição:
Riqueza lexical corrigida pelo tamanho do texto.
É uma medida de diversidade lexical que “ajusta” o efeito do crescimento do texto: em vez de comparar diretamente V/N (como no TTR), compara V com a raiz do tamanho do texto, tornando a medida mais estável quando N aumenta.

Como ler:
Valores de referência (aprox.):
7-10 → fala espontânea
10-13 → jornalístico/informativo
13-16 → argumentativo/acadêmico
16+ → literário (muito variado)

Cálculo:
Guiraud = V / √N
V = número de types (palavras diferentes)
N = número de tokens (palavras totais)

Interpretação:
Mais alto = maior diversidade lexical.

Observação:
Mais estável que o TTR em textos longos.

Índice de implicitação

Definição:
Mede o grau global de implicitação combinando (i) a densidade de segmentos de implicitação e (ii) a cobertura do texto por implicitação. O índice cresce quando a implicitação é frequente e ocupa grande parte do documento, penalizando casos em que apenas um dos fatores é alto.

Como ler:
0 = ausência de implicitação (incidência e/ou cobertura nulas).
Valores mais altos = implicitação frequente e abrangente.
Valores mais baixos = implicitação rara, localizada ou inexistente.

Cálculo:
IImpl = (2 * N * C) / (N + C)
onde:
N = incidência de implicitação por 10.000 caracteres
C = cobertura de implicitação escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência. Valores altos caracterizam textos em que procedimentos de não-dito e inferência são sistemáticos e distribuídos.

Observação:
Depende do protocolo e da segmentação. A implicitação pode ser muito sensível ao gênero e à situação comunicativa.

Índice de inferencialidade

Definição:
Mede o grau global de inferência combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como inferência.

Como ler:
0 = ausência de inferência.
Valores mais altos = inferência frequente e abrangente.
Valores mais baixos = inferência rara ou localizada.

Cálculo:
IInfer = (2 * N * C) / (N + C)
onde:
N = incidência de inferência por 10.000 caracteres
C = cobertura de inferência escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência. Valores altos caracterizam textos em que a produção de sentido depende fortemente de “completar” não-ditos por inferência, de modo sistemático e distribuído.

Observação:
A inferência pode se sobrepor a pressuposição e insinuação se o protocolo não delimitar bem os critérios. Recomenda-se uso comparativo dentro do mesmo gênero/protocolo.

Índice de inscrição

Definição:
Mede o grau global de inscrição combinando (i) a densidade de segmentos de inscrição e (ii) a cobertura do texto por inscrição. O índice cresce quando a inscrição é frequente e ocupa grande parte do documento, penalizando casos em que apenas um dos fatores é alto.

Como ler:
0 = ausência de inscrição (incidência e/ou cobertura nulas).
Valores mais altos = inscrição frequente e abrangente.
Valores mais baixos = inscrição rara, localizada ou inexistente.

Cálculo:
IInsc = (2 * N * C) / (N + C)
onde:
N = incidência de inscrição por 10.000 caracteres
C = cobertura de inscrição escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência. Valores altos caracterizam textos em que procedimentos de inscrição são estruturantes e distribuídos.

Observação:
Depende do protocolo e da segmentação. Recomenda-se comparação relativa entre documentos com o mesmo procedimento de anotação.

Índice de insinuação

Definição:
Mede o grau global de insinuação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como insinuação.

Como ler:
0 = ausência de insinuação.
Valores mais altos = insinuação frequente e abrangente.
Valores mais baixos = insinuação rara ou localizada.

Cálculo:
IInsin = (2 * N * C) / (N + C)
onde:
N = incidência de insinuação por 10.000 caracteres
C = cobertura de insinuação escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência. Valores altos caracterizam textos em que insinuar (em vez de afirmar diretamente) é um procedimento sistemático e distribuído.

Observação:
Sensível ao protocolo e ao contexto. Em certos gêneros, a insinuação pode ser um recurso recorrente (p.ex., ataques indiretos, ironia), o que precisa ser considerado.

Índice de interpelação

Definição:
Mede o grau global de interpelação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como interpelação.

Como ler:
0 = ausência de interpelação.
Valores mais altos = interpelação frequente e abrangente.
Valores mais baixos = interpelação rara ou localizada.

Cálculo:
IInterp = (2 * N * C) / (N + C)
onde:
N = incidência de interpelação por 10.000 caracteres
C = cobertura de interpelação escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra recorrência e extensão. Valores altos caracterizam textos em que a convocação/endereço ao outro é um procedimento recorrente e distribuído.

Observação:
Depende da definição operacional de interpelação. Em textos curtos, pequenas variações de marcação podem alterar bastante o índice.

Índice de inversão

Definição:
Mede o grau global de inversão combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como inversão.

Como ler:
0 = ausência de inversão.
Valores mais altos = inversão frequente e abrangente.
Valores mais baixos = inversão rara ou localizada.

Cálculo:
IInv = (2 * N * C) / (N + C)
onde:
N = incidência de inversão por 10.000 caracteres
C = cobertura de inversão escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra recorrência e extensão. Valores altos caracterizam textos em que inversões são procedimentos recorrentes e distribuídos.

Observação:
Depende do protocolo e da segmentação. A noção de “inversão” deve estar bem definida para evitar sobreposição com outras categorias.

Índice de Legibilidade de Flesch

Definição:
Mede a facilidade de leitura com base na estrutura superficial: tamanho médio das frases e complexidade das palavras (sílabas por palavra). Valores altos indicam leitura mais fácil; valores baixos indicam maior complexidade.

Como ler:
Valores de referência (aprox.):
90-100 → muito fácil (infantil)
70-90 → fácil (ensino fundamental)
50-70 → intermediário (jornalístico)
30-50 → difícil (acadêmico)
0-30 → muito difícil (jurídico, filosófico, técnico)

Cálculo:
Flesch = 248,835 - 1,015 x (palavras por frase) - 84,6 x (sílabas por palavra)

Interpretação:
Quanto MAIOR o valor → mais fácil de ler
Quanto MENOR → mais complexo

Observação:
O índice foi criado para o inglês. Em português ele continua útil, mas deve ser interpretado comparativamente (entre textos), não como classificação absoluta.

Índice de legitimação

Definição:
Mede o grau global de legitimação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como legitimação. Cresce quando a legitimação é frequente e ocupa grande parte do texto.

Como ler:
0 = ausência de legitimação.
Valores mais altos = legitimação frequente e abrangente.
Valores mais baixos = legitimação rara, pontual ou inexistente.

Cálculo:
ILeg = (2 * N * C) / (N + C)
onde:
N = incidência de legitimação por 10.000 caracteres
C = cobertura de legitimação escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra frequência e extensão: privilegia textos em que legitimação aparece repetidamente e ao longo do documento, não apenas em um trecho isolado.

Observação:
Depende da definição operacional de “legitimação” e da consistência da anotação. É recomendável comparar textos com o mesmo protocolo e recorte de corpus.

Índice de modalização

Definição:
Mede o grau global de modalização combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como modalização.

Como ler:
0 = ausência de modalização.
Valores mais altos = modalização frequente e abrangente.
Valores mais baixos = modalização rara ou localizada.

Cálculo:
IMod = (2 * N * C) / (N + C)
onde:
N = incidência de modalização por 10.000 caracteres
C = cobertura de modalização escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência. Valores altos caracterizam textos em que a marcação de posição/atitude é sistemática e distribuída, não apenas episódica.

Observação:
Depende do protocolo e da segmentação. Recomenda-se comparação relativa em corpora com anotação homogênea.

Índice de modalização deontica

Definição:
Mede o grau global de modalização deôntica combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como deôntica.

Como ler:
0 = ausência de deôntica.
Valores mais altos = deôntica frequente e abrangente.
Valores mais baixos = deôntica rara ou localizada.

Cálculo:
IDeon = (2 * N * C) / (N + C)
onde:
N = incidência de deôntica por 10.000 caracteres
C = cobertura de deôntica escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra recorrência e extensão. Valores altos caracterizam textos em que obrigação/prescrição é um procedimento sistemático e distribuído.

Observação:
Depende do protocolo e do gênero (textos normativos tendem a elevar a deôntica).

Índice de modalização epistêmica

Definição:
Mede o grau global de modalização epistêmica combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como epistêmica.

Como ler:
0 = ausência de epistêmica.
Valores mais altos = epistêmica frequente e abrangente.
Valores mais baixos = epistêmica rara ou localizada.

Cálculo:
IEpist = (2 * N * C) / (N + C)
onde:
N = incidência de epistêmica por 10.000 caracteres
C = cobertura de epistêmica escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra recorrência e extensão. Valores altos caracterizam textos em que marcas de certeza/dúvida/probabilidade são sistemáticas e distribuídas.

Observação:
Depende do protocolo e do gênero. Textos analíticos podem ter epistêmica elevada (hedges, probabilidades), enquanto textos normativos podem ter epistêmica menor e deôntica maior.

Índice de naturalização ideológica

Definição:
Mede o grau global de naturalização combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como naturalização.

Como ler:
0 = ausência de naturalização.
Valores mais altos = naturalização frequente e abrangente.
Valores mais baixos = naturalização rara ou localizada.

Cálculo:
INat = (2 * N * C) / (N + C)
onde:
N = incidência de naturalização por 10.000 caracteres
C = cobertura de naturalização escalada por 10.000 (cobertura * 10000)

Interpretação:
Valores altos caracterizam textos que reiteram e espalham, ao longo do documento, enunciados que tornam relações sociais e políticas “naturais” ou “auto-evidentes”, conforme o protocolo de anotação.

Observação:
Requer consistência na identificação de naturalização. Em textos curtos, pequenas variações de marcação podem produzir mudanças grandes no índice.

Índice de polarização discursiva

Definição:
Mede o grau global de polarização combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como polarização.

Como ler:
0 = ausência de polarização.
Valores mais altos = polarização frequente e abrangente.
Valores mais baixos = polarização rara ou localizada.

Cálculo:
IPol = (2 * N * C) / (N + C)
onde:
N = incidência de polarização por 10.000 caracteres
C = cobertura de polarização escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência da polarização. Valores altos caracterizam textos em que a oposição antagonizante é um organizador central da cena discursiva.

Observação:
Depende do protocolo de anotação. A polarização pode ser confundida com discordância simples; recomenda-se definições operacionais claras.

Índice de pré-construído

Definição:
Mede o grau global de pré-construído combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como pré-construído.

Como ler:
0 = ausência de pré-construído.
Valores mais altos = pré-construído frequente e abrangente.
Valores mais baixos = pré-construído raro ou localizado.

Cálculo:
IPre = (2 * N * C) / (N + C)
onde:
N = incidência de pré-construído por 10.000 caracteres
C = cobertura de pré-construído escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência. Valores altos caracterizam textos em que conteúdos estabilizados são mobilizados de modo sistemático e distribuído como “base” do enunciado.

Observação:
Pode se aproximar de pressuposição em certos casos; a distinção depende do protocolo e do enquadramento teórico (pré-construído como conteúdo socialmente dado que retorna no dizer).

Índice de pressuposição

Definição:
Mede o grau global de pressuposição combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como pressuposição.

Como ler:
0 = ausência de pressuposição.
Valores mais altos = pressuposição frequente e abrangente.
Valores mais baixos = pressuposição rara ou localizada.

Cálculo:
IPresup = (2 * N * C) / (N + C)
onde:
N = incidência de pressuposição por 10.000 caracteres
C = cobertura de pressuposição escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência. Valores altos caracterizam textos em que pressuposições estruturam o encadeamento argumentativo e a apresentação do mundo como “já dado”.

Observação:
A interpretação depende do protocolo de anotação. A pressuposição pode se sobrepor a inferência/insinuação se os critérios não forem bem delimitados.

Índice de problematização

Definição:
Mede o grau global de problematização combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como problematização.

Como ler:
0 = ausência de problematização.
Valores mais altos = problematização frequente e abrangente.
Valores mais baixos = problematização rara ou localizada.

Cálculo:
IProb = (2 * N * C) / (N + C)
onde:
N = incidência de problematização por 10.000 caracteres
C = cobertura de problematização escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência da problematização. Valores altos caracterizam textos em que “colocar em questão” é um traço sistemático e distribuído, não apenas episódico.

Observação:
A interpretação depende do que foi definido como problematização na anotação. Recomenda-se comparar documentos sob o mesmo protocolo e dentro de gêneros semelhantes.

Índice de progressão

Definição:
Mede o grau global de progressão combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como progressão.

Como ler:
0 = ausência de progressão.
Valores mais altos = progressão frequente e abrangente.
Valores mais baixos = progressão rara ou localizada.

Cálculo:
IProg = (2 * N * C) / (N + C)
onde:
N = incidência de progressão por 10.000 caracteres
C = cobertura de progressão escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra recorrência e extensão. Valores altos caracterizam textos em que mecanismos de avanço textual são sistemáticos e distribuídos.

Observação:
Depende do protocolo e do gênero. A progressão pode aparecer de modos distintos conforme a organização típica do texto.

Índice de regulação

Definição:
Mede o grau global de regulação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como regulação.

Como ler:
0 = ausência de regulação.
Valores mais altos = regulação frequente e abrangente.
Valores mais baixos = regulação rara ou localizada.

Cálculo:
IReg = (2 * N * C) / (N + C)
onde:
N = incidência de regulação por 10.000 caracteres
C = cobertura de regulação escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra recorrência e extensão. Valores altos caracterizam textos em que o “ajuste” do dizer e a gestão discursiva são procedimentos sistemáticos e distribuídos.

Observação:
Depende do protocolo e do gênero. A regulação tende a aumentar em contextos interacionais e diminuir em textos mais monológicos, conforme os critérios.

Índice de regulação dialógica

Definição:
Mede o grau global de regulação dialógica combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como regulação dialógica.

Como ler:
0 = ausência de regulação dialógica.
Valores mais altos = regulação dialógica frequente e abrangente.
Valores mais baixos = regulação dialógica rara ou localizada.

Cálculo:
IDialog = (2 * N * C) / (N + C)
onde:
N = incidência de regulação dialógica por 10.000 caracteres
C = cobertura de regulação dialógica escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência. Valores altos caracterizam textos em que a gestão da interlocução é sistemática e distribuída.

Observação:
Depende do protocolo e do gênero. Em discursos monológicos, pode aparecer como antecipação de objeções ou endereçamento ao público.

Índice de repetição

Definição:
Mede o grau global de repetição combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como repetição.

Como ler:
0 = ausência de repetição.
Valores mais altos = repetição frequente e abrangente.
Valores mais baixos = repetição rara ou localizada.

Cálculo:
IRep = (2 * N * C) / (N + C)
onde:
N = incidência de repetição por 10.000 caracteres
C = cobertura de repetição escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra recorrência e extensão. Valores altos caracterizam textos em que a repetição é um recurso sistemático e distribuído.

Observação:
Depende do protocolo e da segmentação. Em alguns gêneros, repetição pode ser requisito composicional (ex.: slogans, refrães).

Índice de responsabilização

Definição:
Mede o grau global de atribuição de responsabilidade combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) dos trechos ligados à imputação de responsabilidade (responsabilização, desresponsabilização e responsabilização difusa).

Como ler:
0 = ausência de atribuição de responsabilidade.
Valores mais altos = atribuição de responsabilidade frequente e abrangente.
Valores mais baixos = atribuição rara ou localizada.

Cálculo:
IResp = (2 * N * C) / (N + C)
onde:
N = incidência agregada de atribuição de responsabilidade por 10.000 caracteres
C = cobertura agregada escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra recorrência e extensão. Valores altos caracterizam textos em que a organização da cena discursiva depende intensamente de imputações de responsabilidade (atribuir, negar/atenuar ou difundir).

Observação:
Este índice não distingue “quem” é responsabilizado nem a direção normativa do movimento; para isso, observe as métricas específicas (responsabilização, desresponsabilização, responsabilização difusa) e, quando disponível, a distribuição por tipos.

Índice de Simpson (concentração lexical)

Definição:
Medida de concentração (não de diversidade).
Quantifica o quanto a distribuição lexical é dominada por poucos itens: valores maiores indicam maior dominância (mais concentração), valores menores indicam maior dispersão (menos dominância).

Como ler:
Leitura prática:
Se o valor aumenta, o texto está mais concentrado/repetitivo.
Se diminui, o texto está mais “espalhado” lexicalmente.

Cálculo:
Simpson = Σ p(w)²
p(w) = frequência relativa da palavra w

Interpretação:
Menor = vocabulário mais distribuído (menos dominância).
Maior = poucas palavras dominam (mais repetição).

Observação:
É uma medida de “concentração” (o sentido é inverso de muitas medidas de diversidade).

Índice de subjetivação

Definição:
Mede o grau global de subjetivação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como subjetivação.

Como ler:
0 = ausência de subjetivação.
Valores mais altos = subjetivação frequente e abrangente.
Valores mais baixos = subjetivação rara ou localizada.

Cálculo:
ISubj = (2 * N * C) / (N + C)
onde:
N = incidência de subjetivação por 10.000 caracteres
C = cobertura de subjetivação escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência. Valores altos caracterizam textos em que a presença enunciativa/posicional é sistemática e distribuída.

Observação:
Depende do protocolo e do gênero. Textos institucionais podem ter subjetivação mais baixa; textos de fala pública ou testemunho podem ter mais alta.

Índice de subjetivação total

Definição:
Mede o grau global de subjetivação total combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como subjetivação total.

Como ler:
0 = ausência de subjetivação total.
Valores mais altos = subjetivação total frequente e abrangente.
Valores mais baixos = subjetivação total rara ou localizada.

Cálculo:
IPess = (2 * N * C) / (N + C)
onde:
N = incidência de subjetivação total por 10.000 caracteres
C = cobertura de subjetivação total escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência. Valores altos caracterizam textos em que a pessoalização forte é sistemática e distribuída.

Observação:
Depende do protocolo e do gênero. Pode ser alta em discursos autobiográficos, testemunhais ou performativos, e baixa em textos institucionais.

Índice de supressão

Definição:
Mede o grau global de supressão combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como supressão.

Como ler:
0 = ausência de supressão.
Valores mais altos = supressão frequente e abrangente.
Valores mais baixos = supressão rara ou localizada.

Cálculo:
ISupr = (2 * N * C) / (N + C)
onde:
N = incidência de supressão por 10.000 caracteres
C = cobertura de supressão escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra recorrência e extensão. Valores altos caracterizam textos em que operações de supressão são sistemáticas e distribuídas.

Observação:
Depende da definição operacional de supressão e da consistência na marcação. Pode sobrepor-se a outras categorias se o protocolo não for restritivo.

Índice de transgressão

Definição:
Mede o grau global de transgressão combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como transgressão.

Como ler:
0 = ausência de transgressão.
Valores mais altos = transgressão frequente e abrangente.
Valores mais baixos = transgressão rara ou localizada.

Cálculo:
ITransg = (2 * N * C) / (N + C)
onde:
N = incidência de transgressão por 10.000 caracteres
C = cobertura de transgressão escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra recorrência e extensão. Valores altos caracterizam textos em que a transgressão é um procedimento recorrente e distribuído, e não apenas episódico.

Observação:
A interpretação depende do protocolo e do gênero textual. A categoria pode se sobrepor a “inversão” ou “deslocamento” se as definições não forem bem delimitadas.

Índice de vitimização

Definição:
Mede o grau global de vitimização combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como vitimização.

Como ler:
0 = ausência de vitimização.
Valores mais altos = vitimização frequente e abrangente.
Valores mais baixos = vitimização rara ou localizada.

Cálculo:
IVit = (2 * N * C) / (N + C)
onde:
N = incidência de vitimização por 10.000 caracteres
C = cobertura de vitimização escalada por 10.000 (cobertura * 10000)

Interpretação:
Integra extensão e recorrência. Valores altos caracterizam textos em que a construção de vítima (ou de vitimização) é estruturante e distribuída.

Observação:
Depende do protocolo. Em alguns gêneros, menções de dano podem ser descritivas e não “vitimizantes” no sentido analítico; isso precisa estar definido.

Número de argumentos (por 10.000 caracteres)

Cálculo:
IA10k = (S * 10000) / L
onde:
S = número de segmentos argumentativos
L = número de caracteres do documento

Interpretação:
Quanto maior o valor, mais frequentes são os segmentos argumentativos ao longo do texto. Valores baixos sugerem texto pouco orientado à argumentação (ou argumentação concentrada em trechos curtos).

Observação:
É uma métrica de frequência (contagem normalizada), não mede qualidade ou consistência dos argumentos. Pode aumentar com segmentação mais “fina” (mais segmentos curtos) e diminuir com segmentação mais “grossa” (menos segmentos longos).

Número de estratégias de atribuição de responsabilidade (por 10.000 caracteres)

Definição:
Mede a incidência agregada de segmentos ligados à atribuição de responsabilidade dentro da encenação, somando subtipos (responsabilização, desresponsabilização e responsabilização difusa) e normalizando pela extensão do documento.

Como ler:
0 = nenhuma ocorrência de atribuição de responsabilidade identificada.
Valores mais altos = atribuição de responsabilidade mais frequente.
Valores mais baixos = atribuição rara ou ausente.

Cálculo:
IResp10k = (S * 10000) / L
onde:
S = número total de segmentos de atribuição de responsabilidade (soma dos subtipos)
L = número total de caracteres do documento

Interpretação:
Valores altos caracterizam textos em que a cena discursiva é estruturada por imputações (atribuir, retirar ou difundir responsabilidade), com recorrência significativa ao longo do documento.

Observação:
É uma incidência agregada. Para entender a direção do movimento (atribuir vs. retirar vs. difundir), observe também as incidências específicas de cada subtipo.

Número de estratégias de autorregulação (por 10.000 caracteres)

Definição:
Mede a incidência de trechos classificados como autorregulação dentro da camada de regulação, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhuma autorregulação identificada.
Valores mais altos = autorregulação mais frequente.
Valores mais baixos = autorregulação rara ou ausente.

Cálculo:
IAuto10k = (S * 10000) / L
onde:
S = número de segmentos classificados como autorregulação
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de movimentos em que o enunciador ajusta, corrige, esclarece, retoma ou comenta o próprio dizer, regulando a enunciação.

Observação:
Métrica de frequência. Pode ser influenciada por gêneros mais improvisados/orários (maior autorregulação) vs. textos revisados (menor autorregulação).

Número de estratégias de avaliação (por 10.000 caracteres)

Definição:
Mede a incidência de trechos classificados como avaliação dentro da camada de modalização, normalizando pela extensão do documento. Expressa quantas ocorrências de avaliação aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhuma avaliação identificada.
Valores mais altos = avaliação mais frequente.
Valores mais baixos = avaliação rara ou ausente.

Cálculo:
IAval10k = (S * 10000) / L
onde:
S = número de segmentos classificados como avaliação
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem que o texto recorre com frequência a juízos de valor, apreciações e tomadas de posição avaliativas (positivas/negativas, desejáveis/indesejáveis).

Observação:
Métrica de frequência. A avaliação pode incidir sobre pessoas, ações, estados ou objetos; a comparabilidade depende de critérios operacionais claros.

Número de estratégias de citação (por 10.000 caracteres)

Definição:
Mede a incidência de trechos classificados como citação dentro da camada de inscrição, normalizando pela extensão do documento. Expressa quantas ocorrências de citação aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhuma citação identificada.
Valores mais altos = citação mais frequente.
Valores mais baixos = citação rara ou ausente.

Cálculo:
ICit10k = (S * 10000) / L
onde:
S = número de segmentos classificados como citação
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem que o texto recorre com frequência à inserção explícita de vozes/falas/trechos atribuídos, configurando regimes de autoridade, prova ou distanciamento.

Observação:
Métrica de frequência. “Citação” pode incluir modalidades distintas (direta/indireta, com/sem fonte), conforme o protocolo.

Número de estratégias de controle (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como estratégias de controle no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Controle” ocorrem a cada 10.000 caracteres, permitindo comparar textos de tamanhos diferentes.

Como ler:
0 = nenhum segmento de controle identificado.
Valores mais altos = maior densidade de estratégias de controle ao longo do texto.
Valores mais baixos = menor densidade (controle raro ou ausente).

Cálculo:
IC10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Controle
L = número total de caracteres do documento

Interpretação:
Valores altos indicam que estratégias de controle aparecem com maior frequência no texto. Valores baixos sugerem pouca ativação de procedimentos de controle, ou controle concentrado em poucos trechos.

Observação:
É uma métrica de frequência (contagem normalizada). Pode variar com o critério de segmentação (mais segmentos curtos vs. menos segmentos longos). Não mede “intensidade” semântica, apenas ocorrência.

Número de estratégias de deslegitimação (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos de controle classificados como deslegitimação, normalizando pela extensão do documento. Expressa quantos segmentos de deslegitimação ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma deslegitimação identificada.
Valores mais altos = deslegitimação mais frequente.
Valores mais baixos = deslegitimação rara ou ausente.

Cálculo:
IDesleg10k = (S * 10000) / L
onde:
S = número de segmentos classificados como deslegitimação
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de procedimentos de desqualificação/negação de legitimidade do outro (conforme tipologia adotada).

Observação:
Métrica de frequência; não mede intensidade do ataque nem sua eficácia. Pode variar por gênero (debate, plenário, manifesto etc.).

Número de estratégias de deslocamento semântico (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como deslocamento semântico dentro da camada de figuração, normalizando pela extensão do documento. Expressa quantos segmentos ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhum deslocamento semântico identificado.
Valores mais altos = deslocamentos mais frequentes.
Valores mais baixos = deslocamentos raros ou ausentes.

Cálculo:
IDesl10k = (S * 10000) / L
onde:
S = número de segmentos classificados como deslocamento semântico
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de operações que deslocam o sentido por aproximação, substituição ou transferência semântica (conforme definição operacional).

Observação:
Métrica de frequência; não mede “qualidade” estética. Depende do protocolo (o que conta como deslocamento semântico) e da segmentação.

Número de estratégias de desubjetivação (por 10.000 caracteres)

Definição:
Mede a incidência de trechos classificados como desubjetivação dentro da camada de subjetivação, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhuma desubjetivação identificada.
Valores mais altos = desubjetivação mais frequente.
Valores mais baixos = desubjetivação rara ou ausente.

Cálculo:
IDesubj10k = (S * 10000) / L
onde:
S = número de segmentos classificados como desubjetivação
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de procedimentos que apagam, impessoalizam, generalizam ou desancoram a posição subjetiva, reduzindo marcas de agência/perspectiva.

Observação:
Métrica de frequência. A distinção entre desubjetivação e “estilo impessoal” precisa estar definida no protocolo.

Número de estratégias de dramatização (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como dramatização dentro da camada de encenação, normalizando pela extensão do documento. Expressa quantos segmentos de dramatização ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma dramatização identificada.
Valores mais altos = dramatização mais frequente.
Valores mais baixos = dramatização rara ou ausente.

Cálculo:
IDrama10k = (S * 10000) / L
onde:
S = número de segmentos classificados como dramatização
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de procedimentos que intensificam a cena discursiva (tensão, urgência, ameaça, escalada de conflito), conforme a definição operacional adotada.

Observação:
Métrica de frequência; não mede “intensidade” semântica, apenas ocorrência. Pode variar bastante conforme gênero (debate, pronunciamento, manifesto etc.).

Número de estratégias de encadeamento (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como encadeamento dentro da camada de figuração, normalizando pela extensão do documento. Expressa quantos segmentos de encadeamento ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhum encadeamento identificado.
Valores mais altos = encadeamento mais frequente.
Valores mais baixos = encadeamento raro ou ausente.

Cálculo:
IEncad10k = (S * 10000) / L
onde:
S = número de segmentos classificados como encadeamento
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de operações que organizam o texto por conexão, sequenciação ou articulação encadeada (conforme definição operacional).

Observação:
Métrica de frequência. Depende do protocolo de anotação do que conta como encadeamento.

Número de estratégias de encenação (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como estratégias de encenação no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Encenação” ocorrem a cada 10.000 caracteres, permitindo comparar textos de tamanhos diferentes.

Como ler:
0 = nenhuma estratégia de encenação identificada.
Valores mais altos = encenação mais frequente ao longo do texto.
Valores mais baixos = encenação rara ou ausente.

Cálculo:
IE10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Encenação
L = número total de caracteres do documento

Interpretação:
Valores altos indicam que o texto recorre com frequência a procedimentos de encenação (construção de cena, dramatização, polarização, vitimização, atribuição de papéis), conforme a tipologia adotada.

Observação:
Métrica de frequência (contagem normalizada). Depende do critério de segmentação e do protocolo de anotação da camada “Encenação”.

Número de estratégias de enquadramento (por 10.000 caracteres)

Definição:
Mede a incidência de trechos classificados como enquadramento dentro da camada de inscrição, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhum enquadramento identificado.
Valores mais altos = enquadramento mais frequente.
Valores mais baixos = enquadramento raro ou ausente.

Cálculo:
IEnq10k = (S * 10000) / L
onde:
S = número de segmentos classificados como enquadramento
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de moldes de apresentação/recorte do mundo (frames), orientando leitura e interpretação por seleção e ênfase.

Observação:
Métrica de frequência. “Enquadramento” precisa de definição operacional clara para não se confundir com simples tópico/tema.

Número de estratégias de figuração (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como estratégias de figuração no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Figuração” ocorrem a cada 10.000 caracteres, permitindo comparar textos de tamanhos diferentes.

Como ler:
0 = nenhuma estratégia de figuração identificada.
Valores mais altos = figuração mais frequente ao longo do texto.
Valores mais baixos = figuração rara ou ausente.

Cálculo:
IFig10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Figuração
L = número total de caracteres do documento

Interpretação:
Valores altos indicam maior recorrência de procedimentos figurativos (deslocamentos, encadeamentos, interpelações, inversões, repetições, supressões, transgressões), conforme a tipologia adotada.

Observação:
Métrica de frequência (contagem normalizada). Depende do protocolo de anotação da camada “Figuração” e da granularidade da segmentação.

Número de estratégias de formulaicidade (por 10.000 caracteres)

Definição:
Mede a incidência de trechos classificados como formulaicidade dentro da camada de inscrição, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhuma formulaicidade identificada.
Valores mais altos = formulaicidade mais frequente.
Valores mais baixos = formulaicidade rara ou ausente.

Cálculo:
IForm10k = (S * 10000) / L
onde:
S = número de segmentos classificados como formulaicidade
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de fórmulas cristalizadas, expressões padronizadas ou sequências relativamente estáveis que orientam leitura e posicionamento.

Observação:
Métrica de frequência. A definição de “fórmula” precisa ser operacionalizada para evitar subjetividade e sobreposição com citação ou pré-construído.

Número de estratégias de graduação (por 10.000 caracteres)

Definição:
Mede a incidência de trechos classificados como graduação dentro da camada de modalização, normalizando pela extensão do documento. Expressa quantas ocorrências de graduação aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhuma graduação identificada.
Valores mais altos = graduação mais frequente.
Valores mais baixos = graduação rara ou ausente.

Cálculo:
IGrad10k = (S * 10000) / L
onde:
S = número de segmentos classificados como graduação
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem que o texto recorre com frequência a intensificadores/atenuadores e escalas de intensidade, modulando força, extensão ou grau de avaliações e afirmações.

Observação:
Métrica de frequência. A graduação pode ser lexical, morfossintática ou discursiva; a comparabilidade depende do protocolo.

Número de estratégias de implicitação (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como estratégias de implicitação no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Implicitação” ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma implicitação identificada.
Valores mais altos = implicitação mais frequente ao longo do texto.
Valores mais baixos = implicitação rara ou ausente.

Cálculo:
IImpl10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Implicitação
L = número total de caracteres do documento

Interpretação:
Valores altos indicam maior recorrência de procedimentos que produzem sentido por não-dito, pressuposição, insinuação e inferência, conforme a tipologia adotada.

Observação:
Métrica de frequência (contagem normalizada). Depende do protocolo de anotação e da segmentação.

Número de estratégias de inferência (por 10.000 caracteres)

Definição:
Mede a incidência de trechos classificados como inferência dentro da camada de implicitação, normalizando pela extensão do documento. Expressa quantas ocorrências de inferência aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhuma inferência identificada.
Valores mais altos = inferência mais frequente.
Valores mais baixos = inferência rara ou ausente.

Cálculo:
IInfer10k = (S * 10000) / L
onde:
S = número de segmentos classificados como inferência
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem que o texto recorre com frequência a sentidos que dependem de encadeamentos inferenciais para serem completados pelo leitor/ouvinte.

Observação:
Métrica de frequência. A inferência pode ser gradual e depender do contexto; a comparabilidade depende de critérios operacionais claros.

Número de estratégias de inscrição (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como estratégias de inscrição no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Inscrição” ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma estratégia de inscrição identificada.
Valores mais altos = inscrição mais frequente.
Valores mais baixos = inscrição rara ou ausente.

Cálculo:
IInsc10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Inscrição
L = número total de caracteres do documento

Interpretação:
Valores altos indicam maior recorrência de procedimentos pelos quais o texto “inscreve” vozes, moldes, fórmulas ou conteúdos estabilizados (conforme tipologia adotada).

Observação:
Métrica de frequência (contagem normalizada). Depende do protocolo de anotação e da segmentação.

Número de estratégias de insinuação (por 10.000 caracteres)

Definição:
Mede a incidência de trechos classificados como insinuação dentro da camada de implicitação, normalizando pela extensão do documento. Expressa quantas ocorrências de insinuação aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhuma insinuação identificada.
Valores mais altos = insinuação mais frequente.
Valores mais baixos = insinuação rara ou ausente.

Cálculo:
IInsin10k = (S * 10000) / L
onde:
S = número de segmentos classificados como insinuação
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem que o texto recorre com frequência a sentidos sugeridos sem explicitação direta, frequentemente com espaço para denegação, ambiguidade ou ataque indireto.

Observação:
Métrica de frequência. A insinuação pode ser altamente contextual; a comparabilidade depende de critérios operacionais estáveis.

Número de estratégias de interpelação (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como interpelação dentro da camada de figuração, normalizando pela extensão do documento. Expressa quantos segmentos de interpelação ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma interpelação identificada.
Valores mais altos = interpelação mais frequente.
Valores mais baixos = interpelação rara ou ausente.

Cálculo:
IInterp10k = (S * 10000) / L
onde:
S = número de segmentos classificados como interpelação
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de movimentos que convocam, chamam, endereçam ou constituem interlocutores/posições de sujeito (conforme definição operacional).

Observação:
Métrica de frequência. Depende do protocolo de anotação e pode variar por gênero (discurso direto, manifesto, propaganda, debate etc.).

Número de estratégias de inversão (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como inversão dentro da camada de figuração, normalizando pela extensão do documento. Expressa quantos segmentos de inversão ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma inversão identificada.
Valores mais altos = inversão mais frequente.
Valores mais baixos = inversão rara ou ausente.

Cálculo:
IInv10k = (S * 10000) / L
onde:
S = número de segmentos classificados como inversão
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de operações que invertem relações esperadas (papéis, valores, hierarquias, causalidades, polaridades), conforme definição operacional.

Observação:
Métrica de frequência. Depende do protocolo de anotação do que conta como inversão.

Número de estratégias de legitimação (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos de controle classificados como legitimação, normalizando pela extensão do documento. Expressa quantos segmentos de legitimação ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma legitimação identificada.
Valores mais altos = legitimação mais frequente ao longo do texto.
Valores mais baixos = legitimação rara ou ausente.

Cálculo:
ILeg10k = (S * 10000) / L
onde:
S = número de segmentos classificados como legitimação
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem que procedimentos de legitimação são acionados com frequência (p.ex., justificar autoridade, naturalizar normas como corretas, invocar fundamentos), conforme a tipologia adotada.

Observação:
Métrica de frequência; não avalia força persuasiva. Pode ser influenciada por segmentação e por diferenças de gênero textual.

Número de estratégias de modalização (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como estratégias de modalização no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Modalização” ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma modalização identificada.
Valores mais altos = modalização mais frequente ao longo do texto.
Valores mais baixos = modalização rara ou ausente.

Cálculo:
IMod10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Modalização
L = número total de caracteres do documento

Interpretação:
Valores altos indicam maior recorrência de procedimentos que modulam compromisso, certeza, obrigação, avaliação e intensidade, estruturando a tomada de posição do enunciador.

Observação:
Métrica de frequência (contagem normalizada). Depende do protocolo de anotação e da granularidade da segmentação.

Número de estratégias de modalização deontica (por 10.000 caracteres)

Definição:
Mede a incidência de trechos classificados como modalização deôntica dentro da camada de modalização, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhuma modalização deôntica identificada.
Valores mais altos = deôntica mais frequente.
Valores mais baixos = deôntica rara ou ausente.

Cálculo:
IDeon10k = (S * 10000) / L
onde:
S = número de segmentos classificados como modalização deôntica
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de marcas de obrigação, permissão, proibição, dever, necessidade normativa ou prescritividade.

Observação:
Métrica de frequência. A deôntica pode ser expressa por verbos modais, imperativos, construções normativas e outros recursos; a comparabilidade depende do protocolo.

Número de estratégias de modalização epistêmica (por 10.000 caracteres)

Definição:
Mede a incidência de trechos classificados como modalização epistêmica dentro da camada de modalização, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhuma modalização epistêmica identificada.
Valores mais altos = epistêmica mais frequente.
Valores mais baixos = epistêmica rara ou ausente.

Cálculo:
IEpist10k = (S * 10000) / L
onde:
S = número de segmentos classificados como modalização epistêmica
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de marcas de certeza, dúvida, possibilidade, probabilidade, evidência e comprometimento cognitivo com o que é dito.

Observação:
Métrica de frequência. A epistêmica pode ser expressa por advérbios, verbos modais, evidenciais e outras construções; a comparabilidade depende do protocolo.

Número de estratégias de naturalização (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos de controle classificados como naturalização, normalizando pela extensão do documento. Expressa quantos segmentos de naturalização ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma naturalização identificada.
Valores mais altos = naturalização mais frequente.
Valores mais baixos = naturalização rara ou ausente.

Cálculo:
INat10k = (S * 10000) / L
onde:
S = número de segmentos classificados como naturalização
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de formulações que apresentam relações, normas ou estados de coisas como óbvios, naturais ou inevitáveis (conforme tipologia adotada).

Observação:
Métrica de frequência. Pode ser muito dependente de marcadores linguísticos específicos e do rigor de anotação.

Número de estratégias de polarização (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como polarização dentro da camada de encenação, normalizando pela extensão do documento. Expressa quantos segmentos de polarização ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma polarização identificada.
Valores mais altos = polarização mais frequente.
Valores mais baixos = polarização rara ou ausente.

Cálculo:
IPol10k = (S * 10000) / L
onde:
S = número de segmentos classificados como polarização
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de movimentos que organizam a cena em termos de oposição/antagonismo (nós/eles, bem/mal, legítimo/ilegítimo), conforme a definição operacional adotada.

Observação:
Métrica de frequência. A polarização pode se manifestar por múltiplos marcadores; a consistência depende do protocolo de anotação.

Número de estratégias de pré-construído (por 10.000 caracteres)

Definição:
Mede a incidência de trechos classificados como pré-construído dentro da camada de inscrição, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhum pré-construído identificado.
Valores mais altos = pré-construído mais frequente.
Valores mais baixos = pré-construído raro ou ausente.

Cálculo:
IPre10k = (S * 10000) / L
onde:
S = número de segmentos classificados como pré-construído
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de conteúdos apresentados como já estabelecidos, “sabidos” ou estabilizados socialmente, funcionando como base não problematizada para o dizer.

Observação:
Métrica de frequência. “Pré-construído” exige critérios teórico-operacionais claros para não se confundir com pressuposição; compare dentro do mesmo protocolo.

Número de estratégias de pressuposição (por 10.000 caracteres)

Definição:
Mede a incidência de trechos classificados como pressuposição dentro da camada de implicitação, normalizando pela extensão do documento. Expressa quantas ocorrências de pressuposição aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhuma pressuposição identificada.
Valores mais altos = pressuposição mais frequente.
Valores mais baixos = pressuposição rara ou ausente.

Cálculo:
IPresup10k = (S * 10000) / L
onde:
S = número de segmentos classificados como pressuposição
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem que o texto recorre com frequência a conteúdos tratados como dados, assumidos ou já aceitos, deslocando o foco do debate do “se” para o “como”/“o quê”.

Observação:
Métrica de frequência. A pressuposição pode ser marcada por múltiplos recursos linguísticos; a comparabilidade depende de critérios operacionais claros e consistentes.

Número de estratégias de problematização (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos de controle classificados como problematização, normalizando pela extensão do documento. Expressa quantos segmentos de problematização ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma problematização identificada.
Valores mais altos = problematização mais frequente.
Valores mais baixos = problematização rara ou ausente.

Cálculo:
IProb10k = (S * 10000) / L
onde:
S = número de segmentos classificados como problematização
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de movimentos discursivos que colocam em questão pressupostos, normas, narrativas ou “evidências” dadas, segundo a tipologia adotada.

Observação:
Métrica de frequência; não mede qualidade crítica. Pode ser afetada por escolhas de segmentação e pelo gênero textual.

Número de estratégias de progressão (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como estratégias de progressão no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Progressão” ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma progressão identificada.
Valores mais altos = progressão mais frequente.
Valores mais baixos = progressão rara ou ausente.

Cálculo:
IProg10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Progressão
L = número total de caracteres do documento

Interpretação:
Valores altos indicam maior recorrência de procedimentos que organizam avanço textual (encadeamento de movimentos, passos, etapas, sequência argumentativa, desenvolvimento).

Observação:
Métrica de frequência. Depende do protocolo de anotação e pode variar por gênero (relato, justificativa, discurso deliberativo etc.).

Número de estratégias de regulação (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como estratégias de regulação no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Regulação” ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma regulação identificada.
Valores mais altos = regulação mais frequente.
Valores mais baixos = regulação rara ou ausente.

Cálculo:
IReg10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Regulação
L = número total de caracteres do documento

Interpretação:
Valores altos indicam maior recorrência de procedimentos de regulação discursiva (gestão de interação, metacomentário, ajuste, orientação do dizer), conforme a tipologia adotada.

Observação:
Métrica de frequência. Depende do protocolo de anotação e pode variar por gênero (debate, plenário, aula, entrevista).

Número de estratégias de regulação dialógica (por 10.000 caracteres)

Definição:
Mede a incidência de trechos classificados como regulação dialógica dentro da camada de regulação, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhuma regulação dialógica identificada.
Valores mais altos = regulação dialógica mais frequente.
Valores mais baixos = regulação dialógica rara ou ausente.

Cálculo:
IDialog10k = (S * 10000) / L
onde:
S = número de segmentos classificados como regulação dialógica
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de movimentos que gerem o outro/interlocutor (endereçamento, convite, réplica, antecipação de objeções, marcação de turnos), conforme definição operacional.

Observação:
Métrica de frequência. Tende a ser mais alta em textos interacionais e mais baixa em textos monológicos, conforme o protocolo.

Número de estratégias de repetição (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como repetição dentro da camada de figuração, normalizando pela extensão do documento. Expressa quantos segmentos de repetição ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma repetição identificada.
Valores mais altos = repetição mais frequente.
Valores mais baixos = repetição rara ou ausente.

Cálculo:
IRep10k = (S * 10000) / L
onde:
S = número de segmentos classificados como repetição
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de procedimentos de repetição (retomadas, paralelismos, refrães, insistências), conforme definição operacional.

Observação:
Métrica de frequência. A repetição pode ser formal, lexical, sintática ou discursiva; a comparabilidade depende do protocolo.

Número de estratégias de subjetivação (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como estratégias de subjetivação no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Subjetivação” ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma subjetivação identificada.
Valores mais altos = subjetivação mais frequente.
Valores mais baixos = subjetivação rara ou ausente.

Cálculo:
ISubj10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Subjetivação
L = número total de caracteres do documento

Interpretação:
Valores altos indicam maior recorrência de procedimentos de inscrição de sujeito/posicionamento, marcando presença enunciativa, agência, experiência, perspectiva ou identidade discursiva.

Observação:
Métrica de frequência. Depende do protocolo de anotação e pode variar por gênero (autobiográfico, institucional, técnico, debate etc.).

Número de estratégias de subjetivação total (por 10.000 caracteres)

Definição:
Mede a incidência de trechos classificados como subjetivação total dentro da camada de subjetivação, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhuma subjetivação total identificada.
Valores mais altos = subjetivação total mais frequente.
Valores mais baixos = subjetivação total rara ou ausente.

Cálculo:
IPess10k = (S * 10000) / L
onde:
S = número de segmentos classificados como subjetivação total
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de marcas fortes de presença enunciativa/pessoalização (p.ex., autoinscrição explícita, agência assumida, perspectiva fortemente ancorada), conforme definição operacional.

Observação:
Métrica de frequência. A subjetivação total depende de critérios claros para não se confundir com subjetivação “regular”.

Número de estratégias de supressão (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como supressão dentro da camada de figuração, normalizando pela extensão do documento. Expressa quantos segmentos de supressão ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma supressão identificada.
Valores mais altos = supressão mais frequente.
Valores mais baixos = supressão rara ou ausente.

Cálculo:
ISupr10k = (S * 10000) / L
onde:
S = número de segmentos classificados como supressão
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de operações de apagamento/omissão/elisão relevantes para a construção de sentido, conforme definição operacional.

Observação:
Métrica de frequência. A identificação de supressão exige critérios consistentes para não confundir com simples economia textual.

Número de estratégias de transgressão (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como transgressão dentro da camada de figuração, normalizando pela extensão do documento. Expressa quantos segmentos de transgressão ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma transgressão identificada.
Valores mais altos = transgressão mais frequente.
Valores mais baixos = transgressão rara ou ausente.

Cálculo:
ITransg10k = (S * 10000) / L
onde:
S = número de segmentos classificados como transgressão
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de operações que rompem expectativas normativas (de registro, gênero, convenção, decoro, regra discursiva), conforme definição operacional.

Observação:
Métrica de frequência. A noção de “transgressão” é sensível ao contexto e ao gênero; critérios precisam ser explícitos.

Número de estratégias de vitimização (por 10.000 caracteres)

Definição:
Mede a incidência de segmentos classificados como vitimização dentro da camada de encenação, normalizando pela extensão do documento. Expressa quantos segmentos de vitimização ocorrem a cada 10.000 caracteres.

Como ler:
0 = nenhuma vitimização identificada.
Valores mais altos = vitimização mais frequente.
Valores mais baixos = vitimização rara ou ausente.

Cálculo:
IVit10k = (S * 10000) / L
onde:
S = número de segmentos classificados como vitimização
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem maior recorrência de movimentos que constroem um agente/ator como alvo de dano, injustiça, perseguição ou sofrimento, conforme a definição operacional adotada.

Observação:
Métrica de frequência. A vitimização pode ser explícita ou implícita; a comparabilidade depende da estabilidade do protocolo de anotação.

Profundidade sintática

Definição:
Mede o grau de hierarquia interna das frases (complexidade estrutural).
Corresponde ao número de níveis na árvore de dependências: maior distância entre a raiz da sentença e um termo subordinado indica mais encaixes, mais subordinação e maior complexidade.

Como ler:
Como interpretar:
• Baixa (1-3) → frases simples, coordenação, oralidade
• Média (4-6) → prosa informativa normal
• Alta (7-9) → estilo elaborado, jurídico ou acadêmico
• Muito alta (10+) → períodos complexos, muitas subordinadas encaixadas

Cálculo:
Profundidade = maior distância (em níveis) entre a raiz e um nó subordinado na árvore de dependências (por sentença).
(Agregação típica: média e/ou máximo ao longo do documento.)

Interpretação:
Mais alta = frases estruturalmente mais complexas (mais encaixes e subordinações), sugerindo estilo mais elaborado.

Observação:
Não mede tamanho da frase, mas complexidade estrutural: frases com o mesmo número de palavras podem ter profundidades muito diferentes.

Racionalidade argumentativa

Definição:
Mede a razão entre argumentos classificados como racionais e argumentos classificados como retóricos no documento. Indica o balanço entre sustentação racional (p.ex., evidências, causalidade, dados, justificativas) e sustentação retórica (p.ex., apelos persuasivos, recursos estilísticos, pathos/ethos) dentro da camada de Argumentação.

Como ler:
0 = ausência de argumentos racionais (ou numerador nulo).
1 = equilíbrio aproximado entre componentes racionais e retóricos.
Valores > 1 = predominância de racionalidade sobre retórica.
Valores < 1 = predominância de retórica sobre racionalidade.

Cálculo:
A = R / T
onde:
R = quantidade de argumentos racionais
T = quantidade de argumentos retóricos

Interpretação:
Valores altos sugerem argumentação mais orientada a justificativas e fundamentação; valores baixos sugerem maior peso de apelos retóricos. O resultado é comparativo e depende de como “racional” e “retórico” foram operacionalizados na anotação.

Observação:
Depende do mapeamento de etiquetas em conjuntos “racionais” e “retóricos”.

Responsabilização

Definição:
Mede a incidência de trechos que atribuem responsabilidade a um agente/ator de modo direto, normalizando pela extensão do documento. Expressa quantas ocorrências de responsabilização aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhuma responsabilização identificada.
Valores mais altos = responsabilização mais frequente.
Valores mais baixos = responsabilização rara ou ausente.

Cálculo:
Resp10k = (S * 10000) / L
onde:
S = número de segmentos classificados como responsabilização
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem que o texto frequentemente identifica agentes responsáveis (por ações, decisões, consequências), configurando papéis e imputações na cena discursiva.

Observação:
Esta métrica é uma incidência específica (por 10.000 caracteres). Ela convive com a incidência/cobertura/índice agregados de “responsabilização” (ver campos abaixo), que combinam subtipos.

Responsabilização difusa

Definição:
Mede a incidência de trechos que atribuem responsabilidade de forma difusa (sem agente claramente delimitado, ou com agência diluída), normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.

Como ler:
0 = nenhuma responsabilização difusa identificada.
Valores mais altos = maior frequência de atribuições difusas.
Valores mais baixos = atribuições difusas raras ou ausentes.

Cálculo:
RespDif10k = (S * 10000) / L
onde:
S = número de segmentos classificados como responsabilização difusa
L = número total de caracteres do documento

Interpretação:
Valores altos sugerem tendência a distribuir ou diluir responsabilidades (por exemplo, em coletivos vagos, processos abstratos ou “forças” impessoais), afetando a imputação direta de agência.

Observação:
Métrica de incidência específica (por 10.000 caracteres). A definição operacional de “difusa” deve estar clara para garantir comparabilidade.

Type-Token Ratio (TTR)

Definição:
Índice de diversidade lexical.
Mede a proporção de palavras diferentes (types) em relação ao total de palavras (tokens). É intuitivo e fácil de ler, mas tende a diminuir conforme o texto cresce (porque novas palavras “surgem” mais devagar em textos longos).

Como ler:
Valores de referência:
0,20-0,35 → fala espontânea/oralidade
0,35-0,50 → texto informativo (notícia)
0,50-0,65 → texto argumentativo/acadêmico
0,65+ → texto literário

Cálculo:
TTR = V / N
V = número de types (palavras diferentes)
N = número de tokens (palavras totais)

Interpretação:
Mais alto = maior diversidade lexical (maior variação de vocabulário no texto).

Observação:
Muito sensível ao tamanho do texto: comparar TTR entre textos de tamanhos diferentes pode distorcer a leitura. Para textos longos, prefira índices corrigidos (ex.: Guiraud, Herdan).

Início | Falatório | Letras+ | Pibid | UnDF

Métricas

Aviso sobre o uso das métricas