Métricas
Aviso sobre o uso das métricas
As métricas apresentadas neste sistema têm caráter experimental e exploratório. Elas resultam de uma proposta metodológica ainda em desenvolvimento e, até o momento, não passaram por validação empírica ampla ou sistemática (por exemplo, testes de confiabilidade interanotador em larga escala, validação externa ou comparação extensiva com corpora de referência). Assim, devem ser entendidas como instrumentos de investigação e apoio analítico, e não como medidas definitivas ou conclusivas.
Os indicadores principais são:
- N — número de ocorrências (por 10.000 caracteres)
Corresponde à frequência de ocorrência de um fenômeno no texto, normalizada pela extensão do documento. A normalização evita que textos mais longos apresentem valores artificialmente maiores apenas por seu tamanho, permitindo comparações entre documentos de dimensões diferentes. - C — cobertura
Mede a proporção de caracteres do texto incluídos em segmentos anotados para determinado fenômeno em relação ao total de caracteres do documento. Diferentemente de N, que expressa quantas vezes algo ocorre, a cobertura expressa quanto do texto é ocupado por esse fenômeno. - i — índices
Os índices combinam frequência e cobertura por meio de uma média harmônica (F-score), dada por i = (2 * N * C) / (N + C). O objetivo desse cálculo é evitar interpretações enviesadas quando apenas um dos fatores é alto. Por exemplo, um fenômeno pode aparecer muitas vezes em trechos muito curtos (alta frequência e baixa cobertura) ou poucas vezes em trechos muito extensos (baixa frequência e alta cobertura). O índice busca identificar situações em que o fenômeno é ao mesmo tempo recorrente e distribuído ao longo do texto, reduzindo o peso de valores extremos em apenas uma dimensão. - Outros indicadores específicos
Algumas camadas incluem métricas adicionais (proporções internas, razões entre subtipos, distribuições por etiqueta etc.), destinadas a caracterizar qualitativamente a forma de ocorrência do fenômeno, e não apenas sua intensidade global.
Sugestões de novos indicadores são bem-vindas. Sempre que possível, eles poderão ser incorporados ao sistema, a depender da viabilidade de implementação — especialmente disponibilidade de dados anotados e custo computacional de cálculo.
Os resultados dependem diretamente do processo de anotação: granularidade dos segmentos, extensão das marcações, critérios de segmentação e conjunto de etiquetas e subclassificações adotados. Esses parâmetros também estão em revisão contínua e podem ser ajustados ao longo do desenvolvimento do projeto.
Por fim, os valores apresentados devem ser utilizados de maneira crítica. Eles não constituem, por si só, evidências conclusivas da ocorrência de um fenômeno discursivo. Os indicadores são sensíveis a múltiplas variáveis — gênero textual, estilo individual, tamanho do documento, distribuição temática, qualidade da anotação, entre outras — e precisam sempre ser interpretados em conjunto com a leitura qualitativa do material analisado.
Mede a proporção de segmentos argumentativos classificados como agressivos em relação ao total de segmentos argumentativos do texto. Indica com que frequência a argumentação assume formato de ataque, desqualificação, hostilidade ou confronto direto (conforme a definição operacional adotada na anotação)
0 = nenhum segmento argumentativo agressivo.
1 = todos os segmentos argumentativos são agressivos.
Valores mais altos = maior presença de agressividade na argumentação.
Valores mais baixos = argumentação majoritariamente não agressiva.
AA = G / S
onde:
G = número de segmentos argumentativos agressivos
S = número total de segmentos argumentativos
Valores maiores → texto mais “agressivo” (ataques pessoais, ameaças, distorções).
Valores menores → texto menos “agressivo” (argumentação mais construtiva).
Depende do conjunto de argumentos classificados como “agressivos” no mapeamento de etiquetas.
Mede a proporção do texto efetivamente ocupada por trechos marcados como “Argumentação”. Indica quanto do documento, em caracteres, está coberto por marcação argumentativa.
0 = nenhum caractere do texto foi marcado como argumentação.
1 = todo o texto foi marcado como argumentação.
Valores mais altos = maior parcela do texto dedicada à argumentação.
Valores mais baixos = argumentação pontual, localizada ou ausente.
CA = A / L
onde:
A = número de caracteres marcados como Argumentação
L = número de caracteres do documento
Valores altos indicam que a argumentação se estende por uma grande parte do documento; valores baixos indicam que a argumentação aparece em ilhas/trechos delimitados (ou não aparece).
Por ser uma proporção, é sensível a como a camada é anotada (marcações longas vs. curtas). Não distingue muitos argumentos curtos de poucos argumentos longos — isso é capturado pela incidência.
Mede a proporção do texto ocupada por trechos classificados como deslocamento semântico dentro da camada de figuração.
0 = nenhum caractere marcado como deslocamento semântico.
1 = todo o texto marcado como deslocamento semântico.
Valores mais altos = deslocamento semântico abrangente.
Valores mais baixos = ocorrência pontual/localizada.
CDesl = A / L
onde:
A = número de caracteres marcados como deslocamento semântico
L = número total de caracteres do documento
Cobertura alta indica que deslocamentos semânticos se estendem por grandes trechos; cobertura baixa indica ocorrências concentradas.
Combine com incidência para distinguir poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como encadeamento dentro da camada de figuração.
0 = nenhum caractere marcado como encadeamento.
1 = todo o texto marcado como encadeamento.
Valores mais altos = encadeamento abrangente.
Valores mais baixos = encadeamento pontual.
CEncad = A / L
onde:
A = número de caracteres marcados como encadeamento
L = número total de caracteres do documento
Cobertura alta indica que encadeamentos atravessam grandes trechos; cobertura baixa indica ocorrências localizadas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos ligados à atribuição de responsabilidade (somando responsabilização, desresponsabilização e responsabilização difusa) dentro da camada de encenação.
0 = nenhum caractere marcado como atribuição de responsabilidade.
1 = todo o texto marcado como atribuição de responsabilidade.
Valores mais altos = atribuição de responsabilidade abrangente.
Valores mais baixos = ocorrência pontual/localizada.
CResp = A / L
onde:
A = número total de caracteres marcados como atribuição de responsabilidade (soma dos subtipos)
L = número total de caracteres do documento
Cobertura alta sugere que a imputação de papéis de responsabilidade atravessa grande parte do texto; cobertura baixa sugere ocorrência localizada.
Como é proporção, combine com incidência para distinguir poucos trechos longos de muitos trechos curtos. A comparabilidade depende da consistência na marcação dos subtipos.
Mede a proporção do texto ocupada por trechos classificados como autorregulação dentro da camada de regulação.
0 = nenhum caractere marcado como autorregulação.
1 = todo o texto marcado como autorregulação.
Valores mais altos = autorregulação abrangente.
Valores mais baixos = autorregulação pontual/localizada.
CAuto = A / L
onde:
A = número de caracteres marcados como autorregulação
L = número total de caracteres do documento
Cobertura alta indica que autorregulações atravessam grandes trechos; cobertura baixa indica ocorrências concentradas.
Combine com incidência para distinguir poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como avaliação dentro da camada de modalização.
0 = nenhum caractere marcado como avaliação.
1 = todo o texto marcado como avaliação.
Valores mais altos = avaliação abrangente.
Valores mais baixos = avaliação pontual/localizada.
CAval = A / L
onde:
A = número de caracteres marcados como avaliação
L = número total de caracteres do documento
Cobertura alta indica que a avaliação atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como citação dentro da camada de inscrição.
0 = nenhum caractere marcado como citação.
1 = todo o texto marcado como citação.
Valores mais altos = citação abrangente.
Valores mais baixos = citação pontual/localizada.
CCit = A / L
onde:
A = número de caracteres marcados como citação
L = número total de caracteres do documento
Cobertura alta indica que a citação se estende por grandes trechos; cobertura baixa indica ocorrência localizada.
Combine com incidência para distinguir poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto efetivamente ocupada por trechos marcados como “Controle”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de controle.
0 = nenhum caractere do texto foi marcado como Controle.
1 = todo o texto foi marcado como Controle.
Valores mais altos = maior parcela do texto dedicada a estratégias de controle.
Valores mais baixos = controle pontual, localizado ou ausente.
CC = A / L
onde:
A = número de caracteres marcados como Controle
L = número total de caracteres do documento
Cobertura alta indica que o controle se estende por grande parte do texto; cobertura baixa indica presença localizada (ou inexistente) de controle.
Por ser uma proporção, não distingue muitos segmentos curtos de poucos segmentos longos. Para isso, combine com a incidência por 10.000 caracteres.
Mede a proporção do texto ocupada por trechos classificados como deslegitimação dentro da camada de controle.
0 = nenhum caractere marcado como deslegitimação.
1 = todo o texto marcado como deslegitimação.
Valores mais altos = deslegitimação abrangente.
Valores mais baixos = deslegitimação pontual.
CDesleg = A / L
onde:
A = número de caracteres marcados como deslegitimação
L = número total de caracteres do documento
Cobertura alta indica que a deslegitimação se estende por grandes trechos; cobertura baixa indica ocorrência localizada.
Combine com incidência para diferenciar poucos trechos longos (baixa incidência/alta cobertura) de muitos trechos curtos (alta incidência/baixa cobertura).
Mede a proporção do texto ocupada por trechos classificados como desubjetivação dentro da camada de subjetivação.
0 = nenhum caractere marcado como desubjetivação.
1 = todo o texto marcado como desubjetivação.
Valores mais altos = desubjetivação abrangente.
Valores mais baixos = desubjetivação pontual/localizada.
CDesubj = A / L
onde:
A = número de caracteres marcados como desubjetivação
L = número total de caracteres do documento
Cobertura alta indica que a impessoalização/apagamento atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como dramatização dentro da camada de encenação.
0 = nenhum caractere marcado como dramatização.
1 = todo o texto marcado como dramatização.
Valores mais altos = dramatização abrangente.
Valores mais baixos = dramatização pontual.
CDrama = A / L
onde:
A = número de caracteres marcados como dramatização
L = número total de caracteres do documento
Cobertura alta indica que a dramatização se estende por grandes trechos; cobertura baixa indica ocorrência localizada.
Combine com incidência para distinguir poucos trechos longos (baixa incidência/alta cobertura) de muitos trechos curtos (alta incidência/baixa cobertura).
Mede a proporção do texto ocupada por trechos marcados como “Encenação”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de encenação.
0 = nenhum caractere marcado como encenação.
1 = todo o texto marcado como encenação.
Valores mais altos = encenação abrangente e distribuída.
Valores mais baixos = encenação pontual/localizada.
CE = A / L
onde:
A = número de caracteres marcados como Encenação
L = número total de caracteres do documento
Cobertura alta sugere que a encenação atravessa uma parcela ampla do texto; cobertura baixa sugere que aparece em momentos específicos (ou não aparece).
Como é proporção, não diferencia muitos segmentos curtos de poucos segmentos longos. Para isso, combine com a incidência por 10.000 caracteres.
Mede a proporção do texto ocupada por trechos classificados como enquadramento dentro da camada de inscrição.
0 = nenhum caractere marcado como enquadramento.
1 = todo o texto marcado como enquadramento.
Valores mais altos = enquadramento abrangente.
Valores mais baixos = enquadramento pontual/localizado.
CEnq = A / L
onde:
A = número de caracteres marcados como enquadramento
L = número total de caracteres do documento
Cobertura alta indica que o enquadramento atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos marcados como “Figuração”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de figuração.
0 = nenhum caractere marcado como figuração.
1 = todo o texto marcado como figuração.
Valores mais altos = figuração abrangente e distribuída.
Valores mais baixos = figuração pontual/localizada.
CFig = A / L
onde:
A = número de caracteres marcados como Figuração
L = número total de caracteres do documento
Cobertura alta sugere que a figuração atravessa grande parte do texto; cobertura baixa sugere ocorrências localizadas (ou inexistentes).
Como é proporção, não distingue muitos segmentos curtos de poucos segmentos longos. Combine com a incidência por 10.000 caracteres.
Mede a proporção do texto ocupada por trechos classificados como formulaicidade dentro da camada de inscrição.
0 = nenhum caractere marcado como formulaicidade.
1 = todo o texto marcado como formulaicidade.
Valores mais altos = formulaicidade abrangente.
Valores mais baixos = formulaicidade pontual/localizada.
CForm = A / L
onde:
A = número de caracteres marcados como formulaicidade
L = número total de caracteres do documento
Cobertura alta indica que fórmulas/padrões se estendem por grandes trechos; cobertura baixa indica ocorrências concentradas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como graduação dentro da camada de modalização.
0 = nenhum caractere marcado como graduação.
1 = todo o texto marcado como graduação.
Valores mais altos = graduação abrangente.
Valores mais baixos = graduação pontual/localizada.
CGrad = A / L
onde:
A = número de caracteres marcados como graduação
L = número total de caracteres do documento
Cobertura alta indica que a graduação atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos marcados como “Implicitação”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de implicitação.
0 = nenhum caractere marcado como implicitação.
1 = todo o texto marcado como implicitação.
Valores mais altos = implicitação abrangente e distribuída.
Valores mais baixos = implicitação pontual/localizada.
CImpl = A / L
onde:
A = número de caracteres marcados como Implicitação
L = número total de caracteres do documento
Cobertura alta sugere que a implicitação atravessa grande parte do texto; cobertura baixa sugere ocorrências localizadas.
Como é proporção, não distingue muitos segmentos curtos de poucos segmentos longos. Combine com a incidência por 10.000 caracteres.
Mede a proporção do texto ocupada por trechos classificados como inferência dentro da camada de implicitação.
0 = nenhum caractere marcado como inferência.
1 = todo o texto marcado como inferência.
Valores mais altos = inferência abrangente.
Valores mais baixos = inferência pontual/localizada.
CInfer = A / L
onde:
A = número de caracteres marcados como inferência
L = número total de caracteres do documento
Cobertura alta indica que inferências atravessam grandes trechos; cobertura baixa indica ocorrências concentradas em poucos pontos.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos marcados como “Inscrição”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de inscrição.
0 = nenhum caractere marcado como inscrição.
1 = todo o texto marcado como inscrição.
Valores mais altos = inscrição abrangente e distribuída.
Valores mais baixos = inscrição pontual/localizada.
CInsc = A / L
onde:
A = número de caracteres marcados como Inscrição
L = número total de caracteres do documento
Cobertura alta sugere que a inscrição atravessa uma parcela ampla do texto; cobertura baixa sugere ocorrências localizadas.
Como é proporção, combine com incidência para distinguir poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como insinuação dentro da camada de implicitação.
0 = nenhum caractere marcado como insinuação.
1 = todo o texto marcado como insinuação.
Valores mais altos = insinuação abrangente.
Valores mais baixos = insinuação pontual/localizada.
CInsin = A / L
onde:
A = número de caracteres marcados como insinuação
L = número total de caracteres do documento
Cobertura alta indica que a insinuação se estende por trechos amplos; cobertura baixa indica ocorrências concentradas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como legitimação dentro da camada de controle. Indica quanto do documento, em caracteres, está coberto por marcação de legitimação.
0 = nenhum caractere marcado como legitimação.
1 = todo o texto marcado como legitimação.
Valores mais altos = legitimação distribuída/abrangente.
Valores mais baixos = legitimação pontual/localizada.
CLeg = A / L
onde:
A = número de caracteres marcados como legitimação
L = número total de caracteres do documento
Cobertura alta indica que a legitimação ocupa porções extensas do texto; cobertura baixa indica aparições concentradas em segmentos específicos.
Combine com a incidência: cobertura alta com baixa incidência sugere poucos trechos longos; incidência alta com baixa cobertura sugere muitos trechos curtos.
Mede a proporção do texto ocupada por trechos marcados como “Modalização”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de modalização.
0 = nenhum caractere marcado como modalização.
1 = todo o texto marcado como modalização.
Valores mais altos = modalização abrangente e distribuída.
Valores mais baixos = modalização pontual/localizada.
CMod = A / L
onde:
A = número de caracteres marcados como Modalização
L = número total de caracteres do documento
Cobertura alta sugere que a modalização atravessa grande parte do texto; cobertura baixa sugere ocorrências localizadas.
Como é proporção, combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como modalização deôntica dentro da camada de modalização.
0 = nenhum caractere marcado como deôntica.
1 = todo o texto marcado como deôntica.
Valores mais altos = deôntica abrangente.
Valores mais baixos = deôntica pontual/localizada.
CDeon = A / L
onde:
A = número de caracteres marcados como modalização deôntica
L = número total de caracteres do documento
Cobertura alta indica que a prescritividade/obrigação atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como modalização epistêmica dentro da camada de modalização.
0 = nenhum caractere marcado como epistêmica.
1 = todo o texto marcado como epistêmica.
Valores mais altos = epistêmica abrangente.
Valores mais baixos = epistêmica pontual/localizada.
CEpist = A / L
onde:
A = número de caracteres marcados como modalização epistêmica
L = número total de caracteres do documento
Cobertura alta indica que a marcação de certeza/dúvida atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como naturalização dentro da camada de controle.
0 = nenhum caractere marcado como naturalização.
1 = todo o texto marcado como naturalização.
Valores mais altos = naturalização abrangente.
Valores mais baixos = naturalização pontual.
CNat = A / L
onde:
A = número de caracteres marcados como naturalização
L = número total de caracteres do documento
Cobertura alta indica que a naturalização atravessa porções extensas do texto; cobertura baixa indica ocorrências concentradas em segmentos específicos.
Combine com incidência para distinguir poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como polarização dentro da camada de encenação.
0 = nenhum caractere marcado como polarização.
1 = todo o texto marcado como polarização.
Valores mais altos = polarização abrangente.
Valores mais baixos = polarização pontual.
CPol = A / L
onde:
A = número de caracteres marcados como polarização
L = número total de caracteres do documento
Cobertura alta indica que a polarização atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como pré-construído dentro da camada de inscrição.
0 = nenhum caractere marcado como pré-construído.
1 = todo o texto marcado como pré-construído.
Valores mais altos = pré-construído abrangente.
Valores mais baixos = pré-construído pontual/localizado.
CPre = A / L
onde:
A = número de caracteres marcados como pré-construído
L = número total de caracteres do documento
Cobertura alta indica que o pré-construído atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como pressuposição dentro da camada de implicitação.
0 = nenhum caractere marcado como pressuposição.
1 = todo o texto marcado como pressuposição.
Valores mais altos = pressuposição abrangente.
Valores mais baixos = pressuposição pontual/localizada.
CPresup = A / L
onde:
A = número de caracteres marcados como pressuposição
L = número total de caracteres do documento
Cobertura alta indica que a pressuposição atravessa porções extensas do texto; cobertura baixa indica ocorrências concentradas em poucos trechos.
Como é proporção, combine com incidência para distinguir poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como problematização dentro da camada de controle.
0 = nenhum caractere marcado como problematização.
1 = todo o texto marcado como problematização.
Valores mais altos = problematização abrangente.
Valores mais baixos = problematização pontual.
CProb = A / L
onde:
A = número de caracteres marcados como problematização
L = número total de caracteres do documento
Cobertura alta indica que a problematização atravessa boa parte do texto; cobertura baixa indica que aparece em pontos específicos.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos marcados como “Progressão”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de progressão.
0 = nenhum caractere marcado como progressão.
1 = todo o texto marcado como progressão.
Valores mais altos = progressão abrangente.
Valores mais baixos = progressão pontual/localizada.
CProg = A / L
onde:
A = número de caracteres marcados como Progressão
L = número total de caracteres do documento
Cobertura alta sugere que a organização do avanço textual atravessa grande parte do documento; cobertura baixa sugere ocorrências localizadas.
Como é proporção, combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos marcados como “Regulação”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de regulação.
0 = nenhum caractere marcado como regulação.
1 = todo o texto marcado como regulação.
Valores mais altos = regulação abrangente.
Valores mais baixos = regulação pontual/localizada.
CReg = A / L
onde:
A = número de caracteres marcados como Regulação
L = número total de caracteres do documento
Cobertura alta sugere que a regulação atravessa grande parte do texto; cobertura baixa sugere ocorrências localizadas.
Como é proporção, combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como regulação dialógica dentro da camada de regulação.
0 = nenhum caractere marcado como regulação dialógica.
1 = todo o texto marcado como regulação dialógica.
Valores mais altos = regulação dialógica abrangente.
Valores mais baixos = regulação dialógica pontual/localizada.
CDialog = A / L
onde:
A = número de caracteres marcados como regulação dialógica
L = número total de caracteres do documento
Cobertura alta indica que a regulação do outro/interlocução atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.
Combine com incidência para distinguir poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos marcados como “Subjetivação”. Indica quanto do documento, em caracteres, está coberto por marcação de estratégias de subjetivação.
0 = nenhum caractere marcado como subjetivação.
1 = todo o texto marcado como subjetivação.
Valores mais altos = subjetivação abrangente.
Valores mais baixos = subjetivação pontual/localizada.
CSubj = A / L
onde:
A = número de caracteres marcados como Subjetivação
L = número total de caracteres do documento
Cobertura alta sugere que a subjetivação atravessa grande parte do texto; cobertura baixa sugere ocorrências localizadas.
Como é proporção, combine com incidência para distinguir poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como subjetivação total dentro da camada de subjetivação.
0 = nenhum caractere marcado como subjetivação total.
1 = todo o texto marcado como subjetivação total.
Valores mais altos = subjetivação total abrangente.
Valores mais baixos = subjetivação total pontual/localizada.
CPess = A / L
onde:
A = número de caracteres marcados como subjetivação total
L = número total de caracteres do documento
Cobertura alta indica que a pessoalização forte atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como vitimização dentro da camada de encenação.
0 = nenhum caractere marcado como vitimização.
1 = todo o texto marcado como vitimização.
Valores mais altos = vitimização abrangente.
Valores mais baixos = vitimização pontual.
CVit = A / L
onde:
A = número de caracteres marcados como vitimização
L = número total de caracteres do documento
Cobertura alta indica que a vitimização atravessa grandes trechos; cobertura baixa indica ocorrências concentradas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como interpelação dentro da camada de figuração.
0 = nenhum caractere marcado como interpelação.
1 = todo o texto marcado como interpelação.
Valores mais altos = interpelação abrangente.
Valores mais baixos = interpelação pontual.
CInterp = A / L
onde:
A = número de caracteres marcados como interpelação
L = número total de caracteres do documento
Cobertura alta indica que a interpelação atravessa grandes trechos; cobertura baixa indica ocorrências localizadas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como inversão dentro da camada de figuração.
0 = nenhum caractere marcado como inversão.
1 = todo o texto marcado como inversão.
Valores mais altos = inversão abrangente.
Valores mais baixos = inversão pontual.
CInv = A / L
onde:
A = número de caracteres marcados como inversão
L = número total de caracteres do documento
Cobertura alta indica que inversões se estendem por grandes trechos; cobertura baixa indica ocorrências localizadas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como repetição dentro da camada de figuração.
0 = nenhum caractere marcado como repetição.
1 = todo o texto marcado como repetição.
Valores mais altos = repetição abrangente.
Valores mais baixos = repetição pontual.
CRep = A / L
onde:
A = número de caracteres marcados como repetição
L = número total de caracteres do documento
Cobertura alta indica que repetições atravessam grandes trechos; cobertura baixa indica ocorrências localizadas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como supressão dentro da camada de figuração.
0 = nenhum caractere marcado como supressão.
1 = todo o texto marcado como supressão.
Valores mais altos = supressão abrangente.
Valores mais baixos = supressão pontual.
CSupr = A / L
onde:
A = número de caracteres marcados como supressão
L = número total de caracteres do documento
Cobertura alta indica que supressões atravessam grandes trechos; cobertura baixa indica ocorrências localizadas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Mede a proporção do texto ocupada por trechos classificados como transgressão dentro da camada de figuração.
0 = nenhum caractere marcado como transgressão.
1 = todo o texto marcado como transgressão.
Valores mais altos = transgressão abrangente.
Valores mais baixos = transgressão pontual.
CTransg = A / L
onde:
A = número de caracteres marcados como transgressão
L = número total de caracteres do documento
Cobertura alta indica que transgressões atravessam grandes trechos; cobertura baixa indica ocorrências localizadas.
Combine com incidência para diferenciar poucos trechos longos de muitos trechos curtos.
Encadeamento/continuidade de marcas argumentativas ao longo do texto por “cadeias” de proximidade. Resume a conectividade e a “teia” argumentativa (quantas cadeias existem e quão longas elas são).
— → camada Argumentação não foi anotada
nº de cadeias → quantas cadeias foram identificadas
comprimento médio/máximo → tamanho (nº de eventos) das cadeias
gap (G) → tolerância em caracteres para unir eventos na mesma cadeia argumentativa (padrão = 120)
Mais cadeias → mais encadeamento argumentativo ao longo do texto.
Cadeias mais longas → argumentação mais complexa e interconectada.
A métrica depende do parâmetro de proximidade (gap) e da densidade/segmentação da anotação.
Proporção de palavras de conteúdo (substantivos, adjetivos, verbos e advérbios) no texto em relação ao total. Indica quanta “informação lexical” o texto carrega, em oposição a palavras funcionais (preposições, determinantes, pronomes etc.).
Faixas úteis (aprox.):
0,30-0,40 → fala/coloquialidade, narrativa simples
0,40-0,50 → informativo geral
0,50-0,60 → acadêmico/técnico (alta carga de conteúdo)
0,60+ → muito denso (lista técnica, texto altamente nominal)
Densidade lexical = (tokens de conteúdo) / (tokens totais)
Mais alta → texto mais informativo/terminológico (acadêmico, técnico, jornalístico denso).
Mais baixa → texto mais conversacional, narrativo ou com muita estrutura funcional.
Depende da etiquetagem morfossintática (POS tagging) e do que você define como “conteúdo”.
Mede a incidência de trechos que retiram, atenuam ou negam responsabilidade de um agente/ator, normalizando pela extensão do documento. Expressa quantas ocorrências de desresponsabilização aparecem a cada 10.000 caracteres.
0 = nenhuma desresponsabilização identificada.
Valores mais altos = desresponsabilização mais frequente.
Valores mais baixos = desresponsabilização rara ou ausente.
Desresp10k = (S * 10000) / L
onde:
S = número de segmentos classificados como desresponsabilização
L = número total de caracteres do documento
Valores altos indicam maior recorrência de movimentos que deslocam culpa, justificam, isentam ou minimizam agência/responsabilidade na cena discursiva.
Métrica de incidência específica (por 10.000 caracteres). Deve ser interpretada junto de responsabilização e responsabilização difusa para caracterizar o “regime de imputação” do texto.
Palavras que aparecem exatamente duas vezes no texto (frequência = 2).
Complementa o hapax: indica repetição mínima (itens que reaparecem uma vez), ajudando a diferenciar texto muito “disperso” de texto com algum reaproveitamento de termos.
Faixa típica (dis ratio, aprox.):
0,04-0,08 → comum em muitos textos
Acima disso pode indicar reutilização de um conjunto de termos-chave.
Dis legomena = número de palavras com frequência 2
Dis ratio = Dis / N
N = número total de tokens (palavras)
Quanto maior, maior a presença de repetição mínima (itens que aparecem duas vezes), sugerindo algum reforço terminológico/temático.
Em textos mais técnicos/argumentativos pode subir (terminologia reaparece).
Identificação automática de referências a pessoas, lugares, instituições e outros referentes específicos no texto. A distribuição por categoria mostra o “eixo referencial” do texto: sobre quem/onde/o quê o discurso se ancora.
Categorias típicas:
• PER → pessoas
• ORG → organizações/instituições
• LOC → lugares geográficos
• MISC → outros nomes próprios (eventos, leis, programas, obras etc.)
NER = aplicar modelo de reconhecimento de entidades nomeadas e contar ocorrências (por categoria).
(Agregação típica: contagem absoluta e/ou por 1000 tokens.)
Muitas PER → discurso centrado em atores/agentes.
Muitas ORG → institucional/administrativo.
Muitas LOC → contextualização espacial/histórica.
Muitas MISC → texto temático especializado.
NER não mede diversidade lexical comum, mas densidade referencial. Um texto pode ser lexicalmente simples e altamente referencial (ex.: notícia política).
Mapa de frequências por tipo de estratégia de controle. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Controle”, permitindo identificar quais estratégias predominam.
Resultado em formato de lista/mapa (tipo → contagem).
Valores mais altos em um tipo = aquele tipo ocorre mais no documento.
A leitura é comparativa: observe os tipos dominantes e sua concentração.
DControle = {tipo: contagem, ...}
(estrutura: rótulo/tipo de controle → número de ocorrências)
Permite caracterizar o “perfil” do controle no texto (quais procedimentos são mais ativados), complementando o índice global ao indicar “como” o controle se realiza.
A interpretação depende do inventário de rótulos/tipos e de como foram definidos. Recomenda-se comparar documentos do mesmo gênero e sob as mesmas diretrizes de anotação.
Mapa de frequências por tipo de estratégia de encenação. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Encenação”, permitindo identificar quais estratégias predominam.
Resultado em formato de lista/mapa (tipo → contagem).
Valores mais altos em um tipo = aquele tipo ocorre mais no documento.
A leitura é comparativa: observe os tipos dominantes e sua concentração.
DEnc = {tipo: contagem, ...}
(estrutura: rótulo/tipo de encenação → número de ocorrências)
Permite caracterizar o perfil da encenação no texto (por exemplo, maior peso de dramatização, polarização, vitimização ou atribuição de responsabilidade), complementando os índices globais.
A interpretação depende do inventário de rótulos e de suas definições. A visualização pode priorizar os tipos mais frequentes (ex.: “top 10”), conforme a forma de exibição adotada.
Mapa de frequências por tipo de estratégia de implicitação. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Implicitação”, permitindo identificar quais procedimentos predominam.
Resultado em formato de lista/mapa (tipo → contagem).
Valores mais altos em um tipo = aquele tipo ocorre mais no documento.
A leitura é comparativa: observe os tipos dominantes e sua concentração.
DImpl = {tipo: contagem, ...}
(estrutura: rótulo/tipo de implicitação → número de ocorrências)
Permite caracterizar o perfil de implicitação do texto (por exemplo, maior peso de pressuposições, insinuações ou inferências), complementando o índice global.
A interpretação depende do inventário de rótulos e de suas definições. A visualização pode destacar os tipos mais frequentes (ex.: “top 10”), conforme a forma de exibição adotada.
Mapa de frequências por tipo de estratégia de inscrição. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Inscrição”, permitindo identificar quais procedimentos predominam.
Resultado em formato de lista/mapa (tipo → contagem).
Valores mais altos em um tipo = aquele tipo ocorre mais no documento.
A leitura é comparativa: observe os tipos dominantes e sua concentração.
DInsc = {tipo: contagem, ...}
(estrutura: rótulo/tipo de inscrição → número de ocorrências)
Permite caracterizar o perfil de inscrição do texto (por exemplo, maior peso de citação, enquadramento, formulaicidade, pré-construído), complementando o índice global.
A interpretação depende do inventário de rótulos e de suas definições. A visualização pode destacar os tipos mais frequentes (ex.: “top 10”), conforme a forma de exibição adotada.
Mapa de frequências por tipo de estratégia de modalização. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Modalização”, permitindo identificar quais procedimentos predominam.
Resultado em formato de lista/mapa (tipo → contagem).
Valores mais altos em um tipo = aquele tipo ocorre mais no documento.
A leitura é comparativa: observe os tipos dominantes e sua concentração.
DMod = {tipo: contagem, ...}
(estrutura: rótulo/tipo de modalização → número de ocorrências)
Permite caracterizar o perfil modal do texto (por exemplo, maior peso de avaliação, graduação, deôntica ou epistêmica), complementando índices globais.
A interpretação depende do inventário de rótulos e de suas definições. A visualização pode destacar os tipos mais frequentes, conforme a forma de exibição adotada.
Mapa de frequências por tipo de estratégia de progressão. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Progressão”.
Resultado em formato de lista/mapa (tipo → contagem).
Valores mais altos em um tipo = aquele tipo ocorre mais.
A leitura é comparativa: observe os tipos dominantes.
DProg = {tipo: contagem, ...}
(estrutura: rótulo/tipo de progressão → número de ocorrências)
Ajuda a identificar como o texto avança (por quais movimentos/etapas), complementando índices globais ao indicar “o tipo” de progressão predominante.
A interpretação depende do inventário de rótulos e de suas definições. Compare documentos sob o mesmo protocolo.
Mapa de frequências por tipo de estratégia de regulação. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Regulação”.
Resultado em formato de lista/mapa (tipo → contagem).
Valores mais altos em um tipo = aquele tipo ocorre mais.
A leitura é comparativa: observe os tipos dominantes.
DReg = {tipo: contagem, ...}
(estrutura: rótulo/tipo de regulação → número de ocorrências)
Ajuda a caracterizar como o texto se regula (por quais procedimentos), complementando índices globais ao indicar “o tipo” de regulação predominante.
A interpretação depende do inventário de rótulos e de suas definições. Compare documentos sob o mesmo protocolo.
Mapa de frequências por tipo de estratégia de subjetivação. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Subjetivação”.
Resultado em formato de lista/mapa (tipo → contagem).
Valores mais altos em um tipo = aquele tipo ocorre mais.
A leitura é comparativa: observe os tipos dominantes.
DSubj = {tipo: contagem, ...}
(estrutura: rótulo/tipo de subjetivação → número de ocorrências)
Ajuda a caracterizar o perfil de subjetivação (como a presença do sujeito é construída), complementando índices globais ao indicar “o tipo” predominante.
A interpretação depende do inventário de rótulos e de suas definições. Compare documentos sob o mesmo protocolo.
Mapa de frequências por tipo de figura/estratégia de figuração. Indica quantas ocorrências de cada rótulo/tipo foram registradas no documento dentro da camada “Figuração”, permitindo identificar quais procedimentos predominam.
Resultado em formato de lista/mapa (tipo → contagem).
Valores mais altos em um tipo = aquele tipo ocorre mais no documento.
A leitura é comparativa: observe os tipos dominantes e sua concentração.
DFig = {tipo: contagem, ...}
(estrutura: rótulo/tipo de figuração → número de ocorrências)
Ajuda a caracterizar o perfil figurativo do texto (por exemplo, maior peso de deslocamentos, interpelações, inversões etc.), complementando o índice global ao indicar “como” a figuração se realiza.
A interpretação depende do inventário de rótulos e de suas definições. A visualização pode destacar os tipos mais frequentes (ex.: “top 10”), conforme a forma de exibição adotada.
Mapa de frequências por tipo argumentativo dentro da camada de Argumentação. Indica quantas ocorrências de cada tipo (rótulo) foram registradas no documento, permitindo identificar quais estratégias argumentativas predominam.
Resultado em formato de lista/mapa (tipo → contagem).
Valores mais altos em um tipo = aquele tipo ocorre mais no documento.
A leitura é comparativa: observe o “top 10” para ver os tipos dominantes.
Ajuda a caracterizar o perfil argumentativo do texto (p.ex., maior presença de causas/consequências, exemplos, autoridade, analogias, etc., conforme o inventário de tipos). A distribuição complementa índices globais ao mostrar “como” se argumenta, não apenas “quanto”.
A interpretação depende do seu mapeamento de etiquetas e da granularidade da anotação.
Diversidade informacional do vocabulário.
Mede o “grau de imprevisibilidade” da distribuição de frequências: se muitas palavras têm frequências parecidas, a entropia tende a ser maior; se poucas palavras dominam, a entropia tende a ser menor.
Valores de referência (aprox.):
6,0-6,8 → fala espontânea / repetição alta
6,8-7,4 → informativo
7,4-8,2 → argumentativo/acadêmico
8,2+ → literário / alta diversidade
H = - Σ p(w) · log2 p(w)
p(w) = frequência relativa da palavra w
Maior = distribuição de frequências mais “uniforme” (menos previsível).
Menor = texto mais repetitivo (algumas palavras dominam).
Dependente de pré-processamento (tokenização, remoção/normalização, lematização). Compare preferencialmente textos processados do mesmo modo.
Lista os lemas mais frequentes do texto em frequência absoluta (freq) e em frequência relativa normalizada pelo tamanho do texto. A normalização (por 1000 tokens) permite comparação direta entre textos de tamanhos diferentes.
Como interpretar:
• por_1000 permite comparar textos de tamanhos diferentes.
• Valores altos indicam itens muito recorrentes (marcas de tema ou de estilo).
• Se os tops forem sobretudo palavras funcionais (de, o, e, que), isso reflete a gramática; se forem termos de conteúdo (governança, eficiência), isso reflete tema.
rel = freq / N
por_1000 = (freq / N) x 1000
N = número total de tokens (palavras)
Valores altos (por_1000) indicam itens centrais no texto: podem sinalizar tema (termos de conteúdo) ou estilo/gramática (funcionais).
O cálculo pode ser feito por palavra, lema ou unidade lexical. Aqui é por lema.
Palavras que aparecem apenas uma vez no texto (frequência = 1).
Captura o quanto o texto “introduz” vocabulário novo sem repetição, servindo como indicador de exploração lexical e de variedade de escolha vocabular.
Valores de referência (hapax ratio, aprox.):
0,20-0,30 → fala espontânea
0,30-0,40 → informativo
0,40-0,55 → argumentativo/acadêmico
0,55+ → literário (muito variado)
Hapax = número de palavras com frequência 1
Hapax ratio = Hapax / N
N = número total de tokens (palavras)
Quanto maior, mais “exploratório” é o vocabulário (menos repetição) e maior a variedade lexical efetiva.
Útil para caracterizar estilo e complexidade lexical; pode subir em textos longos e variados, e cair em textos com forte repetição temática/terminológica.
Índice robusto de riqueza lexical.
Mede diversidade lexical corrigindo o efeito do tamanho do texto por meio de logaritmos. Em geral, permite comparações mais justas entre textos de comprimentos diferentes do que o TTR.
Valores de referência (aprox.):
0,80-0,86 → oralidade/coloquial
0,86-0,90 → informativo
0,90-0,93 → argumentativo/acadêmico
0,93+ → literário (alta variação)
Herdan C = log(V) / log(N)
V = palavras diferentes (types)
N = palavras totais (tokens)
Quanto mais próximo de 1, maior a riqueza lexical.
Menos sensível ao tamanho do texto do que o TTR (mais apropriado para comparar textos longos ou de tamanhos diferentes).
Mede o grau global de argumentatividade combinando (i) a densidade de segmentos argumentativos e (ii) a cobertura do texto por argumentação. O índice aumenta quando há muitos segmentos argumentativos e quando a argumentação ocupa grande parte do documento, penalizando casos em que apenas um dos dois fatores é alto.
0 = ausência de argumentação (incidência e/ou cobertura nulas).
Valores mais altos = texto fortemente argumentativo, com argumentação frequente e distribuída/abrangente.
Valores mais baixos = texto pouco argumentativo; ou argumentação rara; ou argumentação concentrada em poucos trechos.
IA = (2 * N * C) / (N + C)
onde:
N = incidência de argumentação por 10.000 caracteres
C = cobertura argumentativa escalada por 10.000 caracteres
Funciona como uma média harmônica entre “quantos argumentos por extensão” e “quanto do texto é argumentativo”. Um texto com muitos segmentos argumentativos mas muito concentrados (alta incidência, baixa cobertura) não terá IA tão alta; o mesmo vale para cobertura alta com poucos segmentos.
O índice depende do esquema de segmentação e de marcação: alterações na forma de contar segmentos ou na extensão marcada afetam N e C. Útil para comparação relativa entre documentos sob o mesmo procedimento de anotação.
Mede o grau global de autorregulação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como autorregulação.
0 = ausência de autorregulação.
Valores mais altos = autorregulação frequente e abrangente.
Valores mais baixos = autorregulação rara ou localizada.
IAuto = (2 * N * C) / (N + C)
onde:
N = incidência de autorregulação por 10.000 caracteres
C = cobertura de autorregulação escalada por 10.000 (cobertura * 10000)
Integra recorrência e extensão. Valores altos caracterizam textos em que o enunciador regula continuamente o próprio dizer de forma distribuída.
Depende do protocolo e do gênero. Compare preferencialmente dentro de conjuntos homogêneos (p.ex., discursos orais vs. textos escritos revisados).
Mede o grau global de avaliação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como avaliação.
0 = ausência de avaliação.
Valores mais altos = avaliação frequente e abrangente.
Valores mais baixos = avaliação rara ou localizada.
IAval = (2 * N * C) / (N + C)
onde:
N = incidência de avaliação por 10.000 caracteres
C = cobertura de avaliação escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência. Valores altos caracterizam textos em que a avaliação é um procedimento sistemático e distribuído de posicionamento.
Depende do protocolo e do gênero textual. Em certos gêneros opinativos, avaliação é esperada e pode ser estrutural.
Mede o grau global de citação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como citação.
0 = ausência de citação.
Valores mais altos = citação frequente e abrangente.
Valores mais baixos = citação rara ou localizada.
ICit = (2 * N * C) / (N + C)
onde:
N = incidência de citação por 10.000 caracteres
C = cobertura de citação escalada por 10.000 (cobertura * 10000)
Integra recorrência e extensão. Valores altos caracterizam textos em que a citação é um procedimento sistemático e distribuído.
A interpretação depende do protocolo (o que conta como citação) e do gênero textual. Em alguns gêneros, citação é esperada e não necessariamente marcada estrategicamente.
Mede o grau global de controle combinando (i) a densidade de segmentos de controle e (ii) a cobertura do texto por controle. O índice cresce quando há muitos segmentos e quando o controle ocupa grande parte do documento, penalizando casos em que apenas um dos fatores é alto.
0 = ausência de controle (incidência e/ou cobertura nulas).
Valores mais altos = controle frequente e abrangente no texto.
Valores mais baixos = controle raro, restrito a poucos trechos, ou inexistente.
IControle = (2 * N * C) / (N + C)
onde:
N = incidência de controle por 10.000 caracteres
C = cobertura de controle escalada por 10.000 (cobertura * 10000)
Funciona como uma média harmônica entre frequência e extensão. Um texto pode ter muitos segmentos de controle mas muito concentrados (alta incidência, baixa cobertura) sem atingir índice alto; e vice-versa.
Depende do procedimento de anotação (o que conta como “Controle”) e do modo de segmentação. Útil para comparação relativa entre documentos com o mesmo protocolo.
Mede o grau global de deslegitimação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como deslegitimação.
0 = ausência de deslegitimação.
Valores mais altos = deslegitimação frequente e abrangente.
Valores mais baixos = deslegitimação rara ou pontual.
IDesleg = (2 * N * C) / (N + C)
onde:
N = incidência de deslegitimação por 10.000 caracteres
C = cobertura de deslegitimação escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência da deslegitimação. Valores altos caracterizam textos em que a deslegitimação é uma estratégia dominante e distribuída.
É sensível a definições operacionais: o que conta como deslegitimação (p.ex., exclusão, silenciamento, desqualificação) precisa estar estável no protocolo.
Mede o grau global de deslocamento semântico combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como deslocamento semântico.
0 = ausência de deslocamento semântico.
Valores mais altos = deslocamento semântico frequente e abrangente.
Valores mais baixos = deslocamento semântico raro ou localizado.
IDesl = (2 * N * C) / (N + C)
onde:
N = incidência de deslocamento semântico por 10.000 caracteres
C = cobertura de deslocamento semântico escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência. Valores altos caracterizam textos em que o deslocamento semântico é um recurso recorrente e distribuído.
A comparabilidade depende de definições operacionais claras para “deslocamento semântico”. Em textos curtos, variações pequenas podem afetar bastante o índice.
Mede o grau global de desubjetivação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como desubjetivação.
0 = ausência de desubjetivação.
Valores mais altos = desubjetivação frequente e abrangente.
Valores mais baixos = desubjetivação rara ou localizada.
IDesubj = (2 * N * C) / (N + C)
onde:
N = incidência de desubjetivação por 10.000 caracteres
C = cobertura de desubjetivação escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência. Valores altos caracterizam textos em que a impessoalização/apagamento subjetivo é sistemática e distribuída.
Depende do protocolo e do gênero. Textos técnicos/institucionais tendem a elevar desubjetivação.
Mede o grau global de dramatização combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como dramatização.
0 = ausência de dramatização.
Valores mais altos = dramatização frequente e abrangente.
Valores mais baixos = dramatização rara ou localizada.
IDrama = (2 * N * C) / (N + C)
onde:
N = incidência de dramatização por 10.000 caracteres
C = cobertura de dramatização escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência: valores altos caracterizam textos em que a dramatização é sistemática e distribuída, não apenas pontual.
Sensível ao protocolo de anotação. Em textos curtos, pequenas mudanças de marcação podem gerar variações grandes no índice.
Mede o grau global de encadeamento combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como encadeamento.
0 = ausência de encadeamento.
Valores mais altos = encadeamento frequente e abrangente.
Valores mais baixos = encadeamento raro ou localizado.
IEncad = (2 * N * C) / (N + C)
onde:
N = incidência de encadeamento por 10.000 caracteres
C = cobertura de encadeamento escalada por 10.000 (cobertura * 10000)
Integra recorrência e extensão. Valores altos caracterizam textos em que encadeamentos são estruturantes e distribuídos.
Depende do protocolo e da segmentação. Em corpora heterogêneos, o gênero textual pode influenciar fortemente a presença de encadeamentos.
Mede o grau global de encenação combinando (i) a densidade de segmentos de encenação e (ii) a cobertura do texto por encenação. O índice cresce quando a encenação é frequente e ocupa grande parte do documento, penalizando casos em que apenas um dos fatores é alto.
0 = ausência de encenação (incidência e/ou cobertura nulas).
Valores mais altos = encenação frequente e abrangente.
Valores mais baixos = encenação rara, localizada ou inexistente.
IEnc = (2 * N * C) / (N + C)
onde:
N = incidência de encenação por 10.000 caracteres
C = cobertura de encenação escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência da encenação. Valores altos caracterizam textos em que a construção de cena e o manejo dramatúrgico/disputivo são estruturantes, e não apenas episódicos.
Depende do protocolo de anotação e da granularidade da segmentação. Útil para comparação relativa entre documentos sob o mesmo procedimento.
Mede o grau global de enquadramento combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como enquadramento.
0 = ausência de enquadramento.
Valores mais altos = enquadramento frequente e abrangente.
Valores mais baixos = enquadramento raro ou localizado.
IEnq = (2 * N * C) / (N + C)
onde:
N = incidência de enquadramento por 10.000 caracteres
C = cobertura de enquadramento escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência. Valores altos caracterizam textos em que o recorte orientado do objeto (frame) é recorrente e distribuído.
Depende do protocolo de anotação. Pode variar por gênero e por tema; compare dentro de conjuntos homogêneos.
Mede o grau global de figuração combinando (i) a densidade de segmentos de figuração e (ii) a cobertura do texto por figuração. O índice cresce quando a figuração é frequente e ocupa grande parte do documento, penalizando casos em que apenas um dos fatores é alto.
0 = ausência de figuração (incidência e/ou cobertura nulas).
Valores mais altos = figuração frequente e abrangente.
Valores mais baixos = figuração rara, localizada ou inexistente.
IFig = (2 * N * C) / (N + C)
onde:
N = incidência de figuração por 10.000 caracteres
C = cobertura de figuração escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência. Valores altos caracterizam textos em que a figuração é um modo sistemático de organização discursiva, e não apenas um recurso pontual.
Depende do protocolo de anotação e da segmentação. Útil para comparação relativa entre documentos sob o mesmo procedimento.
Mede o grau global de formulaicidade combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como formulaicidade.
0 = ausência de formulaicidade.
Valores mais altos = formulaicidade frequente e abrangente.
Valores mais baixos = formulaicidade rara ou localizada.
IForm = (2 * N * C) / (N + C)
onde:
N = incidência de formulaicidade por 10.000 caracteres
C = cobertura de formulaicidade escalada por 10.000 (cobertura * 10000)
Integra recorrência e extensão. Valores altos caracterizam textos em que o recurso a fórmulas estabilizadas é sistemático e distribuído.
Depende do protocolo e do gênero textual. Em alguns gêneros institucionais, formulaicidade pode ser requisito composicional.
Desigualdade na distribuição de frequências lexicais.
Avalia quão “desiguais” são as frequências: próximo de 0 indica distribuição mais uniforme; próximo de 1 indica concentração extrema em poucos itens.
Faixas úteis (aprox.):
0,25-0,35 → distribuição bem uniforme
0,35-0,50 → distribuição típica de textos argumentativos
0,50+ → alta concentração/repetição (retórica, slogans, textos muito redundantes)
Gini ≈ 0 → frequências bem uniformes
Gini ≈ 1 → extrema concentração (poucas palavras dominam)
Maior = texto mais concentrado em um conjunto pequeno de palavras.
Menor = vocabulário mais uniformemente distribuído.
Como outras medidas de distribuição, depende do pré-processamento (palavra vs lema; remoção de stopwords etc.).
Mede o grau global de graduação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como graduação.
0 = ausência de graduação.
Valores mais altos = graduação frequente e abrangente.
Valores mais baixos = graduação rara ou localizada.
IGrad = (2 * N * C) / (N + C)
onde:
N = incidência de graduação por 10.000 caracteres
C = cobertura de graduação escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência. Valores altos caracterizam textos em que a modulação de intensidade/força é um recurso sistemático e distribuído.
Depende do protocolo. Em alguns gêneros persuasivos, a graduação pode ser constitutiva do estilo.
Riqueza lexical corrigida pelo tamanho do texto.
É uma medida de diversidade lexical que “ajusta” o efeito do crescimento do texto: em vez de comparar diretamente V/N (como no TTR), compara V com a raiz do tamanho do texto, tornando a medida mais estável quando N aumenta.
Valores de referência (aprox.):
7-10 → fala espontânea
10-13 → jornalístico/informativo
13-16 → argumentativo/acadêmico
16+ → literário (muito variado)
Guiraud = V / √N
V = número de types (palavras diferentes)
N = número de tokens (palavras totais)
Mais alto = maior diversidade lexical.
Mais estável que o TTR em textos longos.
Mede o grau global de implicitação combinando (i) a densidade de segmentos de implicitação e (ii) a cobertura do texto por implicitação. O índice cresce quando a implicitação é frequente e ocupa grande parte do documento, penalizando casos em que apenas um dos fatores é alto.
0 = ausência de implicitação (incidência e/ou cobertura nulas).
Valores mais altos = implicitação frequente e abrangente.
Valores mais baixos = implicitação rara, localizada ou inexistente.
IImpl = (2 * N * C) / (N + C)
onde:
N = incidência de implicitação por 10.000 caracteres
C = cobertura de implicitação escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência. Valores altos caracterizam textos em que procedimentos de não-dito e inferência são sistemáticos e distribuídos.
Depende do protocolo e da segmentação. A implicitação pode ser muito sensível ao gênero e à situação comunicativa.
Mede o grau global de inferência combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como inferência.
0 = ausência de inferência.
Valores mais altos = inferência frequente e abrangente.
Valores mais baixos = inferência rara ou localizada.
IInfer = (2 * N * C) / (N + C)
onde:
N = incidência de inferência por 10.000 caracteres
C = cobertura de inferência escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência. Valores altos caracterizam textos em que a produção de sentido depende fortemente de “completar” não-ditos por inferência, de modo sistemático e distribuído.
A inferência pode se sobrepor a pressuposição e insinuação se o protocolo não delimitar bem os critérios. Recomenda-se uso comparativo dentro do mesmo gênero/protocolo.
Mede o grau global de inscrição combinando (i) a densidade de segmentos de inscrição e (ii) a cobertura do texto por inscrição. O índice cresce quando a inscrição é frequente e ocupa grande parte do documento, penalizando casos em que apenas um dos fatores é alto.
0 = ausência de inscrição (incidência e/ou cobertura nulas).
Valores mais altos = inscrição frequente e abrangente.
Valores mais baixos = inscrição rara, localizada ou inexistente.
IInsc = (2 * N * C) / (N + C)
onde:
N = incidência de inscrição por 10.000 caracteres
C = cobertura de inscrição escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência. Valores altos caracterizam textos em que procedimentos de inscrição são estruturantes e distribuídos.
Depende do protocolo e da segmentação. Recomenda-se comparação relativa entre documentos com o mesmo procedimento de anotação.
Mede o grau global de insinuação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como insinuação.
0 = ausência de insinuação.
Valores mais altos = insinuação frequente e abrangente.
Valores mais baixos = insinuação rara ou localizada.
IInsin = (2 * N * C) / (N + C)
onde:
N = incidência de insinuação por 10.000 caracteres
C = cobertura de insinuação escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência. Valores altos caracterizam textos em que insinuar (em vez de afirmar diretamente) é um procedimento sistemático e distribuído.
Sensível ao protocolo e ao contexto. Em certos gêneros, a insinuação pode ser um recurso recorrente (p.ex., ataques indiretos, ironia), o que precisa ser considerado.
Mede o grau global de interpelação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como interpelação.
0 = ausência de interpelação.
Valores mais altos = interpelação frequente e abrangente.
Valores mais baixos = interpelação rara ou localizada.
IInterp = (2 * N * C) / (N + C)
onde:
N = incidência de interpelação por 10.000 caracteres
C = cobertura de interpelação escalada por 10.000 (cobertura * 10000)
Integra recorrência e extensão. Valores altos caracterizam textos em que a convocação/endereço ao outro é um procedimento recorrente e distribuído.
Depende da definição operacional de interpelação. Em textos curtos, pequenas variações de marcação podem alterar bastante o índice.
Mede o grau global de inversão combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como inversão.
0 = ausência de inversão.
Valores mais altos = inversão frequente e abrangente.
Valores mais baixos = inversão rara ou localizada.
IInv = (2 * N * C) / (N + C)
onde:
N = incidência de inversão por 10.000 caracteres
C = cobertura de inversão escalada por 10.000 (cobertura * 10000)
Integra recorrência e extensão. Valores altos caracterizam textos em que inversões são procedimentos recorrentes e distribuídos.
Depende do protocolo e da segmentação. A noção de “inversão” deve estar bem definida para evitar sobreposição com outras categorias.
Mede a facilidade de leitura com base na estrutura superficial: tamanho médio das frases e complexidade das palavras (sílabas por palavra). Valores altos indicam leitura mais fácil; valores baixos indicam maior complexidade.
Valores de referência (aprox.):
90-100 → muito fácil (infantil)
70-90 → fácil (ensino fundamental)
50-70 → intermediário (jornalístico)
30-50 → difícil (acadêmico)
0-30 → muito difícil (jurídico, filosófico, técnico)
Flesch = 248,835 - 1,015 x (palavras por frase) - 84,6 x (sílabas por palavra)
Quanto MAIOR o valor → mais fácil de ler
Quanto MENOR → mais complexo
O índice foi criado para o inglês. Em português ele continua útil, mas deve ser interpretado comparativamente (entre textos), não como classificação absoluta.
Mede o grau global de legitimação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como legitimação. Cresce quando a legitimação é frequente e ocupa grande parte do texto.
0 = ausência de legitimação.
Valores mais altos = legitimação frequente e abrangente.
Valores mais baixos = legitimação rara, pontual ou inexistente.
ILeg = (2 * N * C) / (N + C)
onde:
N = incidência de legitimação por 10.000 caracteres
C = cobertura de legitimação escalada por 10.000 (cobertura * 10000)
Integra frequência e extensão: privilegia textos em que legitimação aparece repetidamente e ao longo do documento, não apenas em um trecho isolado.
Depende da definição operacional de “legitimação” e da consistência da anotação. É recomendável comparar textos com o mesmo protocolo e recorte de corpus.
Mede o grau global de modalização combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como modalização.
0 = ausência de modalização.
Valores mais altos = modalização frequente e abrangente.
Valores mais baixos = modalização rara ou localizada.
IMod = (2 * N * C) / (N + C)
onde:
N = incidência de modalização por 10.000 caracteres
C = cobertura de modalização escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência. Valores altos caracterizam textos em que a marcação de posição/atitude é sistemática e distribuída, não apenas episódica.
Depende do protocolo e da segmentação. Recomenda-se comparação relativa em corpora com anotação homogênea.
Mede o grau global de modalização deôntica combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como deôntica.
0 = ausência de deôntica.
Valores mais altos = deôntica frequente e abrangente.
Valores mais baixos = deôntica rara ou localizada.
IDeon = (2 * N * C) / (N + C)
onde:
N = incidência de deôntica por 10.000 caracteres
C = cobertura de deôntica escalada por 10.000 (cobertura * 10000)
Integra recorrência e extensão. Valores altos caracterizam textos em que obrigação/prescrição é um procedimento sistemático e distribuído.
Depende do protocolo e do gênero (textos normativos tendem a elevar a deôntica).
Mede o grau global de modalização epistêmica combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como epistêmica.
0 = ausência de epistêmica.
Valores mais altos = epistêmica frequente e abrangente.
Valores mais baixos = epistêmica rara ou localizada.
IEpist = (2 * N * C) / (N + C)
onde:
N = incidência de epistêmica por 10.000 caracteres
C = cobertura de epistêmica escalada por 10.000 (cobertura * 10000)
Integra recorrência e extensão. Valores altos caracterizam textos em que marcas de certeza/dúvida/probabilidade são sistemáticas e distribuídas.
Depende do protocolo e do gênero. Textos analíticos podem ter epistêmica elevada (hedges, probabilidades), enquanto textos normativos podem ter epistêmica menor e deôntica maior.
Mede o grau global de naturalização combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como naturalização.
0 = ausência de naturalização.
Valores mais altos = naturalização frequente e abrangente.
Valores mais baixos = naturalização rara ou localizada.
INat = (2 * N * C) / (N + C)
onde:
N = incidência de naturalização por 10.000 caracteres
C = cobertura de naturalização escalada por 10.000 (cobertura * 10000)
Valores altos caracterizam textos que reiteram e espalham, ao longo do documento, enunciados que tornam relações sociais e políticas “naturais” ou “auto-evidentes”, conforme o protocolo de anotação.
Requer consistência na identificação de naturalização. Em textos curtos, pequenas variações de marcação podem produzir mudanças grandes no índice.
Mede o grau global de polarização combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como polarização.
0 = ausência de polarização.
Valores mais altos = polarização frequente e abrangente.
Valores mais baixos = polarização rara ou localizada.
IPol = (2 * N * C) / (N + C)
onde:
N = incidência de polarização por 10.000 caracteres
C = cobertura de polarização escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência da polarização. Valores altos caracterizam textos em que a oposição antagonizante é um organizador central da cena discursiva.
Depende do protocolo de anotação. A polarização pode ser confundida com discordância simples; recomenda-se definições operacionais claras.
Mede o grau global de pré-construído combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como pré-construído.
0 = ausência de pré-construído.
Valores mais altos = pré-construído frequente e abrangente.
Valores mais baixos = pré-construído raro ou localizado.
IPre = (2 * N * C) / (N + C)
onde:
N = incidência de pré-construído por 10.000 caracteres
C = cobertura de pré-construído escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência. Valores altos caracterizam textos em que conteúdos estabilizados são mobilizados de modo sistemático e distribuído como “base” do enunciado.
Pode se aproximar de pressuposição em certos casos; a distinção depende do protocolo e do enquadramento teórico (pré-construído como conteúdo socialmente dado que retorna no dizer).
Mede o grau global de pressuposição combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como pressuposição.
0 = ausência de pressuposição.
Valores mais altos = pressuposição frequente e abrangente.
Valores mais baixos = pressuposição rara ou localizada.
IPresup = (2 * N * C) / (N + C)
onde:
N = incidência de pressuposição por 10.000 caracteres
C = cobertura de pressuposição escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência. Valores altos caracterizam textos em que pressuposições estruturam o encadeamento argumentativo e a apresentação do mundo como “já dado”.
A interpretação depende do protocolo de anotação. A pressuposição pode se sobrepor a inferência/insinuação se os critérios não forem bem delimitados.
Mede o grau global de problematização combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como problematização.
0 = ausência de problematização.
Valores mais altos = problematização frequente e abrangente.
Valores mais baixos = problematização rara ou localizada.
IProb = (2 * N * C) / (N + C)
onde:
N = incidência de problematização por 10.000 caracteres
C = cobertura de problematização escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência da problematização. Valores altos caracterizam textos em que “colocar em questão” é um traço sistemático e distribuído, não apenas episódico.
A interpretação depende do que foi definido como problematização na anotação. Recomenda-se comparar documentos sob o mesmo protocolo e dentro de gêneros semelhantes.
Mede o grau global de progressão combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como progressão.
0 = ausência de progressão.
Valores mais altos = progressão frequente e abrangente.
Valores mais baixos = progressão rara ou localizada.
IProg = (2 * N * C) / (N + C)
onde:
N = incidência de progressão por 10.000 caracteres
C = cobertura de progressão escalada por 10.000 (cobertura * 10000)
Integra recorrência e extensão. Valores altos caracterizam textos em que mecanismos de avanço textual são sistemáticos e distribuídos.
Depende do protocolo e do gênero. A progressão pode aparecer de modos distintos conforme a organização típica do texto.
Mede o grau global de regulação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como regulação.
0 = ausência de regulação.
Valores mais altos = regulação frequente e abrangente.
Valores mais baixos = regulação rara ou localizada.
IReg = (2 * N * C) / (N + C)
onde:
N = incidência de regulação por 10.000 caracteres
C = cobertura de regulação escalada por 10.000 (cobertura * 10000)
Integra recorrência e extensão. Valores altos caracterizam textos em que o “ajuste” do dizer e a gestão discursiva são procedimentos sistemáticos e distribuídos.
Depende do protocolo e do gênero. A regulação tende a aumentar em contextos interacionais e diminuir em textos mais monológicos, conforme os critérios.
Mede o grau global de regulação dialógica combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como regulação dialógica.
0 = ausência de regulação dialógica.
Valores mais altos = regulação dialógica frequente e abrangente.
Valores mais baixos = regulação dialógica rara ou localizada.
IDialog = (2 * N * C) / (N + C)
onde:
N = incidência de regulação dialógica por 10.000 caracteres
C = cobertura de regulação dialógica escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência. Valores altos caracterizam textos em que a gestão da interlocução é sistemática e distribuída.
Depende do protocolo e do gênero. Em discursos monológicos, pode aparecer como antecipação de objeções ou endereçamento ao público.
Mede o grau global de repetição combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como repetição.
0 = ausência de repetição.
Valores mais altos = repetição frequente e abrangente.
Valores mais baixos = repetição rara ou localizada.
IRep = (2 * N * C) / (N + C)
onde:
N = incidência de repetição por 10.000 caracteres
C = cobertura de repetição escalada por 10.000 (cobertura * 10000)
Integra recorrência e extensão. Valores altos caracterizam textos em que a repetição é um recurso sistemático e distribuído.
Depende do protocolo e da segmentação. Em alguns gêneros, repetição pode ser requisito composicional (ex.: slogans, refrães).
Mede o grau global de atribuição de responsabilidade combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) dos trechos ligados à imputação de responsabilidade (responsabilização, desresponsabilização e responsabilização difusa).
0 = ausência de atribuição de responsabilidade.
Valores mais altos = atribuição de responsabilidade frequente e abrangente.
Valores mais baixos = atribuição rara ou localizada.
IResp = (2 * N * C) / (N + C)
onde:
N = incidência agregada de atribuição de responsabilidade por 10.000 caracteres
C = cobertura agregada escalada por 10.000 (cobertura * 10000)
Integra recorrência e extensão. Valores altos caracterizam textos em que a organização da cena discursiva depende intensamente de imputações de responsabilidade (atribuir, negar/atenuar ou difundir).
Este índice não distingue “quem” é responsabilizado nem a direção normativa do movimento; para isso, observe as métricas específicas (responsabilização, desresponsabilização, responsabilização difusa) e, quando disponível, a distribuição por tipos.
Medida de concentração (não de diversidade).
Quantifica o quanto a distribuição lexical é dominada por poucos itens: valores maiores indicam maior dominância (mais concentração), valores menores indicam maior dispersão (menos dominância).
Leitura prática:
Se o valor aumenta, o texto está mais concentrado/repetitivo.
Se diminui, o texto está mais “espalhado” lexicalmente.
Simpson = Σ p(w)²
p(w) = frequência relativa da palavra w
Menor = vocabulário mais distribuído (menos dominância).
Maior = poucas palavras dominam (mais repetição).
É uma medida de “concentração” (o sentido é inverso de muitas medidas de diversidade).
Mede o grau global de subjetivação combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como subjetivação.
0 = ausência de subjetivação.
Valores mais altos = subjetivação frequente e abrangente.
Valores mais baixos = subjetivação rara ou localizada.
ISubj = (2 * N * C) / (N + C)
onde:
N = incidência de subjetivação por 10.000 caracteres
C = cobertura de subjetivação escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência. Valores altos caracterizam textos em que a presença enunciativa/posicional é sistemática e distribuída.
Depende do protocolo e do gênero. Textos institucionais podem ter subjetivação mais baixa; textos de fala pública ou testemunho podem ter mais alta.
Mede o grau global de subjetivação total combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como subjetivação total.
0 = ausência de subjetivação total.
Valores mais altos = subjetivação total frequente e abrangente.
Valores mais baixos = subjetivação total rara ou localizada.
IPess = (2 * N * C) / (N + C)
onde:
N = incidência de subjetivação total por 10.000 caracteres
C = cobertura de subjetivação total escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência. Valores altos caracterizam textos em que a pessoalização forte é sistemática e distribuída.
Depende do protocolo e do gênero. Pode ser alta em discursos autobiográficos, testemunhais ou performativos, e baixa em textos institucionais.
Mede o grau global de supressão combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como supressão.
0 = ausência de supressão.
Valores mais altos = supressão frequente e abrangente.
Valores mais baixos = supressão rara ou localizada.
ISupr = (2 * N * C) / (N + C)
onde:
N = incidência de supressão por 10.000 caracteres
C = cobertura de supressão escalada por 10.000 (cobertura * 10000)
Integra recorrência e extensão. Valores altos caracterizam textos em que operações de supressão são sistemáticas e distribuídas.
Depende da definição operacional de supressão e da consistência na marcação. Pode sobrepor-se a outras categorias se o protocolo não for restritivo.
Mede o grau global de transgressão combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como transgressão.
0 = ausência de transgressão.
Valores mais altos = transgressão frequente e abrangente.
Valores mais baixos = transgressão rara ou localizada.
ITransg = (2 * N * C) / (N + C)
onde:
N = incidência de transgressão por 10.000 caracteres
C = cobertura de transgressão escalada por 10.000 (cobertura * 10000)
Integra recorrência e extensão. Valores altos caracterizam textos em que a transgressão é um procedimento recorrente e distribuído, e não apenas episódico.
A interpretação depende do protocolo e do gênero textual. A categoria pode se sobrepor a “inversão” ou “deslocamento” se as definições não forem bem delimitadas.
Mede o grau global de vitimização combinando densidade (por 10.000 caracteres) e cobertura (proporção do texto) de trechos classificados como vitimização.
0 = ausência de vitimização.
Valores mais altos = vitimização frequente e abrangente.
Valores mais baixos = vitimização rara ou localizada.
IVit = (2 * N * C) / (N + C)
onde:
N = incidência de vitimização por 10.000 caracteres
C = cobertura de vitimização escalada por 10.000 (cobertura * 10000)
Integra extensão e recorrência. Valores altos caracterizam textos em que a construção de vítima (ou de vitimização) é estruturante e distribuída.
Depende do protocolo. Em alguns gêneros, menções de dano podem ser descritivas e não “vitimizantes” no sentido analítico; isso precisa estar definido.
Mede a proporção do texto efetivamente ocupada por trechos marcados como “Argumentação”. Indica quanto do documento, em caracteres, está coberto por marcação argumentativa.
0 = nenhum caractere do texto foi marcado como argumentação.
1 = todo o texto foi marcado como argumentação.
Valores mais altos = maior parcela do texto dedicada à argumentação.
Valores mais baixos = argumentação pontual, localizada ou ausente.
IA10k = (S * 10000) / L
onde:
S = número de segmentos argumentativos
L = número de caracteres do documento
Quanto maior o valor, mais frequentes são os segmentos argumentativos ao longo do texto. Valores baixos sugerem texto pouco orientado à argumentação (ou argumentação concentrada em trechos curtos).
É uma métrica de frequência (contagem normalizada), não mede qualidade ou consistência dos argumentos. Pode aumentar com segmentação mais “fina” (mais segmentos curtos) e diminuir com segmentação mais “grossa” (menos segmentos longos).
Mede a incidência agregada de segmentos ligados à atribuição de responsabilidade dentro da encenação, somando subtipos (responsabilização, desresponsabilização e responsabilização difusa) e normalizando pela extensão do documento.
0 = nenhuma ocorrência de atribuição de responsabilidade identificada.
Valores mais altos = atribuição de responsabilidade mais frequente.
Valores mais baixos = atribuição rara ou ausente.
IResp10k = (S * 10000) / L
onde:
S = número total de segmentos de atribuição de responsabilidade (soma dos subtipos)
L = número total de caracteres do documento
Valores altos caracterizam textos em que a cena discursiva é estruturada por imputações (atribuir, retirar ou difundir responsabilidade), com recorrência significativa ao longo do documento.
É uma incidência agregada. Para entender a direção do movimento (atribuir vs. retirar vs. difundir), observe também as incidências específicas de cada subtipo.
Mede a incidência de trechos classificados como autorregulação dentro da camada de regulação, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.
0 = nenhuma autorregulação identificada.
Valores mais altos = autorregulação mais frequente.
Valores mais baixos = autorregulação rara ou ausente.
IAuto10k = (S * 10000) / L
onde:
S = número de segmentos classificados como autorregulação
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de movimentos em que o enunciador ajusta, corrige, esclarece, retoma ou comenta o próprio dizer, regulando a enunciação.
Métrica de frequência. Pode ser influenciada por gêneros mais improvisados/orários (maior autorregulação) vs. textos revisados (menor autorregulação).
Mede a incidência de trechos classificados como avaliação dentro da camada de modalização, normalizando pela extensão do documento. Expressa quantas ocorrências de avaliação aparecem a cada 10.000 caracteres.
0 = nenhuma avaliação identificada.
Valores mais altos = avaliação mais frequente.
Valores mais baixos = avaliação rara ou ausente.
IAval10k = (S * 10000) / L
onde:
S = número de segmentos classificados como avaliação
L = número total de caracteres do documento
Valores altos sugerem que o texto recorre com frequência a juízos de valor, apreciações e tomadas de posição avaliativas (positivas/negativas, desejáveis/indesejáveis).
Métrica de frequência. A avaliação pode incidir sobre pessoas, ações, estados ou objetos; a comparabilidade depende de critérios operacionais claros.
Mede a incidência de trechos classificados como citação dentro da camada de inscrição, normalizando pela extensão do documento. Expressa quantas ocorrências de citação aparecem a cada 10.000 caracteres.
0 = nenhuma citação identificada.
Valores mais altos = citação mais frequente.
Valores mais baixos = citação rara ou ausente.
ICit10k = (S * 10000) / L
onde:
S = número de segmentos classificados como citação
L = número total de caracteres do documento
Valores altos sugerem que o texto recorre com frequência à inserção explícita de vozes/falas/trechos atribuídos, configurando regimes de autoridade, prova ou distanciamento.
Métrica de frequência. “Citação” pode incluir modalidades distintas (direta/indireta, com/sem fonte), conforme o protocolo.
Mede a incidência de segmentos classificados como estratégias de controle no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Controle” ocorrem a cada 10.000 caracteres, permitindo comparar textos de tamanhos diferentes.
0 = nenhum segmento de controle identificado.
Valores mais altos = maior densidade de estratégias de controle ao longo do texto.
Valores mais baixos = menor densidade (controle raro ou ausente).
IC10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Controle
L = número total de caracteres do documento
Valores altos indicam que estratégias de controle aparecem com maior frequência no texto. Valores baixos sugerem pouca ativação de procedimentos de controle, ou controle concentrado em poucos trechos.
É uma métrica de frequência (contagem normalizada). Pode variar com o critério de segmentação (mais segmentos curtos vs. menos segmentos longos). Não mede “intensidade” semântica, apenas ocorrência.
Mede a incidência de segmentos de controle classificados como deslegitimação, normalizando pela extensão do documento. Expressa quantos segmentos de deslegitimação ocorrem a cada 10.000 caracteres.
0 = nenhuma deslegitimação identificada.
Valores mais altos = deslegitimação mais frequente.
Valores mais baixos = deslegitimação rara ou ausente.
IDesleg10k = (S * 10000) / L
onde:
S = número de segmentos classificados como deslegitimação
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de procedimentos de desqualificação/negação de legitimidade do outro (conforme tipologia adotada).
Métrica de frequência; não mede intensidade do ataque nem sua eficácia. Pode variar por gênero (debate, plenário, manifesto etc.).
Mede a incidência de segmentos classificados como deslocamento semântico dentro da camada de figuração, normalizando pela extensão do documento. Expressa quantos segmentos ocorrem a cada 10.000 caracteres.
0 = nenhum deslocamento semântico identificado.
Valores mais altos = deslocamentos mais frequentes.
Valores mais baixos = deslocamentos raros ou ausentes.
IDesl10k = (S * 10000) / L
onde:
S = número de segmentos classificados como deslocamento semântico
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de operações que deslocam o sentido por aproximação, substituição ou transferência semântica (conforme definição operacional).
Métrica de frequência; não mede “qualidade” estética. Depende do protocolo (o que conta como deslocamento semântico) e da segmentação.
Mede a incidência de trechos classificados como desubjetivação dentro da camada de subjetivação, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.
0 = nenhuma desubjetivação identificada.
Valores mais altos = desubjetivação mais frequente.
Valores mais baixos = desubjetivação rara ou ausente.
IDesubj10k = (S * 10000) / L
onde:
S = número de segmentos classificados como desubjetivação
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de procedimentos que apagam, impessoalizam, generalizam ou desancoram a posição subjetiva, reduzindo marcas de agência/perspectiva.
Métrica de frequência. A distinção entre desubjetivação e “estilo impessoal” precisa estar definida no protocolo.
Mede a incidência de segmentos classificados como dramatização dentro da camada de encenação, normalizando pela extensão do documento. Expressa quantos segmentos de dramatização ocorrem a cada 10.000 caracteres.
0 = nenhuma dramatização identificada.
Valores mais altos = dramatização mais frequente.
Valores mais baixos = dramatização rara ou ausente.
IDrama10k = (S * 10000) / L
onde:
S = número de segmentos classificados como dramatização
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de procedimentos que intensificam a cena discursiva (tensão, urgência, ameaça, escalada de conflito), conforme a definição operacional adotada.
Métrica de frequência; não mede “intensidade” semântica, apenas ocorrência. Pode variar bastante conforme gênero (debate, pronunciamento, manifesto etc.).
Mede a incidência de segmentos classificados como encadeamento dentro da camada de figuração, normalizando pela extensão do documento. Expressa quantos segmentos de encadeamento ocorrem a cada 10.000 caracteres.
0 = nenhum encadeamento identificado.
Valores mais altos = encadeamento mais frequente.
Valores mais baixos = encadeamento raro ou ausente.
IEncad10k = (S * 10000) / L
onde:
S = número de segmentos classificados como encadeamento
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de operações que organizam o texto por conexão, sequenciação ou articulação encadeada (conforme definição operacional).
Métrica de frequência. Depende do protocolo de anotação do que conta como encadeamento.
Mede a incidência de segmentos classificados como estratégias de encenação no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Encenação” ocorrem a cada 10.000 caracteres, permitindo comparar textos de tamanhos diferentes.
0 = nenhuma estratégia de encenação identificada.
Valores mais altos = encenação mais frequente ao longo do texto.
Valores mais baixos = encenação rara ou ausente.
IE10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Encenação
L = número total de caracteres do documento
Valores altos indicam que o texto recorre com frequência a procedimentos de encenação (construção de cena, dramatização, polarização, vitimização, atribuição de papéis), conforme a tipologia adotada.
Métrica de frequência (contagem normalizada). Depende do critério de segmentação e do protocolo de anotação da camada “Encenação”.
Mede a incidência de trechos classificados como enquadramento dentro da camada de inscrição, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.
0 = nenhum enquadramento identificado.
Valores mais altos = enquadramento mais frequente.
Valores mais baixos = enquadramento raro ou ausente.
IEnq10k = (S * 10000) / L
onde:
S = número de segmentos classificados como enquadramento
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de moldes de apresentação/recorte do mundo (frames), orientando leitura e interpretação por seleção e ênfase.
Métrica de frequência. “Enquadramento” precisa de definição operacional clara para não se confundir com simples tópico/tema.
Mede a incidência de segmentos classificados como estratégias de figuração no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Figuração” ocorrem a cada 10.000 caracteres, permitindo comparar textos de tamanhos diferentes.
0 = nenhuma estratégia de figuração identificada.
Valores mais altos = figuração mais frequente ao longo do texto.
Valores mais baixos = figuração rara ou ausente.
IFig10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Figuração
L = número total de caracteres do documento
Valores altos indicam maior recorrência de procedimentos figurativos (deslocamentos, encadeamentos, interpelações, inversões, repetições, supressões, transgressões), conforme a tipologia adotada.
Métrica de frequência (contagem normalizada). Depende do protocolo de anotação da camada “Figuração” e da granularidade da segmentação.
Mede a incidência de trechos classificados como formulaicidade dentro da camada de inscrição, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.
0 = nenhuma formulaicidade identificada.
Valores mais altos = formulaicidade mais frequente.
Valores mais baixos = formulaicidade rara ou ausente.
IForm10k = (S * 10000) / L
onde:
S = número de segmentos classificados como formulaicidade
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de fórmulas cristalizadas, expressões padronizadas ou sequências relativamente estáveis que orientam leitura e posicionamento.
Métrica de frequência. A definição de “fórmula” precisa ser operacionalizada para evitar subjetividade e sobreposição com citação ou pré-construído.
Mede a incidência de trechos classificados como graduação dentro da camada de modalização, normalizando pela extensão do documento. Expressa quantas ocorrências de graduação aparecem a cada 10.000 caracteres.
0 = nenhuma graduação identificada.
Valores mais altos = graduação mais frequente.
Valores mais baixos = graduação rara ou ausente.
IGrad10k = (S * 10000) / L
onde:
S = número de segmentos classificados como graduação
L = número total de caracteres do documento
Valores altos sugerem que o texto recorre com frequência a intensificadores/atenuadores e escalas de intensidade, modulando força, extensão ou grau de avaliações e afirmações.
Métrica de frequência. A graduação pode ser lexical, morfossintática ou discursiva; a comparabilidade depende do protocolo.
Mede a incidência de segmentos classificados como estratégias de implicitação no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Implicitação” ocorrem a cada 10.000 caracteres.
0 = nenhuma implicitação identificada.
Valores mais altos = implicitação mais frequente ao longo do texto.
Valores mais baixos = implicitação rara ou ausente.
IImpl10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Implicitação
L = número total de caracteres do documento
Valores altos indicam maior recorrência de procedimentos que produzem sentido por não-dito, pressuposição, insinuação e inferência, conforme a tipologia adotada.
Métrica de frequência (contagem normalizada). Depende do protocolo de anotação e da segmentação.
Mede a incidência de trechos classificados como inferência dentro da camada de implicitação, normalizando pela extensão do documento. Expressa quantas ocorrências de inferência aparecem a cada 10.000 caracteres.
0 = nenhuma inferência identificada.
Valores mais altos = inferência mais frequente.
Valores mais baixos = inferência rara ou ausente.
IInfer10k = (S * 10000) / L
onde:
S = número de segmentos classificados como inferência
L = número total de caracteres do documento
Valores altos sugerem que o texto recorre com frequência a sentidos que dependem de encadeamentos inferenciais para serem completados pelo leitor/ouvinte.
Métrica de frequência. A inferência pode ser gradual e depender do contexto; a comparabilidade depende de critérios operacionais claros.
Mede a incidência de segmentos classificados como estratégias de inscrição no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Inscrição” ocorrem a cada 10.000 caracteres.
0 = nenhuma estratégia de inscrição identificada.
Valores mais altos = inscrição mais frequente.
Valores mais baixos = inscrição rara ou ausente.
IInsc10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Inscrição
L = número total de caracteres do documento
Valores altos indicam maior recorrência de procedimentos pelos quais o texto “inscreve” vozes, moldes, fórmulas ou conteúdos estabilizados (conforme tipologia adotada).
Métrica de frequência (contagem normalizada). Depende do protocolo de anotação e da segmentação.
Mede a incidência de trechos classificados como insinuação dentro da camada de implicitação, normalizando pela extensão do documento. Expressa quantas ocorrências de insinuação aparecem a cada 10.000 caracteres.
0 = nenhuma insinuação identificada.
Valores mais altos = insinuação mais frequente.
Valores mais baixos = insinuação rara ou ausente.
IInsin10k = (S * 10000) / L
onde:
S = número de segmentos classificados como insinuação
L = número total de caracteres do documento
Valores altos sugerem que o texto recorre com frequência a sentidos sugeridos sem explicitação direta, frequentemente com espaço para denegação, ambiguidade ou ataque indireto.
Métrica de frequência. A insinuação pode ser altamente contextual; a comparabilidade depende de critérios operacionais estáveis.
Mede a incidência de segmentos classificados como interpelação dentro da camada de figuração, normalizando pela extensão do documento. Expressa quantos segmentos de interpelação ocorrem a cada 10.000 caracteres.
0 = nenhuma interpelação identificada.
Valores mais altos = interpelação mais frequente.
Valores mais baixos = interpelação rara ou ausente.
IInterp10k = (S * 10000) / L
onde:
S = número de segmentos classificados como interpelação
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de movimentos que convocam, chamam, endereçam ou constituem interlocutores/posições de sujeito (conforme definição operacional).
Métrica de frequência. Depende do protocolo de anotação e pode variar por gênero (discurso direto, manifesto, propaganda, debate etc.).
Mede a incidência de segmentos classificados como inversão dentro da camada de figuração, normalizando pela extensão do documento. Expressa quantos segmentos de inversão ocorrem a cada 10.000 caracteres.
0 = nenhuma inversão identificada.
Valores mais altos = inversão mais frequente.
Valores mais baixos = inversão rara ou ausente.
IInv10k = (S * 10000) / L
onde:
S = número de segmentos classificados como inversão
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de operações que invertem relações esperadas (papéis, valores, hierarquias, causalidades, polaridades), conforme definição operacional.
Métrica de frequência. Depende do protocolo de anotação do que conta como inversão.
Mede a incidência de segmentos de controle classificados como legitimação, normalizando pela extensão do documento. Expressa quantos segmentos de legitimação ocorrem a cada 10.000 caracteres.
0 = nenhuma legitimação identificada.
Valores mais altos = legitimação mais frequente ao longo do texto.
Valores mais baixos = legitimação rara ou ausente.
ILeg10k = (S * 10000) / L
onde:
S = número de segmentos classificados como legitimação
L = número total de caracteres do documento
Valores altos sugerem que procedimentos de legitimação são acionados com frequência (p.ex., justificar autoridade, naturalizar normas como corretas, invocar fundamentos), conforme a tipologia adotada.
Métrica de frequência; não avalia força persuasiva. Pode ser influenciada por segmentação e por diferenças de gênero textual.
Mede a incidência de segmentos classificados como estratégias de modalização no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Modalização” ocorrem a cada 10.000 caracteres.
0 = nenhuma modalização identificada.
Valores mais altos = modalização mais frequente ao longo do texto.
Valores mais baixos = modalização rara ou ausente.
IMod10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Modalização
L = número total de caracteres do documento
Valores altos indicam maior recorrência de procedimentos que modulam compromisso, certeza, obrigação, avaliação e intensidade, estruturando a tomada de posição do enunciador.
Métrica de frequência (contagem normalizada). Depende do protocolo de anotação e da granularidade da segmentação.
Mede a incidência de trechos classificados como modalização deôntica dentro da camada de modalização, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.
0 = nenhuma modalização deôntica identificada.
Valores mais altos = deôntica mais frequente.
Valores mais baixos = deôntica rara ou ausente.
IDeon10k = (S * 10000) / L
onde:
S = número de segmentos classificados como modalização deôntica
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de marcas de obrigação, permissão, proibição, dever, necessidade normativa ou prescritividade.
Métrica de frequência. A deôntica pode ser expressa por verbos modais, imperativos, construções normativas e outros recursos; a comparabilidade depende do protocolo.
Mede a incidência de trechos classificados como modalização epistêmica dentro da camada de modalização, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.
0 = nenhuma modalização epistêmica identificada.
Valores mais altos = epistêmica mais frequente.
Valores mais baixos = epistêmica rara ou ausente.
IEpist10k = (S * 10000) / L
onde:
S = número de segmentos classificados como modalização epistêmica
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de marcas de certeza, dúvida, possibilidade, probabilidade, evidência e comprometimento cognitivo com o que é dito.
Métrica de frequência. A epistêmica pode ser expressa por advérbios, verbos modais, evidenciais e outras construções; a comparabilidade depende do protocolo.
Mede a incidência de segmentos de controle classificados como naturalização, normalizando pela extensão do documento. Expressa quantos segmentos de naturalização ocorrem a cada 10.000 caracteres.
0 = nenhuma naturalização identificada.
Valores mais altos = naturalização mais frequente.
Valores mais baixos = naturalização rara ou ausente.
INat10k = (S * 10000) / L
onde:
S = número de segmentos classificados como naturalização
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de formulações que apresentam relações, normas ou estados de coisas como óbvios, naturais ou inevitáveis (conforme tipologia adotada).
Métrica de frequência. Pode ser muito dependente de marcadores linguísticos específicos e do rigor de anotação.
Mede a incidência de segmentos classificados como polarização dentro da camada de encenação, normalizando pela extensão do documento. Expressa quantos segmentos de polarização ocorrem a cada 10.000 caracteres.
0 = nenhuma polarização identificada.
Valores mais altos = polarização mais frequente.
Valores mais baixos = polarização rara ou ausente.
IPol10k = (S * 10000) / L
onde:
S = número de segmentos classificados como polarização
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de movimentos que organizam a cena em termos de oposição/antagonismo (nós/eles, bem/mal, legítimo/ilegítimo), conforme a definição operacional adotada.
Métrica de frequência. A polarização pode se manifestar por múltiplos marcadores; a consistência depende do protocolo de anotação.
Mede a incidência de trechos classificados como pré-construído dentro da camada de inscrição, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.
0 = nenhum pré-construído identificado.
Valores mais altos = pré-construído mais frequente.
Valores mais baixos = pré-construído raro ou ausente.
IPre10k = (S * 10000) / L
onde:
S = número de segmentos classificados como pré-construído
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de conteúdos apresentados como já estabelecidos, “sabidos” ou estabilizados socialmente, funcionando como base não problematizada para o dizer.
Métrica de frequência. “Pré-construído” exige critérios teórico-operacionais claros para não se confundir com pressuposição; compare dentro do mesmo protocolo.
Mede a incidência de trechos classificados como pressuposição dentro da camada de implicitação, normalizando pela extensão do documento. Expressa quantas ocorrências de pressuposição aparecem a cada 10.000 caracteres.
0 = nenhuma pressuposição identificada.
Valores mais altos = pressuposição mais frequente.
Valores mais baixos = pressuposição rara ou ausente.
IPresup10k = (S * 10000) / L
onde:
S = número de segmentos classificados como pressuposição
L = número total de caracteres do documento
Valores altos sugerem que o texto recorre com frequência a conteúdos tratados como dados, assumidos ou já aceitos, deslocando o foco do debate do “se” para o “como”/“o quê”.
Métrica de frequência. A pressuposição pode ser marcada por múltiplos recursos linguísticos; a comparabilidade depende de critérios operacionais claros e consistentes.
Mede a incidência de segmentos de controle classificados como problematização, normalizando pela extensão do documento. Expressa quantos segmentos de problematização ocorrem a cada 10.000 caracteres.
0 = nenhuma problematização identificada.
Valores mais altos = problematização mais frequente.
Valores mais baixos = problematização rara ou ausente.
IProb10k = (S * 10000) / L
onde:
S = número de segmentos classificados como problematização
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de movimentos discursivos que colocam em questão pressupostos, normas, narrativas ou “evidências” dadas, segundo a tipologia adotada.
Métrica de frequência; não mede qualidade crítica. Pode ser afetada por escolhas de segmentação e pelo gênero textual.
Mede a incidência de segmentos classificados como estratégias de progressão no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Progressão” ocorrem a cada 10.000 caracteres.
0 = nenhuma progressão identificada.
Valores mais altos = progressão mais frequente.
Valores mais baixos = progressão rara ou ausente.
IProg10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Progressão
L = número total de caracteres do documento
Valores altos indicam maior recorrência de procedimentos que organizam avanço textual (encadeamento de movimentos, passos, etapas, sequência argumentativa, desenvolvimento).
Métrica de frequência. Depende do protocolo de anotação e pode variar por gênero (relato, justificativa, discurso deliberativo etc.).
Mede a incidência de segmentos classificados como estratégias de regulação no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Regulação” ocorrem a cada 10.000 caracteres.
0 = nenhuma regulação identificada.
Valores mais altos = regulação mais frequente.
Valores mais baixos = regulação rara ou ausente.
IReg10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Regulação
L = número total de caracteres do documento
Valores altos indicam maior recorrência de procedimentos de regulação discursiva (gestão de interação, metacomentário, ajuste, orientação do dizer), conforme a tipologia adotada.
Métrica de frequência. Depende do protocolo de anotação e pode variar por gênero (debate, plenário, aula, entrevista).
Mede a incidência de trechos classificados como regulação dialógica dentro da camada de regulação, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.
0 = nenhuma regulação dialógica identificada.
Valores mais altos = regulação dialógica mais frequente.
Valores mais baixos = regulação dialógica rara ou ausente.
IDialog10k = (S * 10000) / L
onde:
S = número de segmentos classificados como regulação dialógica
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de movimentos que gerem o outro/interlocutor (endereçamento, convite, réplica, antecipação de objeções, marcação de turnos), conforme definição operacional.
Métrica de frequência. Tende a ser mais alta em textos interacionais e mais baixa em textos monológicos, conforme o protocolo.
Mede a incidência de segmentos classificados como repetição dentro da camada de figuração, normalizando pela extensão do documento. Expressa quantos segmentos de repetição ocorrem a cada 10.000 caracteres.
0 = nenhuma repetição identificada.
Valores mais altos = repetição mais frequente.
Valores mais baixos = repetição rara ou ausente.
IRep10k = (S * 10000) / L
onde:
S = número de segmentos classificados como repetição
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de procedimentos de repetição (retomadas, paralelismos, refrães, insistências), conforme definição operacional.
Métrica de frequência. A repetição pode ser formal, lexical, sintática ou discursiva; a comparabilidade depende do protocolo.
Mede a incidência de segmentos classificados como estratégias de subjetivação no texto, normalizando pela extensão do documento. Expressa quantos segmentos de “Subjetivação” ocorrem a cada 10.000 caracteres.
0 = nenhuma subjetivação identificada.
Valores mais altos = subjetivação mais frequente.
Valores mais baixos = subjetivação rara ou ausente.
ISubj10k = (S * 10000) / L
onde:
S = número de segmentos marcados como Subjetivação
L = número total de caracteres do documento
Valores altos indicam maior recorrência de procedimentos de inscrição de sujeito/posicionamento, marcando presença enunciativa, agência, experiência, perspectiva ou identidade discursiva.
Métrica de frequência. Depende do protocolo de anotação e pode variar por gênero (autobiográfico, institucional, técnico, debate etc.).
Mede a incidência de trechos classificados como subjetivação total dentro da camada de subjetivação, normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.
0 = nenhuma subjetivação total identificada.
Valores mais altos = subjetivação total mais frequente.
Valores mais baixos = subjetivação total rara ou ausente.
IPess10k = (S * 10000) / L
onde:
S = número de segmentos classificados como subjetivação total
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de marcas fortes de presença enunciativa/pessoalização (p.ex., autoinscrição explícita, agência assumida, perspectiva fortemente ancorada), conforme definição operacional.
Métrica de frequência. A subjetivação total depende de critérios claros para não se confundir com subjetivação “regular”.
Mede a incidência de segmentos classificados como supressão dentro da camada de figuração, normalizando pela extensão do documento. Expressa quantos segmentos de supressão ocorrem a cada 10.000 caracteres.
0 = nenhuma supressão identificada.
Valores mais altos = supressão mais frequente.
Valores mais baixos = supressão rara ou ausente.
ISupr10k = (S * 10000) / L
onde:
S = número de segmentos classificados como supressão
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de operações de apagamento/omissão/elisão relevantes para a construção de sentido, conforme definição operacional.
Métrica de frequência. A identificação de supressão exige critérios consistentes para não confundir com simples economia textual.
Mede a incidência de segmentos classificados como transgressão dentro da camada de figuração, normalizando pela extensão do documento. Expressa quantos segmentos de transgressão ocorrem a cada 10.000 caracteres.
0 = nenhuma transgressão identificada.
Valores mais altos = transgressão mais frequente.
Valores mais baixos = transgressão rara ou ausente.
ITransg10k = (S * 10000) / L
onde:
S = número de segmentos classificados como transgressão
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de operações que rompem expectativas normativas (de registro, gênero, convenção, decoro, regra discursiva), conforme definição operacional.
Métrica de frequência. A noção de “transgressão” é sensível ao contexto e ao gênero; critérios precisam ser explícitos.
Mede a incidência de segmentos classificados como vitimização dentro da camada de encenação, normalizando pela extensão do documento. Expressa quantos segmentos de vitimização ocorrem a cada 10.000 caracteres.
0 = nenhuma vitimização identificada.
Valores mais altos = vitimização mais frequente.
Valores mais baixos = vitimização rara ou ausente.
IVit10k = (S * 10000) / L
onde:
S = número de segmentos classificados como vitimização
L = número total de caracteres do documento
Valores altos sugerem maior recorrência de movimentos que constroem um agente/ator como alvo de dano, injustiça, perseguição ou sofrimento, conforme a definição operacional adotada.
Métrica de frequência. A vitimização pode ser explícita ou implícita; a comparabilidade depende da estabilidade do protocolo de anotação.
Mede o grau de hierarquia interna das frases (complexidade estrutural).
Corresponde ao número de níveis na árvore de dependências: maior distância entre a raiz da sentença e um termo subordinado indica mais encaixes, mais subordinação e maior complexidade.
Como interpretar:
• Baixa (1-3) → frases simples, coordenação, oralidade
• Média (4-6) → prosa informativa normal
• Alta (7-9) → estilo elaborado, jurídico ou acadêmico
• Muito alta (10+) → períodos complexos, muitas subordinadas encaixadas
Profundidade = maior distância (em níveis) entre a raiz e um nó subordinado na árvore de dependências (por sentença).
(Agregação típica: média e/ou máximo ao longo do documento.)
Mais alta = frases estruturalmente mais complexas (mais encaixes e subordinações), sugerindo estilo mais elaborado.
Não mede tamanho da frase, mas complexidade estrutural: frases com o mesmo número de palavras podem ter profundidades muito diferentes.
Mede a razão entre argumentos classificados como racionais e argumentos classificados como retóricos no documento. Indica o balanço entre sustentação racional (p.ex., evidências, causalidade, dados, justificativas) e sustentação retórica (p.ex., apelos persuasivos, recursos estilísticos, pathos/ethos) dentro da camada de Argumentação.
0 = ausência de argumentos racionais (ou numerador nulo).
1 = equilíbrio aproximado entre componentes racionais e retóricos.
Valores > 1 = predominância de racionalidade sobre retórica.
Valores < 1 = predominância de retórica sobre racionalidade.
A = R / T
onde:
R = quantidade de argumentos racionais
T = quantidade de argumentos retóricos
Valores altos sugerem argumentação mais orientada a justificativas e fundamentação; valores baixos sugerem maior peso de apelos retóricos. O resultado é comparativo e depende de como “racional” e “retórico” foram operacionalizados na anotação.
Depende do mapeamento de etiquetas em conjuntos “racionais” e “retóricos”.
Mede a incidência de trechos que atribuem responsabilidade a um agente/ator de modo direto, normalizando pela extensão do documento. Expressa quantas ocorrências de responsabilização aparecem a cada 10.000 caracteres.
0 = nenhuma responsabilização identificada.
Valores mais altos = responsabilização mais frequente.
Valores mais baixos = responsabilização rara ou ausente.
Resp10k = (S * 10000) / L
onde:
S = número de segmentos classificados como responsabilização
L = número total de caracteres do documento
Valores altos sugerem que o texto frequentemente identifica agentes responsáveis (por ações, decisões, consequências), configurando papéis e imputações na cena discursiva.
Esta métrica é uma incidência específica (por 10.000 caracteres). Ela convive com a incidência/cobertura/índice agregados de “responsabilização” (ver campos abaixo), que combinam subtipos.
Mede a incidência de trechos que atribuem responsabilidade de forma difusa (sem agente claramente delimitado, ou com agência diluída), normalizando pela extensão do documento. Expressa quantas ocorrências aparecem a cada 10.000 caracteres.
0 = nenhuma responsabilização difusa identificada.
Valores mais altos = maior frequência de atribuições difusas.
Valores mais baixos = atribuições difusas raras ou ausentes.
RespDif10k = (S * 10000) / L
onde:
S = número de segmentos classificados como responsabilização difusa
L = número total de caracteres do documento
Valores altos sugerem tendência a distribuir ou diluir responsabilidades (por exemplo, em coletivos vagos, processos abstratos ou “forças” impessoais), afetando a imputação direta de agência.
Métrica de incidência específica (por 10.000 caracteres). A definição operacional de “difusa” deve estar clara para garantir comparabilidade.
Índice de diversidade lexical.
Mede a proporção de palavras diferentes (types) em relação ao total de palavras (tokens). É intuitivo e fácil de ler, mas tende a diminuir conforme o texto cresce (porque novas palavras “surgem” mais devagar em textos longos).
Valores de referência:
0,20-0,35 → fala espontânea/oralidade
0,35-0,50 → texto informativo (notícia)
0,50-0,65 → texto argumentativo/acadêmico
0,65+ → texto literário
TTR = V / N
V = número de types (palavras diferentes)
N = número de tokens (palavras totais)
Mais alto = maior diversidade lexical (maior variação de vocabulário no texto).
Muito sensível ao tamanho do texto: comparar TTR entre textos de tamanhos diferentes pode distorcer a leitura. Para textos longos, prefira índices corrigidos (ex.: Guiraud, Herdan).
Métricas
