Início | Falatório | Letras+ | Pibid | UnDF



Manual de coleta, correção e anotação de textos

Projeto CUTIA - CorpUs de Textos Induzidos Anotados • Versão 1.0

  1. Escopo
  2. Coleta
  3. Digitalização
  4. Digitação
  5. Correção
  6. Anotação linguística
  7. Anexo A – Protocolo de Coleta e Digitalização de Dados
  8. Anexo B – Ferramentas úteis

1. Escopo

O objetivo deste manual é padronizar procedimentos de coleta, digitalização, digitação, correção e anotação de redações escolares para formação do corpus CUTIA.

2. Coleta de Redações

  1. A coleta pode ocorrer em qualquer sala de aula da Educação Básica: Ensino Fundamental II (6º ao 9º anos), Ensino Médio (1º ao 3º anos) ou EJA.
  2. Os textos devem ser produzidos a partir de uma proposta de redação, que pode ser elaborada pelo coletor, pelo professor, ou retirada das provas aplicadas nos exames nacionais ou regionais (ENEM, PAS, vestibulares, etc.). Não serão aceitos textos sobre "tema livre" ou produzidos "espontaneamente".
  3. A proposta utilizada deve ser informada no formulário de cadastramento das redações.
  4. Não há nenhuma restrição quanto ao tipo ou gênero textual. Podem ser coletados textos dissertativos, narrativos, descritivos, injuntivos, etc.
  5. Serão aceitos apenas textos manuscritos com mínimo de 7 linhas escritas.
  6. Deve ser informada série/ano escolar do autor; não deve ser incluído nenhum outro dado pessoal.
  7. O manuscrito deve ser integralmente anonimizado antes da digitalização.
Aviso sobre anonimização: remova nomes, apelidos, locais, assinaturas, referências identificáveis e metadados. A anonimização deve ser irreversível.

3. Digitalização

  1. Digitalize a redação somente após a anonimização completa do manuscrito.
  2. Formato aceito: .jpg (imagem), com tamanho máximo de 2 MB por arquivo.
  3. Se a imagem exceder 2 MB, comprima usando ferramentas gratuitas online (ver Anexo B).
  4. Qualidade mínima: imagem nítida, bem iluminada, com todo o texto visível; evite sombras, cortes ou distorções de perspectiva.

4. Digitação

  1. A digitação deve ser fiel ao manuscrito, preservando todos os desvios ortográficos, gramaticais e de pontuação.
  2. Não efetue nenhuma correção durante a digitação.
  3. A translineação (quebras de linha/silabação no fim da linha) não precisa ser mantida; entretanto, a paragração original deve ser respeitada.
  4. Mantenha a distinção entre maiúsculas e minúsculas exatamente como no original.
  5. Em problemas de caligrafia/legibilidade:
    • Se for possível inferir o termo, coloque-o entre colchetes: [palavra].
    • Se o trecho for indecifrável, use [] para marcar a lacuna.

5. Correção

A correção será feita exclusivamente por meio das ferramentas específicas da plataforma CUTIA e observará os cinco níveis abaixo indicados:

  1. Problemas da palavra
    • Grafia: ortografia, acentuação, uso de maiúsculas/minúsculas, hífen.
    • Uso: escolha vocabular inadequada ou sentido impróprio.
    • Formação: derivação/composição, prefixos/sufixos, neologismos inadequados.
  2. Problemas da frase
    • Concordância verbal e nominal.
    • Regência verbal e nominal.
    • Pontuação interna e ordem dos constituintes.
    • Colocação pronominal (próclise, ênclise, mesóclise).
    • Estruturação: anacoluto, topicalização, repetição, ruptura da estrutura lógica da frase.
  3. Problemas do parágrafo
    • Coesão interna: conectivos transfrasais, referenciação, elipses.
    • Coerência interna: relação lógica/temática entre as frases.
  4. Problemas do texto
    • Coesão global entre parágrafos.
    • Estruturação (introdução–desenvolvimento–conclusão, quando pertinente).
    • Progressão temática sem rupturas bruscas.
  5. Problemas do discurso
    • Adequação ao tema.
    • Adequação ao gênero textual, destinatário e registro da proposta.
    • Riqueza de repertório e variedade de recursos expressivos.
    • Profundidade e originalidade da abordagem.
Consistência: utilize sempre as etiquetas/códigos definidos no Guia de Anotação da plataforma para cada nível/categoria. Em caso de dúvida interpretativa, marque o trecho como “ambíguo” na própria plataforma e registre observação.

6. Anotação Linguística

A anotação linguística será realizada exclusivamente nas ferramentas específicas da plataforma CUTIA, seguindo o esquema padronizado de etiquetas (tags) e categorias.

  1. Vincule cada anotação ao nível pertinente (palavra, frase, parágrafo, texto, discurso).
  2. Indique o fenômeno (erro, variação, recurso coesivo, etc.).
  3. Mantenha uniformidade com as instruções e exemplos do Guia de Anotação.
  4. Para fenômenos não previstos, selecione “outros” e descreva no campo de observações.

Anexo A - Protocolo de Coleta e Digitalização de Dados


A LGPD (Lei 13.709/2018) considera que dados anonimizados não são dados pessoais (art. 12, caput). Portanto, o tratamento de dados anonimizados não requer consentimento do titular. No entanto, o projeto CUTIA adota uma abordagem ética e responsável, caracterizada pelas obrigações abaixo indicadas:

  • Realizar a coleta os dados de forma transparente, ética e responsável, com autorização de professores e alunos, sem prejudicar o andamento das aulas ou o processo de avaliação.
  • Informar aos participantes os objetivos e a metodologia do projeto, bem como o processo de anonimização dos dados.
  • Explicar aos participantes que os dados serão utilizados exclusivamente para fins de pesquisa, ensino e extensão, respeitando a legislação vigente e princípios éticos.
  • Garantir a segurança e a confidencialidade dos dados durante todo o processo.
  • Anonimizar integralmente os textos antes da digitalização, removendo todas as informações que possam identificar os autores, incluindo nomes, apelidos, iniciais, endereços, nomes de instituições, referências a familiares, eventos locais específicos ou outras informações que possam levar à identificação.

Anexo B – Ferramentas úteis para compressão de imagens

Utilize uma das opções abaixo para reduzir arquivos .jpg acima de 2 MB antes do envio:

Dica: após a compressão, verifique legibilidade e integridade do texto antes do envio.