Início | Falatório | Letras+ | Pibid | UnDF



CUTIA — CorpUs de Textos Induzidos Anotados

O CUTIA (CorpUs de Textos Induzidos Anotados) é um projeto colaborativo de criação de um repositório de redações produzidas por estudantes da educação básica. Os textos são coletados, anonimizados, digitalizados e anotados em múltiplos níveis linguísticos, com o objetivo de apoiar pesquisas em escrita escolar e de servir como base para treinamento de sistemas de aprendizado de máquina voltados à assistência à escrita e à correção automática.

🎯 Objetivos
  • Coletar redações escritas por alunos da educação básica em situações de produção induzida.
  • Anotar esses textos em diferentes níveis de análise (ortografia, morfossintaxe, coesão, coerência, gêneros textuais, erros típicos, marcas discursivas, entre outros).
  • Disponibilizar o corpus para uso em análises linguísticas, investigações educacionais e estudos sobre a produção escrita em língua materna.
  • Oferecer uma base de dados para treinamento e avaliação de modelos de aprendizado de máquina destinados ao desenvolvimento de ferramentas de auxílio à escrita, correção automática e avaliação de textos.
🧭 Justificativa

Apesar da crescente disponibilidade de corpora textuais, há carência de coleções cuidadosamente anotadas que contenham redações produzidas especificamente por alunos da educação básica. Textos escolares apresentam características, padrões de erro e estratégias discursivas próprias que diferem de textos produzidos por adultos ou em ambientes especializados.

Um corpus produzido por estudantes do ensino básico e anotado em níveis linguísticos variados é essencial para:

  • Compreender processos de aquisição e desenvolvimento da escrita em contextos educativos;
  • Informar práticas de ensino e avaliação mais alinhadas à realidade da sala de aula;
  • Desenvolver recursos tecnológicos (ex.: corretores, assistentes de escrita, sistemas de avaliação automática) treinados em dados representativos da população-alvo;
  • Promover pesquisas replicáveis e comparáveis entre diferentes redes escolares, regiões e níveis de escolaridade.
🛠️ Metodologia

A execução do projeto ocorrerá em fases claramente definidas, conforme descrito abaixo:

  1. Coleta: compilação de textos produzidos em ambiente escolar a partir de propostas de redação desenvolvidas pelos coletores, pelos professores ou extraídas de exames nacionais ou regionais (ENEM, PAS, vestibulares, etc.).
  2. Anonimização: remoção e/ou substituição de informações identificáveis (nomes, locais, dados pessoais) mantendo-se, contudo, os traços textuais relevantes para análise.
  3. Digitalização e digitação: conversão de manuscritos para formato digital por meio de digitalização e digitação manual, assegurada a fidelidade ao original.
  4. Anotação: marcação manual e/ou semiautomática em diferentes camadas de análise — por exemplo: correção ortográfica, etiquetas morfossintáticas, marcação de unidades de coesão (referência, substituição, elipse), segmentos argumentativos, índices de coerência, erros típicos de escrita escolar, categorias de gênero, entre outras. Serão elaborados guias de anotação e realizado treinamento de anotadores para garantir consistência.
  5. Validação e controle de qualidade: realização de medidas de confiabilidade interanotador e revisões periódicas dos rótulos; ajuste do protocolo de anotação conforme necessidade.
  6. Armazenamento e acesso: o corpus será armazenado em repositório seguro e versionado. Versões públicas serão disponibilizadas com metadados e documentação (guia de anotação, amostras, variáveis socioculturais agregadas) respeitando as restrições éticas e legais.
Observação: as camadas de anotação e o nível de detalhe podem ser ampliados conforme demandas de pesquisa e parcerias tecnológicas.
📊 Resultados esperados
  • Um corpus representativo e anotado de redações escolares, acompanhado de documentação e guias de anotação.
  • Publicações científicas e relatórios técnicos que contribuam ao entendimento da escrita escolar.
  • Modelos e ferramentas de apoio à escrita e avaliação automatizada, treinados com dados realistas e eticamente obtidos.
  • Capacitação de pesquisadores e profissionais em anotação e análise de dados textuais.
👥 Participantes

O projeto CUTIA é aberto a pesquisadores, docentes, estudantes, desenvolvedores e demais interessados. Incentivamos colaborações para ampliação da base, desenvolvimento de procedimentos de anotação e criação de ferramentas derivadas. A participação pode ocorrer por meio de parcerias institucionais, contribuições de anotadores treinados, ou uso e avaliação do corpus em estudos e aplicações tecnológicas.

⚖️ Direitos autorais e licença de uso

Todo o conteúdo disponível neste site está licenciado sob a Licença Creative Commons Atribuição-Não Comercial 4.0 Internacional (CC BY-NC 4.0). Isso significa que você pode compartilhar, copiar e adaptar os materiais, desde que:

  • Atribua o devido crédito ao projeto CUTIA;
  • Não utilize o material para fins comerciais.
📜 Isenção de Responsabilidade (Disclaimer)

O conteúdo disponibilizado no site é fornecido "no estado em que se encontra", sem garantias de qualquer natureza quanto à sua exatidão, atualidade ou adequação a finalidades específicas. O projeto CUTIA não se responsabiliza por quaisquer danos decorrentes do uso das informações disponibilizadas.

🔒 Proteção de Dados e Privacidade

O projeto preza pela privacidade e proteção dos dados pessoais. Todas as redações disponibilizadas foram integralmente anonimizadas, de modo a impedir qualquer identificação individual, em consonância com o art. 12, caput, da LGPD (Lei 13.709/2018). Adicionalmente, nenhum dado pessoal é coletado, armazenado ou compartilhado a partir da navegação neste site.

✉️ Contato

Em caso de dúvidas, sugestões ou solicitações, entre em contato com a equipe responsável pelo projeto através do e-mail: admin@gentil.net.br