Acervo Oral
Transcrição
Transcrição
Os minutos de áudios foram submetidos à transcrição grafemática, na tentativa de, sempre que possível, buscar uma aproximação das características linguísticas dos falantes, demarcando marcas específicas do seu dialeto, possibilitando o mapeamento de fenômenos linguísticos, em especial os morfossintáticos.
A chave de transcrição busca a padronização do corpus oral do Projeto Estudos Linguístico e Histórico do Sertão (ELiHS), apoiando-se na proposta de transcrição ortográfica[1] que orienta a transcrição dos inquéritos realizados no âmbito do Projeto Vertentes do Português Popular do Estado da Bahia, o qual também objetiva contribuir para o conhecimento da realidade linguística brasileira e, de forma específica, para o estudo da língua falada em áreas do semiárido baiano. No arquivo/chave de transcrição consta:
- Cabeçalho;
- Indicações gerais sobre a formatação do texto transcrito;
- Critérios gerais para orientar a transcrição.
Esse material, baseando-se no Projeto Vertentes, busca facilitar trabalho de transcrição, identificando visivelmente os fatos que devem, ou não, serem registrados na transcrição, lembrando que o objetivo desta transcrição “[...] é transpor o discurso falado, da forma mais fiel possível, para registros gráficos mais permanentes, necessidade que decorre do fato de que não conseguimos estudar o oral através do próprio oral” (PAIVA, 2010, p. 136), tarefa que não pode ser feita arbitrariamente, mas com fundamentos e posicionamentos teóricos que norteiem a transcrição.
A partir da transcrição grafemática, optamos por utilizar, concomitante, a edição XML (ExtensibleMarkupLanguage), uma vez que, através deste formato
é possível buscar aproximações entre as áreas, com a padronização ortográfica de corpora sociolinguísticos e o desenvolvimento de etiquetas XML para codificar a informação social de modo a ser processável por softwares concordanceadores. Para possibilitar a manipulação dos dados, a transcrição ortográfica padrão é mais eficiente [...]. (FREITAG, 2013, p. 163, grifo nosso).
Tomando como referência os critérios metodológicos adotados pelo CE-DOHS, as transcrições seguem os princípios ortográficos da escrita do português, o que nos permite fazer uso das ferramentas computacionais da Linguística de Corpus.
Ainda cabe relatar, que a linguagem xml será processada via ferramenta de edição eletrônica eDictor, que permite a manipulação eletrônica do corpus, por meio de anotação e do uso de ferramentas de buscas de dados linguísticos. Assim, teremos a opção de converter a versão em word para a versão em xml, não perdendo o arquivo que traz as transcrições grafemáticas, fidedignas das amostras de fala.