Segmenting corpora of texts

Sardinha, Tony Berber


Título del documento:	Segmenting corpora of texts
Revista:	DELTA. Documentacao de estudos em linguistica teorica e aplicada
Base de datos:	CLASE
Número de sistema:	000281176
ISSN:	0102-4450
Autores:	Sardinha, Tony Berber¹
Instituciones:	¹Pontificia Universidade Catolica de Sao Paulo, Lingüistica Aplicada e Estudos da Linguagem, Sao Paulo. Brasil
Año:	2002
Volumen:	18
Número:	2
Paginación:	273-286
País:	Brasil
Idioma:	Inglés
Tipo de documento:	Artículo
Enfoque:	Analítico, descriptivo
Resumen en inglés	The aim of the research presented here is to report on a corpus-based method for discourse analysis that is based on the notion of segmentation, or the division of texts into cohesive portions. For the purposes of this investigation, a segment is defined as a contiguous portion of written text consisting of at least two sentences. The segmentation procedure developed for the study is called LSM (link set median), which is based on the identification of lexical repetition in text. The data analysed in this investigation were three corpora of 100 texts each. Each corpus was composed of texts of one particular genre: research articles, annual business reports, and encyclopaedia entries. The total number of words in the three corpora was 1,262,710 words. The segments inserted in the texts by the LSM procedure were compared to the internal section divisions in the texts. Afterwards, the results obtained through the LSM procedure were then compared to segmentation carried out at random. The results indicated that the LSM procedure worked better than random, suggesting that lexical repetition accounts in part for the way texts are segmented into sections
Resumen en portugués	O objetivo da pesquisa apresentada é relatar um método baseado em corpus para análise de discurso que se baseia na noção de segmentação, isto é, a divisão de textos em porções coesas. Para os propósitos desse estudo, um segmento é definido como uma porção contígua de texto que consiste em pelo menos sentenças. O procedimento de segmentação desenvolvido para a pesquisa chama-se LSM ('link set median') e se baseia na identificação da repetição lexical nos textos. Os dados analisados foram três corpora de 100 textos cada. Cada corpus representava um gênero específico: artigos de pesquisa, relatórios anuais de negócio e artigos de enciclopédia. O tamanho total do corpus é 1.262.710 palavras. A segmentação por LSM foi comparada à divisão interna em seções de cada texto. A seguir, os resultados do procedimento LSM foram comparados a uma segmentação feita aleatoriamente. Os resultados indicaram que o procedimento LSM funcionou melhor do que o método aleatório, o que sugere que a repetição lexical responde em parte pela maneira pela qual os textos segmentam-se em seções
Disciplinas:	Literatura y lingüística
Palabras clave:	Lingüística aplicada, Repetición, Corpus lingüístico, Segmentación, Análisis del discurso
Texto completo:	Texto completo (Ver HTML)

Segmenting corpora of texts

Espere un momento...