O documento discute corpora para processamento de linguagem natural. Define corpus como uma coleção finita de textos sobre um determinado assunto. Apresenta exemplos de corpora monolingues, comparáveis e paralelos, incluindo o tamanho em palavras. Descreve corpora paralelos alinhados ao nível da frase e exemplos como Hansards e EuroParl.
1. Corpora para Processamento de Linguagem Natura
Alberto Manuel Brand˜o Sim˜es
a o
ambs@di.uminho.pt
17 de Outubro de 2008 (v0.1)
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
2. Defini¸˜o de Corpus
ca
Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
e ca
de textos, relativos a determinado assunto.
Corpora
Corpora ´ o plural de Corpus.
e
monolingue
corpora compar´vel
a
multilingue
paralelo
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
3. Defini¸˜o de Corpus
ca
Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
e ca
de textos, relativos a determinado assunto.
Corpora
Corpora ´ o plural de Corpus.
e
monolingue
corpora compar´vel
a
multilingue
paralelo
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
4. Defini¸˜o de Corpus
ca
Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
e ca
de textos, relativos a determinado assunto.
Corpora
Corpora ´ o plural de Corpus.
e
monolingue
corpora compar´vel
a
multilingue
paralelo
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
5. Exemplos de Corpora Monolingue
Alguns exemplos de Corpora Monolingues:
British National Corpus — um corpus da l´ ıngua inglesa que
cont´m diferentes g´neros de texto (escrito, oral, ...), com
e e
mais de 100 milh˜es de palavras;
o
CETEMP´blico — mais de 191 milh˜es de palavras de
u o
segmentos de texto jornal´
ıstico recolhidos do Jornal P´blico;
u
CETENFolha — mais de 33 milh˜es de palavras de segmentos
o
de texto jornal´
ıstico recolhidos da Folha de S˜o Paulo;
a
Russian National Corpus — um corpus da l´
ıngua russa com
mais de 147 milh˜es de palavras;
o
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
6. Exemplos de Corpora Monolingue
Alguns exemplos de Corpora Monolingues:
British National Corpus — um corpus da l´ ıngua inglesa que
cont´m diferentes g´neros de texto (escrito, oral, ...), com
e e
mais de 100 milh˜es de palavras;
o
CETEMP´blico — mais de 191 milh˜es de palavras de
u o
segmentos de texto jornal´
ıstico recolhidos do Jornal P´blico;
u
CETENFolha — mais de 33 milh˜es de palavras de segmentos
o
de texto jornal´
ıstico recolhidos da Folha de S˜o Paulo;
a
Russian National Corpus — um corpus da l´
ıngua russa com
mais de 147 milh˜es de palavras;
o
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
7. Exemplos de Corpora Monolingue
Alguns exemplos de Corpora Monolingues:
British National Corpus — um corpus da l´ ıngua inglesa que
cont´m diferentes g´neros de texto (escrito, oral, ...), com
e e
mais de 100 milh˜es de palavras;
o
CETEMP´blico — mais de 191 milh˜es de palavras de
u o
segmentos de texto jornal´
ıstico recolhidos do Jornal P´blico;
u
CETENFolha — mais de 33 milh˜es de palavras de segmentos
o
de texto jornal´
ıstico recolhidos da Folha de S˜o Paulo;
a
Russian National Corpus — um corpus da l´
ıngua russa com
mais de 147 milh˜es de palavras;
o
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
8. Exemplos de Corpora Monolingue
Alguns exemplos de Corpora Monolingues:
British National Corpus — um corpus da l´ ıngua inglesa que
cont´m diferentes g´neros de texto (escrito, oral, ...), com
e e
mais de 100 milh˜es de palavras;
o
CETEMP´blico — mais de 191 milh˜es de palavras de
u o
segmentos de texto jornal´
ıstico recolhidos do Jornal P´blico;
u
CETENFolha — mais de 33 milh˜es de palavras de segmentos
o
de texto jornal´
ıstico recolhidos da Folha de S˜o Paulo;
a
Russian National Corpus — um corpus da l´
ıngua russa com
mais de 147 milh˜es de palavras;
o
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
9. Corpora Compar´veis
a
Corpora Compar´veis
a
Os Corpora Compar´veis s˜o conjuntos de textos em diferentes
a a
l´
ınguas que, embora n˜o correspondam directamente a tradu¸˜es
a co
literais, focam um mesmo assunto.
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
10. Exemplos de Corpora Compar´veis
a
Qualquer conjunto de not´ıcias que se refiram a um mesmo assunto
ou evento, e que estejam escritos em l´ınguas diferentes podem ser
vistos como corpora compar´veis.
a
Outro exemplo ser´ um conjunto de artigos cient´
a ıficos sobre um
mesmo micro-organismo.
Estes corpora s˜o essencialmente utilizados para o estudo e
a
extrac¸˜o de terminologia espec´
ca ıfica da ´rea a que os corpora se
a
referem.
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
11. Corpora Paralelos
Corpora Paralelos
Os Corpora Paralelos s˜o textos em duas ou mais l´
a ınguas, em que
existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o
ca ca a
bilingues, em que uma das l´
ınguas ´ a original, e a outra a
e
tradu¸˜o.
ca
Corpora Paralelos Alinhados
Habitualmente ´ usado o termo gen´rico Corpus Paralelo para
e e
representar os corpora paralelos alinhados ao n´ da frase. Ou
ıvel
seja, em que os textos foram divididos em frases e foi definida uma
correspondˆncia entre os segmentos nas duas l´
e ınguas.
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
12. Corpora Paralelos
Corpora Paralelos
Os Corpora Paralelos s˜o textos em duas ou mais l´
a ınguas, em que
existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o
ca ca a
bilingues, em que uma das l´
ınguas ´ a original, e a outra a
e
tradu¸˜o.
ca
Corpora Paralelos Alinhados
Habitualmente ´ usado o termo gen´rico Corpus Paralelo para
e e
representar os corpora paralelos alinhados ao n´ da frase. Ou
ıvel
seja, em que os textos foram divididos em frases e foi definida uma
correspondˆncia entre os segmentos nas duas l´
e ınguas.
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
13. Exemplos de Corpora Paralelos
Exemplos de Corpora Paralelos
Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
e e a
unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
ca ca
COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
e e
unidades de tradu¸˜o provenientes de texto liter´rio (com
ca a
varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
co ca ca e
EuroParl — Corpus multilingue com uma m´dia de um milh˜o
e a
de unidades de tradu¸˜o para cada par de l´
ca ıngua, provenientes
da legisla¸˜o europeia;
ca
JRC-Acquis — Corpus multilingue com uma m´dia de um
e
milh˜o de unidades de tradu¸˜o para cada par de l´
a ca ıngua,
provenientes da legisla¸˜o europeia;
ca
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
14. Exemplos de Corpora Paralelos
Exemplos de Corpora Paralelos
Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
e e a
unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
ca ca
COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
e e
unidades de tradu¸˜o provenientes de texto liter´rio (com
ca a
varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
co ca ca e
EuroParl — Corpus multilingue com uma m´dia de um milh˜o
e a
de unidades de tradu¸˜o para cada par de l´
ca ıngua, provenientes
da legisla¸˜o europeia;
ca
JRC-Acquis — Corpus multilingue com uma m´dia de um
e
milh˜o de unidades de tradu¸˜o para cada par de l´
a ca ıngua,
provenientes da legisla¸˜o europeia;
ca
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
15. Exemplos de Corpora Paralelos
Exemplos de Corpora Paralelos
Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
e e a
unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
ca ca
COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
e e
unidades de tradu¸˜o provenientes de texto liter´rio (com
ca a
varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
co ca ca e
EuroParl — Corpus multilingue com uma m´dia de um milh˜o
e a
de unidades de tradu¸˜o para cada par de l´
ca ıngua, provenientes
da legisla¸˜o europeia;
ca
JRC-Acquis — Corpus multilingue com uma m´dia de um
e
milh˜o de unidades de tradu¸˜o para cada par de l´
a ca ıngua,
provenientes da legisla¸˜o europeia;
ca
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
16. Corpora Paralelos na Rede
´
E habitual a disponibiliza¸˜o de Corpora para consulta de
ca
concordˆncias na Internet.
a
Alguns exemplos:
AC/DC — Acesso a Corpora / Disponibiliza¸˜o de Corpora
ca
http://www.linguateca.pt/acesso/corpus.php
COMPARA — Corpus Paralelo de Obras Liter´rias
a
http://www.linguateca.pt/COMPARA/psimples.php
NATools — Natura Alignment Tools
http://linguateca.di.uminho.pt/nat
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
17. Etapas T´
ıpicas na Constru¸˜o de um Corpus
ca
recolha dos textos a incorporar:
digitaliza¸˜o e OCR de documentos;
ca
recolha autom´tica a partir de documentos
a
Caso particular: extrac¸˜o a partir da rede
ca
an´lise e tratamento da qualidade dos textos:
a
tratamentos de erros t´ıpicos de OCR;
an´lise e selec¸˜o dos textos obtidos;
a ca
segmenta¸˜o e atomiza¸˜o dos textos:
ca ca
detec¸˜o de frases (cuidado com abreviaturas...)
ca
detec¸˜o de palavras (o que s˜o palavras?...)
ca a
anota¸˜o variada:
ca
anota¸˜o das entidades mencionadas;
ca
anota¸˜o das categorias morfo-sint´cticas;
ca a
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
18. Etapas T´
ıpicas na Constru¸˜o de um Corpus
ca
recolha dos textos a incorporar:
digitaliza¸˜o e OCR de documentos;
ca
recolha autom´tica a partir de documentos
a
Caso particular: extrac¸˜o a partir da rede
ca
an´lise e tratamento da qualidade dos textos:
a
tratamentos de erros t´ıpicos de OCR;
an´lise e selec¸˜o dos textos obtidos;
a ca
segmenta¸˜o e atomiza¸˜o dos textos:
ca ca
detec¸˜o de frases (cuidado com abreviaturas...)
ca
detec¸˜o de palavras (o que s˜o palavras?...)
ca a
anota¸˜o variada:
ca
anota¸˜o das entidades mencionadas;
ca
anota¸˜o das categorias morfo-sint´cticas;
ca a
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
19. Etapas T´
ıpicas na Constru¸˜o de um Corpus
ca
recolha dos textos a incorporar:
digitaliza¸˜o e OCR de documentos;
ca
recolha autom´tica a partir de documentos
a
Caso particular: extrac¸˜o a partir da rede
ca
an´lise e tratamento da qualidade dos textos:
a
tratamentos de erros t´ıpicos de OCR;
an´lise e selec¸˜o dos textos obtidos;
a ca
segmenta¸˜o e atomiza¸˜o dos textos:
ca ca
detec¸˜o de frases (cuidado com abreviaturas...)
ca
detec¸˜o de palavras (o que s˜o palavras?...)
ca a
anota¸˜o variada:
ca
anota¸˜o das entidades mencionadas;
ca
anota¸˜o das categorias morfo-sint´cticas;
ca a
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
20. Etapas T´
ıpicas na Constru¸˜o de um Corpus
ca
recolha dos textos a incorporar:
digitaliza¸˜o e OCR de documentos;
ca
recolha autom´tica a partir de documentos
a
Caso particular: extrac¸˜o a partir da rede
ca
an´lise e tratamento da qualidade dos textos:
a
tratamentos de erros t´ıpicos de OCR;
an´lise e selec¸˜o dos textos obtidos;
a ca
segmenta¸˜o e atomiza¸˜o dos textos:
ca ca
detec¸˜o de frases (cuidado com abreviaturas...)
ca
detec¸˜o de palavras (o que s˜o palavras?...)
ca a
anota¸˜o variada:
ca
anota¸˜o das entidades mencionadas;
ca
anota¸˜o das categorias morfo-sint´cticas;
ca a
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
21. Adicionalmente para Corpora Paralelos
alinhamento ao n´ da frase
ıvel
com base no comprimento das frases;
com base em palavras sem tradu¸˜o;
ca
com base em dicion´rios bilingues;
a
extrac¸˜o de dicion´rios de tradu¸˜o
ca a ca
para cada palavra associar tradu¸˜es prov´veis;
co a
com base nas co-ocorrˆncias das palavras;
e
alinhamento ao n´ da palavra
ıvel
associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
ca e
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
22. Adicionalmente para Corpora Paralelos
alinhamento ao n´ da frase
ıvel
com base no comprimento das frases;
com base em palavras sem tradu¸˜o;
ca
com base em dicion´rios bilingues;
a
extrac¸˜o de dicion´rios de tradu¸˜o
ca a ca
para cada palavra associar tradu¸˜es prov´veis;
co a
com base nas co-ocorrˆncias das palavras;
e
alinhamento ao n´ da palavra
ıvel
associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
ca e
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
23. Adicionalmente para Corpora Paralelos
alinhamento ao n´ da frase
ıvel
com base no comprimento das frases;
com base em palavras sem tradu¸˜o;
ca
com base em dicion´rios bilingues;
a
extrac¸˜o de dicion´rios de tradu¸˜o
ca a ca
para cada palavra associar tradu¸˜es prov´veis;
co a
com base nas co-ocorrˆncias das palavras;
e
alinhamento ao n´ da palavra
ıvel
associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
ca e
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
24. Aplica¸oes de Corpora
c˜
Aprendizagem Autom´tica:
a
modelos estat´
ısticos de l´
ıngua;
Extrac¸˜o de terminologia:
ca
detec¸˜o de palavras espec´
ca ıficas de uma ´rea;
a
extrac¸˜o de terminologia bilingue;
ca
Tradu¸˜o Autom´tica:
ca a
extrac¸˜o de dicion´rios bilingues;
ca a
extrac¸˜o de terminologia bilingue;
ca
extrac¸˜o de exemplos de tradu¸˜o;
ca ca
modelos estat´ısticos de tradu¸˜o;
ca
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
25. Constru¸˜o de Corpora Monolingue
ca
A constru¸˜o de corpora monolingue tem como base a:
ca
extrac¸˜o de p´ginas da Rede com conte´do relevante
ca a u
pesquisas por termos chave;
extrac¸˜o de algumas p´ginas obtidas;
ca a
extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico
ca e a ca e
comum;
usar as palavras resultantes em novas pesquisas. Extrac¸˜o
ca
dessas p´ginas como constituintes do corpus.
a
selec¸˜o das p´ginas obtidas
ca a
a l´
ıngua pretendida;
a percentagem de conte´do util;
u ´
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura
26. Constru¸˜o de Corpora Monolingue
ca
A constru¸˜o de corpora monolingue tem como base a:
ca
extrac¸˜o de p´ginas da Rede com conte´do relevante
ca a u
pesquisas por termos chave;
extrac¸˜o de algumas p´ginas obtidas;
ca a
extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico
ca e a ca e
comum;
usar as palavras resultantes em novas pesquisas. Extrac¸˜o
ca
dessas p´ginas como constituintes do corpus.
a
selec¸˜o das p´ginas obtidas
ca a
a l´
ıngua pretendida;
a percentagem de conte´do util;
u ´
Alberto Sim˜es
o Corpora para Processamento de Linguagem Natura