SlideShare uma empresa Scribd logo
1 de 26
Baixar para ler offline
Corpora para Processamento de Linguagem Natura

           Alberto Manuel Brand˜o Sim˜es
                               a     o
                ambs@di.uminho.pt



           17 de Outubro de 2008            (v0.1)




               Alberto Sim˜es
                          o     Corpora para Processamento de Linguagem Natura
Defini¸˜o de Corpus
        ca


Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
        e                                         ca
de textos, relativos a determinado assunto.


Corpora
Corpora ´ o plural de Corpus.
        e


                         
                         monolingue
               corpora                     compar´vel
                                                   a
                         multilingue
                                           paralelo



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Defini¸˜o de Corpus
        ca


Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
        e                                         ca
de textos, relativos a determinado assunto.


Corpora
Corpora ´ o plural de Corpus.
        e


                         
                         monolingue
               corpora                     compar´vel
                                                   a
                         multilingue
                                           paralelo



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Defini¸˜o de Corpus
        ca


Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
        e                                         ca
de textos, relativos a determinado assunto.


Corpora
Corpora ´ o plural de Corpus.
        e


                         
                         monolingue
               corpora                     compar´vel
                                                   a
                         multilingue
                                           paralelo



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Corpora Compar´veis
                 a




Corpora Compar´veis
                 a
Os Corpora Compar´veis s˜o conjuntos de textos em diferentes
                    a    a
l´
 ınguas que, embora n˜o correspondam directamente a tradu¸˜es
                      a                                   co
literais, focam um mesmo assunto.




                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Compar´veis
                              a



Qualquer conjunto de not´ıcias que se refiram a um mesmo assunto
ou evento, e que estejam escritos em l´ınguas diferentes podem ser
vistos como corpora compar´veis.
                            a

Outro exemplo ser´ um conjunto de artigos cient´
                 a                             ıficos sobre um
mesmo micro-organismo.

Estes corpora s˜o essencialmente utilizados para o estudo e
               a
extrac¸˜o de terminologia espec´
      ca                       ıfica da ´rea a que os corpora se
                                        a
referem.




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Corpora Paralelos


Corpora Paralelos
Os Corpora Paralelos s˜o textos em duas ou mais l´
                      a                            ınguas, em que
existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o
               ca          ca                             a
bilingues, em que uma das l´
                           ınguas ´ a original, e a outra a
                                  e
tradu¸˜o.
      ca


Corpora Paralelos Alinhados
Habitualmente ´ usado o termo gen´rico Corpus Paralelo para
                e                    e
representar os corpora paralelos alinhados ao n´ da frase. Ou
                                               ıvel
seja, em que os textos foram divididos em frases e foi definida uma
correspondˆncia entre os segmentos nas duas l´
           e                                   ınguas.



                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Corpora Paralelos


Corpora Paralelos
Os Corpora Paralelos s˜o textos em duas ou mais l´
                      a                            ınguas, em que
existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o
               ca          ca                             a
bilingues, em que uma das l´
                           ınguas ´ a original, e a outra a
                                  e
tradu¸˜o.
      ca


Corpora Paralelos Alinhados
Habitualmente ´ usado o termo gen´rico Corpus Paralelo para
                e                    e
representar os corpora paralelos alinhados ao n´ da frase. Ou
                                               ıvel
seja, em que os textos foram divididos em frases e foi definida uma
correspondˆncia entre os segmentos nas duas l´
           e                                   ınguas.



                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos


Exemplos de Corpora Paralelos
    Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
                           e       e                        a
    unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
                     ca                         ca
    COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
                                  e      e
    unidades de tradu¸˜o provenientes de texto liter´rio (com
                      ca                            a
    varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
         co           ca          ca                        e
    EuroParl — Corpus multilingue com uma m´dia de um milh˜o
                                               e               a
    de unidades de tradu¸˜o para cada par de l´
                         ca                   ıngua, provenientes
    da legisla¸˜o europeia;
              ca
    JRC-Acquis — Corpus multilingue com uma m´dia de um
                                                 e
    milh˜o de unidades de tradu¸˜o para cada par de l´
        a                        ca                  ıngua,
    provenientes da legisla¸˜o europeia;
                           ca



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos


Exemplos de Corpora Paralelos
    Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
                           e       e                        a
    unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
                     ca                         ca
    COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
                                  e      e
    unidades de tradu¸˜o provenientes de texto liter´rio (com
                      ca                            a
    varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
         co           ca          ca                        e
    EuroParl — Corpus multilingue com uma m´dia de um milh˜o
                                               e               a
    de unidades de tradu¸˜o para cada par de l´
                         ca                   ıngua, provenientes
    da legisla¸˜o europeia;
              ca
    JRC-Acquis — Corpus multilingue com uma m´dia de um
                                                 e
    milh˜o de unidades de tradu¸˜o para cada par de l´
        a                        ca                  ıngua,
    provenientes da legisla¸˜o europeia;
                           ca



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos


Exemplos de Corpora Paralelos
    Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
                           e       e                        a
    unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
                     ca                         ca
    COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
                                  e      e
    unidades de tradu¸˜o provenientes de texto liter´rio (com
                      ca                            a
    varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
         co           ca          ca                        e
    EuroParl — Corpus multilingue com uma m´dia de um milh˜o
                                               e               a
    de unidades de tradu¸˜o para cada par de l´
                         ca                   ıngua, provenientes
    da legisla¸˜o europeia;
              ca
    JRC-Acquis — Corpus multilingue com uma m´dia de um
                                                 e
    milh˜o de unidades de tradu¸˜o para cada par de l´
        a                        ca                  ıngua,
    provenientes da legisla¸˜o europeia;
                           ca



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Corpora Paralelos na Rede


´
E habitual a disponibiliza¸˜o de Corpora para consulta de
                          ca
concordˆncias na Internet.
       a

Alguns exemplos:
    AC/DC — Acesso a Corpora / Disponibiliza¸˜o de Corpora
                                            ca
    http://www.linguateca.pt/acesso/corpus.php
    COMPARA — Corpus Paralelo de Obras Liter´rias
                                            a
    http://www.linguateca.pt/COMPARA/psimples.php
    NATools — Natura Alignment Tools
    http://linguateca.di.uminho.pt/nat




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos



alinhamento ao n´ da frase
                ıvel
    com base no comprimento das frases;
    com base em palavras sem tradu¸˜o;
                                    ca
    com base em dicion´rios bilingues;
                      a
extrac¸˜o de dicion´rios de tradu¸˜o
      ca           a             ca
    para cada palavra associar tradu¸˜es prov´veis;
                                    co       a
    com base nas co-ocorrˆncias das palavras;
                          e
alinhamento ao n´ da palavra
                ıvel
    associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
                      ca              e




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos



alinhamento ao n´ da frase
                ıvel
    com base no comprimento das frases;
    com base em palavras sem tradu¸˜o;
                                    ca
    com base em dicion´rios bilingues;
                      a
extrac¸˜o de dicion´rios de tradu¸˜o
      ca           a             ca
    para cada palavra associar tradu¸˜es prov´veis;
                                    co       a
    com base nas co-ocorrˆncias das palavras;
                          e
alinhamento ao n´ da palavra
                ıvel
    associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
                      ca              e




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos



alinhamento ao n´ da frase
                ıvel
    com base no comprimento das frases;
    com base em palavras sem tradu¸˜o;
                                    ca
    com base em dicion´rios bilingues;
                      a
extrac¸˜o de dicion´rios de tradu¸˜o
      ca           a             ca
    para cada palavra associar tradu¸˜es prov´veis;
                                    co       a
    com base nas co-ocorrˆncias das palavras;
                          e
alinhamento ao n´ da palavra
                ıvel
    associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
                      ca              e




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Aplica¸oes de Corpora
      c˜



Aprendizagem Autom´tica:
                  a
    modelos estat´
                 ısticos de l´
                             ıngua;
Extrac¸˜o de terminologia:
      ca
    detec¸˜o de palavras espec´
         ca                   ıficas de uma ´rea;
                                           a
    extrac¸˜o de terminologia bilingue;
          ca
Tradu¸˜o Autom´tica:
     ca       a
    extrac¸˜o de dicion´rios bilingues;
          ca            a
    extrac¸˜o de terminologia bilingue;
          ca
    extrac¸˜o de exemplos de tradu¸˜o;
          ca                         ca
    modelos estat´ısticos de tradu¸˜o;
                                  ca




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Constru¸˜o de Corpora Monolingue
          ca



A constru¸˜o de corpora monolingue tem como base a:
         ca
    extrac¸˜o de p´ginas da Rede com conte´do relevante
          ca      a                       u
        pesquisas por termos chave;
        extrac¸˜o de algumas p´ginas obtidas;
              ca                a
        extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico
              ca      e              a                ca       e
        comum;
        usar as palavras resultantes em novas pesquisas. Extrac¸˜o
                                                               ca
        dessas p´ginas como constituintes do corpus.
                a
    selec¸˜o das p´ginas obtidas
         ca       a
        a l´
           ıngua pretendida;
        a percentagem de conte´do util;
                              u ´




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Constru¸˜o de Corpora Monolingue
          ca



A constru¸˜o de corpora monolingue tem como base a:
         ca
    extrac¸˜o de p´ginas da Rede com conte´do relevante
          ca      a                       u
        pesquisas por termos chave;
        extrac¸˜o de algumas p´ginas obtidas;
              ca                a
        extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico
              ca      e              a                ca       e
        comum;
        usar as palavras resultantes em novas pesquisas. Extrac¸˜o
                                                               ca
        dessas p´ginas como constituintes do corpus.
                a
    selec¸˜o das p´ginas obtidas
         ca       a
        a l´
           ıngua pretendida;
        a percentagem de conte´do util;
                              u ´




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura

Mais conteúdo relacionado

Mais procurados

Apostila de hebraico
Apostila de hebraicoApostila de hebraico
Apostila de hebraicouverlan
 
Reformaortografica 2009 Vanessa
Reformaortografica 2009 VanessaReformaortografica 2009 Vanessa
Reformaortografica 2009 VanessaVanessa Dagostim
 
Latim a arte de raciocinar
Latim a arte de raciocinarLatim a arte de raciocinar
Latim a arte de raciocinarMaluco Rafael
 
C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)Clovis Bombardelli
 
Tradução história, teorias e métodos
Tradução história, teorias e métodosTradução história, teorias e métodos
Tradução história, teorias e métodosJessiely Soares
 
Guia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - MelhoramentosGuia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - Melhoramentoscarlinhosreis
 
Descubra o acordo ortográfico pe
Descubra o acordo ortográfico peDescubra o acordo ortográfico pe
Descubra o acordo ortográfico peSalvia Fontinha
 
Teorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & HebraicaTeorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & Hebraicayasmin fonseca
 
Curso de latim_gloria_tv
Curso de latim_gloria_tvCurso de latim_gloria_tv
Curso de latim_gloria_tvMaluco Rafael
 
Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70luisprista
 
Recursosexpressivos
RecursosexpressivosRecursosexpressivos
Recursosexpressivosaly pereira
 

Mais procurados (19)

Apostila de hebraico
Apostila de hebraicoApostila de hebraico
Apostila de hebraico
 
INICIAÇÃO AO HEBRAICO I
INICIAÇÃO AO HEBRAICO IINICIAÇÃO AO HEBRAICO I
INICIAÇÃO AO HEBRAICO I
 
Reformaortografica 2009 Vanessa
Reformaortografica 2009 VanessaReformaortografica 2009 Vanessa
Reformaortografica 2009 Vanessa
 
Latim a arte de raciocinar
Latim a arte de raciocinarLatim a arte de raciocinar
Latim a arte de raciocinar
 
Curso De Hebraico
Curso De HebraicoCurso De Hebraico
Curso De Hebraico
 
Curso-de-latim-completo
 Curso-de-latim-completo Curso-de-latim-completo
Curso-de-latim-completo
 
C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)
 
Livro do gênesis
Livro do gênesisLivro do gênesis
Livro do gênesis
 
Lingua Hebraica V
Lingua Hebraica VLingua Hebraica V
Lingua Hebraica V
 
Tradução história, teorias e métodos
Tradução história, teorias e métodosTradução história, teorias e métodos
Tradução história, teorias e métodos
 
Guia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - MelhoramentosGuia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - Melhoramentos
 
PEX- Novo Acordo Ortográfico
PEX- Novo Acordo OrtográficoPEX- Novo Acordo Ortográfico
PEX- Novo Acordo Ortográfico
 
Q06
Q06Q06
Q06
 
Descubra o acordo ortográfico pe
Descubra o acordo ortográfico peDescubra o acordo ortográfico pe
Descubra o acordo ortográfico pe
 
Teorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & HebraicaTeorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & Hebraica
 
Crop10 abdu
Crop10 abduCrop10 abdu
Crop10 abdu
 
Curso de latim_gloria_tv
Curso de latim_gloria_tvCurso de latim_gloria_tv
Curso de latim_gloria_tv
 
Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70
 
Recursosexpressivos
RecursosexpressivosRecursosexpressivos
Recursosexpressivos
 

Destaque

Aula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAlberto Simões
 
Making the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionaryMaking the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionaryAlberto Simões
 
Translation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation DictionariesTranslation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation DictionariesAlberto Simões
 
Dictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationDictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationAlberto Simões
 
Aula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAlberto Simões
 
Language Identification: A neural network approach
Language Identification: A neural network approachLanguage Identification: A neural network approach
Language Identification: A neural network approachAlberto Simões
 
Controlo de Versões com SVN
Controlo de Versões com SVNControlo de Versões com SVN
Controlo de Versões com SVNAlberto Simões
 

Destaque (9)

Aula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de Requisitos
 
Making the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionaryMaking the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionary
 
TPF GC
TPF GCTPF GC
TPF GC
 
Translation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation DictionariesTranslation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation Dictionaries
 
Dictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationDictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry Translation
 
Aula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de Atividade
 
Language Identification: A neural network approach
Language Identification: A neural network approachLanguage Identification: A neural network approach
Language Identification: A neural network approach
 
Controlo de Versões com SVN
Controlo de Versões com SVNControlo de Versões com SVN
Controlo de Versões com SVN
 
Source Code Quality
Source Code QualitySource Code Quality
Source Code Quality
 

Mais de Alberto Simões

EMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized DictionariesEMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized DictionariesAlberto Simões
 
Aula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAlberto Simões
 
Aula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAlberto Simões
 
Building C and C++ libraries with Perl
Building C and C++ libraries with PerlBuilding C and C++ libraries with Perl
Building C and C++ libraries with PerlAlberto Simões
 
Processing XML: a rewriting system approach
Processing XML: a rewriting system approachProcessing XML: a rewriting system approach
Processing XML: a rewriting system approachAlberto Simões
 
Arquitecturas de Tradução Automática
Arquitecturas de Tradução AutomáticaArquitecturas de Tradução Automática
Arquitecturas de Tradução AutomáticaAlberto Simões
 
Extracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaExtracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaAlberto Simões
 
Bilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation PatternsBilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation PatternsAlberto Simões
 

Mais de Alberto Simões (20)

Google Maps JS API
Google Maps JS APIGoogle Maps JS API
Google Maps JS API
 
EMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized DictionariesEMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized Dictionaries
 
Modelação de Dados
Modelação de DadosModelação de Dados
Modelação de Dados
 
Aula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de Sequência
 
Aula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de Informação
 
Building C and C++ libraries with Perl
Building C and C++ libraries with PerlBuilding C and C++ libraries with Perl
Building C and C++ libraries with Perl
 
PLN em Perl
PLN em PerlPLN em Perl
PLN em Perl
 
Classification Systems
Classification SystemsClassification Systems
Classification Systems
 
Redes de Pert
Redes de PertRedes de Pert
Redes de Pert
 
Dancing Tutorial
Dancing TutorialDancing Tutorial
Dancing Tutorial
 
Processing XML: a rewriting system approach
Processing XML: a rewriting system approachProcessing XML: a rewriting system approach
Processing XML: a rewriting system approach
 
Sistemas de Numeração
Sistemas de NumeraçãoSistemas de Numeração
Sistemas de Numeração
 
Álgebra de Boole
Álgebra de BooleÁlgebra de Boole
Álgebra de Boole
 
Arquitecturas de Tradução Automática
Arquitecturas de Tradução AutomáticaArquitecturas de Tradução Automática
Arquitecturas de Tradução Automática
 
Extracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaExtracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução Automática
 
Dicionário Aberto
Dicionário AbertoDicionário Aberto
Dicionário Aberto
 
Keynote Globs
Keynote GlobsKeynote Globs
Keynote Globs
 
Workshop GLOBS
Workshop GLOBSWorkshop GLOBS
Workshop GLOBS
 
Bilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation PatternsBilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation Patterns
 
Remote secure backups
Remote secure backupsRemote secure backups
Remote secure backups
 

Último

E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?Rosalina Simão Nunes
 
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOLEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOColégio Santa Teresinha
 
Slides 1 - O gênero textual entrevista.pptx
Slides 1 - O gênero textual entrevista.pptxSlides 1 - O gênero textual entrevista.pptx
Slides 1 - O gênero textual entrevista.pptxSilvana Silva
 
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfBRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfHenrique Pontes
 
02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdfJorge Andrade
 
Governo Provisório Era Vargas 1930-1934 Brasil
Governo Provisório Era Vargas 1930-1934 BrasilGoverno Provisório Era Vargas 1930-1934 Brasil
Governo Provisório Era Vargas 1930-1934 Brasillucasp132400
 
Guia completo da Previdênci a - Reforma .pdf
Guia completo da Previdênci a - Reforma .pdfGuia completo da Previdênci a - Reforma .pdf
Guia completo da Previdênci a - Reforma .pdfEyshilaKelly1
 
trabalho wanda rocha ditadura
trabalho wanda rocha ditaduratrabalho wanda rocha ditadura
trabalho wanda rocha ditaduraAdryan Luiz
 
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptx
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptxApostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptx
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptxIsabelaRafael2
 
Programa de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasPrograma de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasCassio Meira Jr.
 
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologia
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologiaAula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologia
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologiaaulasgege
 
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
activIDADES CUENTO  lobo esta  CUENTO CUARTO GRADOactivIDADES CUENTO  lobo esta  CUENTO CUARTO GRADO
activIDADES CUENTO lobo esta CUENTO CUARTO GRADOcarolinacespedes23
 
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptxAD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptxkarinedarozabatista
 
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxSlides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxLuizHenriquedeAlmeid6
 
UFCD_10392_Intervenção em populações de risco_índice .pdf
UFCD_10392_Intervenção em populações de risco_índice .pdfUFCD_10392_Intervenção em populações de risco_índice .pdf
UFCD_10392_Intervenção em populações de risco_índice .pdfManuais Formação
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasCassio Meira Jr.
 
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxLuizHenriquedeAlmeid6
 
Pedologia- Geografia - Geologia - aula_01.pptx
Pedologia- Geografia - Geologia - aula_01.pptxPedologia- Geografia - Geologia - aula_01.pptx
Pedologia- Geografia - Geologia - aula_01.pptxleandropereira983288
 

Último (20)

Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
 
E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?
 
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOLEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
 
Slides 1 - O gênero textual entrevista.pptx
Slides 1 - O gênero textual entrevista.pptxSlides 1 - O gênero textual entrevista.pptx
Slides 1 - O gênero textual entrevista.pptx
 
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfBRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdf
 
02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf
 
Governo Provisório Era Vargas 1930-1934 Brasil
Governo Provisório Era Vargas 1930-1934 BrasilGoverno Provisório Era Vargas 1930-1934 Brasil
Governo Provisório Era Vargas 1930-1934 Brasil
 
Guia completo da Previdênci a - Reforma .pdf
Guia completo da Previdênci a - Reforma .pdfGuia completo da Previdênci a - Reforma .pdf
Guia completo da Previdênci a - Reforma .pdf
 
trabalho wanda rocha ditadura
trabalho wanda rocha ditaduratrabalho wanda rocha ditadura
trabalho wanda rocha ditadura
 
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptx
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptxApostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptx
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptx
 
Programa de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasPrograma de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades Motoras
 
Em tempo de Quaresma .
Em tempo de Quaresma                            .Em tempo de Quaresma                            .
Em tempo de Quaresma .
 
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologia
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologiaAula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologia
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologia
 
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
activIDADES CUENTO  lobo esta  CUENTO CUARTO GRADOactivIDADES CUENTO  lobo esta  CUENTO CUARTO GRADO
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
 
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptxAD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
AD2 DIDÁTICA.KARINEROZA.SHAYANNE.BINC.ROBERTA.pptx
 
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxSlides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
 
UFCD_10392_Intervenção em populações de risco_índice .pdf
UFCD_10392_Intervenção em populações de risco_índice .pdfUFCD_10392_Intervenção em populações de risco_índice .pdf
UFCD_10392_Intervenção em populações de risco_índice .pdf
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e Específicas
 
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
 
Pedologia- Geografia - Geologia - aula_01.pptx
Pedologia- Geografia - Geologia - aula_01.pptxPedologia- Geografia - Geologia - aula_01.pptx
Pedologia- Geografia - Geologia - aula_01.pptx
 

Corpora para Processamento de Linguagem Natural

  • 1. Corpora para Processamento de Linguagem Natura Alberto Manuel Brand˜o Sim˜es a o ambs@di.uminho.pt 17 de Outubro de 2008 (v0.1) Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 2. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 3. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 4. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 5. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 6. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 7. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 8. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 9. Corpora Compar´veis a Corpora Compar´veis a Os Corpora Compar´veis s˜o conjuntos de textos em diferentes a a l´ ınguas que, embora n˜o correspondam directamente a tradu¸˜es a co literais, focam um mesmo assunto. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 10. Exemplos de Corpora Compar´veis a Qualquer conjunto de not´ıcias que se refiram a um mesmo assunto ou evento, e que estejam escritos em l´ınguas diferentes podem ser vistos como corpora compar´veis. a Outro exemplo ser´ um conjunto de artigos cient´ a ıficos sobre um mesmo micro-organismo. Estes corpora s˜o essencialmente utilizados para o estudo e a extrac¸˜o de terminologia espec´ ca ıfica da ´rea a que os corpora se a referem. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 11. Corpora Paralelos Corpora Paralelos Os Corpora Paralelos s˜o textos em duas ou mais l´ a ınguas, em que existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o ca ca a bilingues, em que uma das l´ ınguas ´ a original, e a outra a e tradu¸˜o. ca Corpora Paralelos Alinhados Habitualmente ´ usado o termo gen´rico Corpus Paralelo para e e representar os corpora paralelos alinhados ao n´ da frase. Ou ıvel seja, em que os textos foram divididos em frases e foi definida uma correspondˆncia entre os segmentos nas duas l´ e ınguas. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 12. Corpora Paralelos Corpora Paralelos Os Corpora Paralelos s˜o textos em duas ou mais l´ a ınguas, em que existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o ca ca a bilingues, em que uma das l´ ınguas ´ a original, e a outra a e tradu¸˜o. ca Corpora Paralelos Alinhados Habitualmente ´ usado o termo gen´rico Corpus Paralelo para e e representar os corpora paralelos alinhados ao n´ da frase. Ou ıvel seja, em que os textos foram divididos em frases e foi definida uma correspondˆncia entre os segmentos nas duas l´ e ınguas. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 13. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 14. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 15. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 16. Corpora Paralelos na Rede ´ E habitual a disponibiliza¸˜o de Corpora para consulta de ca concordˆncias na Internet. a Alguns exemplos: AC/DC — Acesso a Corpora / Disponibiliza¸˜o de Corpora ca http://www.linguateca.pt/acesso/corpus.php COMPARA — Corpus Paralelo de Obras Liter´rias a http://www.linguateca.pt/COMPARA/psimples.php NATools — Natura Alignment Tools http://linguateca.di.uminho.pt/nat Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 17. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 18. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 19. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 20. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 21. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 22. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 23. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 24. Aplica¸oes de Corpora c˜ Aprendizagem Autom´tica: a modelos estat´ ısticos de l´ ıngua; Extrac¸˜o de terminologia: ca detec¸˜o de palavras espec´ ca ıficas de uma ´rea; a extrac¸˜o de terminologia bilingue; ca Tradu¸˜o Autom´tica: ca a extrac¸˜o de dicion´rios bilingues; ca a extrac¸˜o de terminologia bilingue; ca extrac¸˜o de exemplos de tradu¸˜o; ca ca modelos estat´ısticos de tradu¸˜o; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 25. Constru¸˜o de Corpora Monolingue ca A constru¸˜o de corpora monolingue tem como base a: ca extrac¸˜o de p´ginas da Rede com conte´do relevante ca a u pesquisas por termos chave; extrac¸˜o de algumas p´ginas obtidas; ca a extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico ca e a ca e comum; usar as palavras resultantes em novas pesquisas. Extrac¸˜o ca dessas p´ginas como constituintes do corpus. a selec¸˜o das p´ginas obtidas ca a a l´ ıngua pretendida; a percentagem de conte´do util; u ´ Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 26. Constru¸˜o de Corpora Monolingue ca A constru¸˜o de corpora monolingue tem como base a: ca extrac¸˜o de p´ginas da Rede com conte´do relevante ca a u pesquisas por termos chave; extrac¸˜o de algumas p´ginas obtidas; ca a extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico ca e a ca e comum; usar as palavras resultantes em novas pesquisas. Extrac¸˜o ca dessas p´ginas como constituintes do corpus. a selec¸˜o das p´ginas obtidas ca a a l´ ıngua pretendida; a percentagem de conte´do util; u ´ Alberto Sim˜es o Corpora para Processamento de Linguagem Natura