Arquitetura de Transformadores

Transformer (Transformador), é basicamente uma arquitetura de rede neural que revoluciou o campo de processamento de linguagem natural (PLN) e outras áreas em Deep Learning.

Abaixo o diagrama da arquitetura de transformadores:

O conceito central do transformer é o mecanismo de atenção, especificamente a atenção automática (self-attention). Este mecanismo permite que o modelo examine e considere diferentes partes de uma sequência de entrada (como palavras em uma frase) simultaneamente, ponderando a importância de cada parte com relação às outras.

Podemos comparar isso com as redes neurais recorrentes, que processam sequências de forma sequencial, cada etapa por vez, o que limita a capacidade de capturar dependências de longo alcance.

O transformer é composto por duas partes principais:

Codificador (Encoder): Recebe a sequência de entrada e gera uma representação interna dessa sequência, capturando as relações entre os diferentes elementos de entrada

Decodificador (Decoder): Usa essa representação interna para gerar uma sequência de saída, como uma tradução ou um resumo.

A inovação mais significativa do Transformer é a utilização de atenção multi-cabeças (multi-heads attention), que permite ao modelo focar em diferentes partes da sequência simultaneamente, capturando múltiplos aspectos das dependências entre palavras.

Os transformadores são altamente paralelízáveis, o que os torna mais eficientes em termos de treinamento em comparação com RNNs e LSTMs (Long Short-Term Mentory)