O que são modelos de IA generativa?

Nos últimos meses, modelos de linguagem de grande porte, ou LLMs, como o ChatGPT, vêm tomando a internet.

Seja para escrever poesia ou ajudar a planejar as próximas férias, estamos testemunhando uma mudança drástica no desempenho da IA e no seu potencial para gerar valor para as empresas.

Modelos Fundamentais

Modelos de linguagem de grande porte são na verdade parte de uma classe diferente de modelos, chamada modelos fundamentais.

O termo “modelos fundamentais” foi primeiramente cunhado por uma equipe da Stanford quando perceberam que o campo da IA estava convergindo para um novo paradigma.

Antes, aplicações de IA eram construídas por treinamento, talvez uma biblioteca de diferentes modelos de IA, onde cada modelo de IA era treinado com dados muito específicos para desempenhar uma tarefa muito específica.

Modelos fundamentais.

Previram que começaríamos a mudar para um novo paradigma, onde teríamos uma capacidade fundamental, ou um modelo fundamental, que dirigiria todos esses mesmos casos de uso e aplicações.

Então, as mesmas aplicações exatas que imaginávamos antes com IA convencional, e o mesmo modelo poderia impulsionar um número qualquer de aplicações adicionais.

O ponto é que este modelo pode ser transferido para um número qualquer de tarefas.

O Super Poder dos Modelos

O que dá a este modelo o superpoder de ser capaz de transferir para várias tarefas diferentes e desempenhar várias funções diferentes é que ele foi treinado em uma grande quantidade de dados não estruturados, de maneira não supervisionada.

No domínio da linguagem, isso significa basicamente alimentar o modelo com uma quantidade de frases — estamos falando de terabytes de dados aqui — para treinar esse modelo.

E o começo da minha frase pode ser “não adianta chorar pelo” e o final da minha frase pode ser “leite derramado”.

Estou tentando fazer com que meu modelo preveja a última palavra da frase com base nas palavras que viu antes.

IA Gerativa

É essa capacidade gerativa do modelo — prever e gerar a próxima palavra — com base nas palavras anteriores que torna os modelos fundamentais parte do campo da IA chamado IA gerativa.

Estamos gerando algo novo, neste caso, a próxima palavra em uma frase.

A vantagem desses modelos são os ganhos de produtividade.

Mesmo que esses modelos sejam treinados para desempenhar, em sua essência, uma tarefa de geração, prevendo a próxima palavra na frase, podemos pegar esses modelos e, se introduzirmos uma pequena quantidade de dados rotulados na equação, podemos ajustá-los para desempenhar tarefas tradicionais de PLN — coisas como classificação ou reconhecimento de entidades nomeadas — coisas que normalmente não associamos como sendo um modelo ou capacidade baseada em geração.

E esse processo é chamado de ajuste.

Vantagens dos Modelos Fundamentais

A principal vantagem é o desempenho.

Esses modelos viram tantos dados. Dados com D maiúsculo — terabytes de dados — que quando aplicados a pequenas tarefas, podem superar drasticamente um modelo que foi treinado apenas com alguns pontos de dados.

A segunda vantagem desses modelos são os ganhos de produtividade.

Através do ajuste ou da criação de prompts, você precisa de muito menos dados rotulados para chegar a um modelo específico de tarefa do que se tivesse que começar do zero, porque seu modelo está aproveitando todos os dados não rotulados que viu em seu pré-treinamento.

Desvantagens

Como tudo na vida, também existem algumas desvantagens importantes.

E a primeira delas é o custo de computação.

Esse ônus por ter este modelo vendo tantos dados é que eles são muito caros para treinar, dificultando para empresas menores treinar um modelo fundamental por conta própria.

Eles também são caros — quando chegam a um tamanho enorme, alguns bilhões de parâmetros — também são muito caros para executar inferência.

Você pode precisar de várias GPUs ao mesmo tempo apenas para hospedar esses modelos e executar a inferência, tornando-os um método mais caro do que as abordagens tradicionais.

A segunda desvantagem desses modelos está no lado da confiabilidade.

Assim como os dados são uma grande vantagem para esses modelos, eles também trazem um custo, especialmente no domínio da linguagem.

Muitos desses modelos são treinados basicamente com dados de linguagem que foram raspados da Internet.

A IBM reconhece o enorme potencial dessas tecnologias.

Meus parceiros na IBM Research estão trabalhando em várias inovações para melhorar a eficiência desses modelos e a confiabilidade e confiança desses modelos, tornando-os mais relevantes em um ambiente empresarial.

Outros Domínios

Todos esses exemplos que abordei até agora foram apenas do lado da linguagem.

Mas a realidade é que existem muitos outros domínios que os modelos fundamentais podem ser aplicados.

Ficamos famosos pelos modelos fundamentais para a visão — olhando para modelos como o DALL-E 2, que leva dados de texto e os usa para gerar uma imagem personalizada.

Vimos modelos para códigos com produtos como o Copilot que podem ajudar a completar o código à medida que ele está sendo escrito.

Modelos para mudanças climáticas.

E a IBM está inovando em todos esses domínios.

Estão trabalhando na química, por exemplo, acabaram de publicar e lançar o molformer, que é um modelo fundamental para promover a descoberta de moléculas ou terapias direcionadas diferentes.

E estamos trabalhando em modelos para mudanças climáticas, construindo Modelos Fundamentais de Ciências da Terra usando dados geoespaciais para melhorar a pesquisa climática.

Marcos Oliveira

Marcos Oliveira

Marcos Oliveira é um especialista em criação de conteúdo digital e marketing, com um interesse especial em inteligência artificial. Com vasta experiência na indústria, ele já trabalhou com várias marcas de renome, ajudando-as a estabelecer uma presença online sólida. Como autor de destaque em nosso site, Marcos possui um conhecimento profundo das últimas tendências e desenvolvimentos na área digital, incluindo estratégias de SEO e marketing de conteúdo. Com sua expertise e autoridade, Marcos garante que seus leitores obtenham informações precisas e atualizadas sobre o mundo digital. Além disso, ele sempre se esforça para fornecer uma visão aprofundada e analítica dos assuntos abordados em seus artigos, enriquecendo o conteúdo e agregando valor para o leitor.

Notícias Relacionadas

Categorias

Redes Sociais