Guide Labs lança um novo tipo de LLM interpretável
Conteudo
TLDR;
A Guide Labs lançou o Steerling-8B, um LLM open source de 8 bilhões de parâmetros com arquitetura que permite rastrear cada token gerado de volta aos dados de treinamento originais.. A interpretabilidade é alcançada inserindo uma camada de conceitos que categoriza dados em grupos rastreáveis, facilitando o controle preciso de comportamentos como encoding de gênero ou citações de fatos, sem métodos frágeis como neurociência reversa.. O modelo atinge 90% da capacidade de LLMs existentes com menos dados de treinamento, beneficiando controle em áreas reguladas como finanças, bloqueio de conteúdo copyrighted e insights científicos, com planos para versões maiores e APIs.
Resumo
A startup de São Francisco, Guide Labs, fundada pelo CEO Julius Adebayo e pela chefe de ciência Aya Abdelsalam Ismail, lançou o Steerling-8B, um modelo de linguagem grande (LLM) de 8 bilhões de parâmetros open-source, projetado para máxima interpretabilidade. Diferente de LLMs tradicionais, que são "caixas-pretas" difíceis de decifrar — como problemas de viés político no Grok ou alucinações no ChatGPT —, o Steerling permite rastrear cada token gerado até suas origens nos dados de treinamento. Isso é possível graças a uma camada de conceitos inserida na arquitetura, que categoriza dados de forma rastreável, exigindo mais anotação inicial, mas facilitada por outros IAs. Adebayo, que iniciou essa pesquisa em seu PhD no MIT com um paper influente de 2018, compara o método tradicional de "neurociência em modelos" a uma engenharia proativa desde o zero. O modelo mantém comportamentos emergentes, como conceitos "descobertos" (ex.: computação quântica), e atinge 90% do desempenho de modelos maiores com menos dados. Útil para bloquear materiais com direitos autorais, controlar saídas sensíveis (violência, drogas) e indústrias reguladas como finanças e ciência (ex.: dobramento de proteínas). Saindo do Y Combinator com US$ 9 milhões em seed da Initialized Capital, a empresa planeja modelos maiores e APIs. Adebayo enfatiza que interpretabilidade inerente é essencial para IAs superinteligentes confiáveis. (198 palavras)