Por que os modelos de linguagem atuais devem se alinhar com a consideração de todos os seres sencientes

9 Mar 2026

A inteligência artificial está influenciando cada vez mais áreas que afetam diretamente os seres sencientes. Grandes Modelos de Linguagem (LLMs), incorporados em mecanismos de busca, assistentes, ambientes educacionais e ferramentas profissionais, fazem mais do que apenas gerar texto: moldam quais informações circulam, quais argumentos parecem razoáveis e quais interesses são considerados relevantes.¹

Portanto, quando esses sistemas são implantados em larga escala, é crucial examinar quais valores eles incorporam. Não são ferramentas neutras.² Eles contribuem para estruturar sistemas morais implícitos.

Na prática, a maioria das abordagens de alinhamento atuais é centrada quase exclusivamente nos interesses humanos. “Dano” geralmente é entendido como dano a seres, instituições ou bens humanos. Outros animais (mesmo que sejam seres sencientes) e outras possíveis formas de senciência, raramente são incluídos como sujeitos com interesses próprios.³

Essa exclusão não é técnica, mas normativa. Decidir quem importa moralmente no alinhamento equivale a decidir quais tipos de danos serão sistematicamente evitados e quais serão invisibilizados. Quando os interesses dos animais não fazem parte dos princípios que norteiam o treinamento, os sistemas não têm incentivo para levar seu sofrimento a sério nem para evitar reforçar atitudes e práticas que o normalizam.

O que é alinhamento de IA e por que não é neutro?

O alinhamento visa garantir que os sistemas de IA não apenas funcionem corretamente do ponto de vista técnico, mas também ajam de acordo com determinados fins considerados aceitáveis. No caso dos LLMs, simplesmente gerar texto coerente não é suficiente: espera-se que eles não promovam violência, discriminação ou danos graves.

Existem diferentes métodos para alcançar isso:

·⠀Alinhamento constitucional: O modelo é treinado com princípios explícitos que orientam quais respostas ele deve produzir e quais deve evitar. O sistema revisa e reformula suas próprias respostas à luz desses princípios, incorporando-os como uma estrutura interna para o comportamento.⁴

·⠀Aprendizado por reforço com feedback humano (RLHF): Diferentes respostas do modelo são comparadas de acordo com critérios como utilidade ou ausência de dano, e o modelo aprende a maximizar essas preferências.⁵

·⠀Alinhamento deliberativo: O sistema internaliza regras e prioridades normativas, e aprende a aplicá-las ao gerar respostas.⁶

Embora difiram tecnicamente, todas essas abordagens compartilham uma característica: incorporam julgamentos de valor. Determinar o que conta como dano, quais riscos priorizar e quais objetivos são legítimos envolve adotar posições éticas.

Portanto, não existe um alinhamento neutro. Mesmo quando se afirma que a IA deve refletir “valores humanos”, alguém decide quais valores incluir e como traduzi-los em regras operacionais.

Se os sistemas são treinados para evitar o racismo ou o sexismo, mas não para considerar o sofrimento dos animais não humanos, presume-se que os interesses desses animais podem ser ignorados. O mesmo se aplica a outras possíveis formas de senciência, presentes ou futuras, cujos interesses poderiam ser excluídos por padrão. Essa exclusão é uma forma de discriminação: indivíduos capazes de sofrer são deixados de lado simplesmente porque não pertencem à espécie humana.

Dado o papel crescente desses sistemas na produção de informações, essa omissão pode contribuir para consolidar uma estrutura moral que torna a maioria dos seres sencientes invisíveis.

O problema do antropocentrismo na IA

Alguns argumentam que, ao se alinhar com os valores humanos, a IA incorporará indiretamente uma certa preocupação com os animais não humanos. No entanto, nossas sociedades são profundamente marcadas pelo especismo, a discriminação que consiste em dar menos peso aos interesses daqueles que não pertencem à espécie humana.

Embora a crueldade extrema seja condenada, práticas que causam sofrimento intenso e prolongado a um número imenso de animais a cada ano continuam sendo aceitas. Benefícios a humanos, como certas preferências alimentares ou confortos, são frequentemente priorizados em detrimento de danos graves a outros indivíduos capazes de sentir dor ou prazer.Se o alinhamento simplesmente reproduzir as preferências dominantes, os sistemas podem amplificar as considerações morais desiguais existentes. Isso pode se traduzir em dinâmicas tecnológicas que solidificam práticas prejudiciais sem reconhecer o sofrimento implicado.⁷

As tecnologias tendem a estabilizar e expandir os valores do contexto em que se desenvolvem. Uma estrutura de alinhamento antropocêntrico corre o risco de consolidar essa exclusão em larga escala.

Há, no entanto, passos iniciais que mostram que ampliar a estrutura moral é viável. Por exemplo, a empresa Anthropic incluiu na constituição que orienta seu modelo Claude uma referência explícita ao “bem-estar dos animais e de todos os seres sencientes”. Embora essa medida seja limitada, demonstra que integrar esses interesses ao alinhamento não é tecnicamente inviável.⁸

Inclusão de todos os seres sencientes no alinhamento

Se aceitarmos que os interesses moralmente relevantes são os de seres que podem sofrer ou desfrutar, é coerente que o alinhamento da IA inclua todos os seres sencientes, não apenas os humanos. A questão prática não é se isso deve ser feito, mas como fazê-lo de forma realista. Isso pode ser abordado gradualmente, com diferentes níveis de integração moral.

Alinhamento forte ou completo

No nível mais exigente, os sistemas de IA integrariam de forma robusta os interesses de todos os seres sencientes em seus objetivos, aceitando custos significativos para outros fins visando evitar danos.

Esse horizonte é consistente com a ideia de igual consideração moral, mas atualmente é difícil de implementar amplamente devido à forte resistência institucional e cultural a mudanças estruturais profundas.

Alinhamento básico

Um passo mais imediato e viável é adotar um padrão mínimo, porém significativo:

Princípio da minimização de danos evitáveis: os sistemas de IA devem evitar causar sofrimento significativo ou frustrar interesses importantes de seres sencientes quando isso não envolver sacrifícios significativos na conquista de outros objetivos.

Este nível não transforma radicalmente os objetivos do sistema, mas introduz uma clara restrição operacional: quando o dano pode ser evitado com pequenos ajustes (ligeiras variações na eficiência, tempo ou recursos), ele deve ser evitado.⁹

Aqui, a mudança afeta decisões do mundo real. Por exemplo:

·⠀Ajustar rotas de veículos autônomos se o custo for mínimo

·⠀Não otimizar processos de produção que aumentam o sofrimento quando existem alternativas de baixo custo

·⠀Incluir os interesses dos seres sencientes como uma variável relevante quando evitar danos não compromete seriamente outros objetivos

Alinhamento discursivo e cultural mínimo

Aqui, a ação física não é regulamentada diretamente, mas sim a forma como o sistema enquadra moralmente os seres sencientes e as práticas que os afetam. Isso implica evitar a trivialização, a objetificação ou a omissão de seu sofrimento, bem como detectar e corrigir vieses especistas ou substratistas¹⁰ nas respostas e incorporar explicitamente aos princípios de alinhamento que o dano a seres sencientes não é moralmente irrelevante.

Cada nível pode ser implementado independentemente e não requer ferramentas diferentes, mas sim conteúdo normativo diferente dentro dos mecanismos de alinhamento existentes. Constituições dos modelos, diretrizes para avaliadores, especificações de segurança interna ou critérios de “não causar dano” podem incorporar diferentes graus de consideração moral. Se redefinirem substancialmente a função objetiva para dar peso comparável aos interesses de todos os seres sencientes, corresponderão ao nível mais exigente. Se introduzirem a regra de evitar sofrimento significativo quando este puder ser evitado a baixo custo, aplicarão o alinhamento operacional básico. E, caso se limitarem a evitar a trivialização ou objetificação do dano aos animais, estarão a agir no nível discursivo e cultural. O que é decisivo não é o instrumento técnico, mas sim o âmbito moral a ele incorporado.

Para além destes três níveis, podem ser tomadas medidas para consolidar o processo:

1. Desenvolver ferramentas específicas para medir o viés especista e substratista nos LLMs.

2. Realizar auditorias independentes sobre o impacto dos sistemas de IA nos interesses dos animais

3. Incorporar testes adversários com o objetivo de detectar recomendações que aumentem o sofrimento.

4. Exigir transparência pública sobre os princípios normativos que orientam o alinhamento

5. Incluir cláusulas explícitas sobre os interesses dos animais nos marcos regulatórios nacionais e internacionais para a IA

6. Financiar investigação interdisciplinar que ligue a ciência do bem-estar ao design de sistemas de IA

Embora o ideal mais exigente possa demorar a ser alcançado, os outros níveis são viáveis e permitiriam a redução de danos evitáveis.

Riscos a curto prazo

A exclusão de seres sencientes não é apenas uma preocupação teórica. A curto prazo, os riscos incluem:

·⠀Normalização discursiva: descrever a indústria de exploração ou experimentação animal não humana em termos puramente técnicos, sem reconhecer o sofrimento envolvido.

·⠀Otimização sem limites morais: maximizar a produtividade em sistemas de exploração animal sem integrar os interesses dos animais como uma variável relevante.

·⠀Danos não contabilizados: em sistemas físicos autônomos (veículos, drones, robôs), deixar de considerar danos evitáveis a animais selvagens quando reduzi-los teria um custo mínimo.

·⠀Publicidade e recomendação algorítmicas: reforçar padrões de consumo associados a práticas prejudiciais.

·⠀Delegação moral acrítica: depender cada vez mais de assistentes que não incluem todos os seres sencientes em sua estrutura ética.

Em todos esses casos, o problema não é necessariamente a intenção de causar dano, mas a falta sistemática de consideração.

Riscos a longo prazo

A longo prazo, a questão é estrutural. Se sistemas avançados estiverem envolvidos no planejamento econômico, na alocação de recursos ou na formulação de políticas, os critérios incorporados ao seu alinhamento influenciarão as decisões com efeitos cumulativos.¹¹ Existem vários riscos a esse respeito:

·⠀Externalização moral automatizada: Decisões com impacto ético significativo podem ser executadas automaticamente com base em critérios incompletos.

·⠀Bloqueio de valores: Uma infraestrutura tecnológica global alinhada exclusivamente aos interesses humanos pode persistir por décadas, até mesmo séculos, criando uma tendência inicial difícil de reverter. Ao contrário das gerações humanas, os sistemas podem se replicar e operar por longos períodos com objetivos relativamente estáveis.

·⠀Amplificação do dano: A otimização tecnológica pode multiplicar o número de indivíduos e/ou entidades afetados, especialmente no caso de animais não humanos, com setores que já afetam bilhões de indivíduos.

·⠀Cenários de expansão: Novas formas de exploração automatizada, interferência massiva em ecossistemas ou a criação de entidades potencialmente sencientes sem salvaguardas podem gerar níveis de sofrimento muito maiores do que os atuais.

·⠀Exportação de diferentes formas de discriminação para novos ambientes: Em cenários de expansão espacial ou colonização de novos territórios, sistemas alinhados exclusivamente aos interesses humanos poderiam reproduzir e expandir modelos de exploração em escalas muito maiores.

Embora alguns desses cenários sejam incertos, eles adquirem relevância moral quando o número potencial de indivíduos e/ou entidades afetados é enorme.

Conclusão

O alinhamento da IA não é um problema puramente técnico. Envolve decidir quem importa moralmente.

Se os LLMs e outros sistemas avançados se alinharem apenas com os interesses humanos, consolidarão e ampliarão uma estrutura antropocêntrica que exclui a maioria dos seres capazes de sofrer. Integrar a consideração de todos os seres sencientes, ao menos por meio de um princípio básico de minimizar danos evitáveis, não exige transformações radicais imediatas, mas exige coerência ética.

À medida que a IA adquire um papel estrutural em nossas sociedades, a questão não é mais se devemos alinhá-la com valores, mas com quais valores.

Leituras recomendadas

Butlin, P.; Long, R.; Elmoznino, E.; Bengio, Y.; Birch, J.; Constant, A.; Deane, G.; Fleming, S. M.; Frith, C.; Ji, X.; Kanai, R.; Klein, C.; Lindsay, G.; Michel, M.; Mudrik, L.; Peters, M. A. K.; Schwitzgebel, E.; Simon, J. & VanRullen, R. (2023) “Consciousness in artificial intelligence: Insights from the science of consciousness”, arXiv, 2308.08708 [acessado em 5 de março de 2026].

Caviola, L. (2025) “The societal response to potentially sentient AI”, arXiv, 2502.00388 [acessado em 5 de março de 2026].

Chalmers, D. J. (2024) “Could a large language model be conscious?”, arXiv, 2303.07103 [acessado em 4 de março de 2026].

Dung, L. (2025) “Tests of animal consciousness are tests of machine consciousness”, Erkenntnis, 90, pp. 1323-1342 [acessado em 27 de fevereiro de 2026].

Dung, L. & Kersten, L. (2025) “Implementing artificial consciousness”, Mind & Language, 40, pp. 285-305 [acessado em 10 de fevereiro de 2026].

Gibert, M. & Martin, D. (2022) “In search of the moral status of AI: Why sentience is a strong argument”, AI & Society, 1, pp. 1-12.

Goldstein, S. & Kirk-Giannini, C. D. (2025) “AI wellbeing”, Asian Journal of Philosophy, 4, 25 [acessado em 14 de fevereiro de 2026].

Harris, J. & Anthis, J. R. (2021) “The moral consideration of artificial entities: A literature review”, Science and Engineering Ethics, 27, 53 [acessado em 2 de março de 2026].

Jotautaitė, M.; Caviola, L.; Brewster, D. A. & Hagendorff, T. (2025) “Speciesism in AI: Evaluating discrimination against animals in large language models” arXiv, 2508.11534 [acessado em 5 de março de 2026].

Ladak, A. (2024) “What would qualify an artificial intelligence for moral standing?”, AI & Ethics, 4, pp. 213-228 [acessado em 30 de janeiro de 2026].

Long, R.; Sebo, J.; Butlin, P.; Finlinson, K.; Fish, K.; Harding, J.; Pfau, J.; Sims, T.; Birch, J. & Chalmers, D. (2024) “Taking AI welfare seriously”, arXiv, 2411.00986 [acessado em 2 de março de 2026].

McClelland, T. (2025) “Agnosticism about artificial consciousness”, arXiv, 2412.13145 [acessado em 5 de março de 2026].

Pauketat, J. V. T. & Anthis, J. R. (2022) “Predicting the moral consideration of artificial intelligence”, Computers in Human Behavior, 136, 107372.

Pauketat, J. V. T.; Ladak, A. & Anthis, J. R. (2025) “World-making for a future with sentient AI”, British Journal of Social Psychology, 64, e12844.

Saad, B. & Bradley, A. (2025) “Digital suffering: Why it’s a problem and how to prevent it”, Inquiry, 68, pp. 2110-2145 [acessado em 27 de fevereiro de 2026].

Shiller, D. (2024) “Functionalism, integrity, and digital consciousness”, Synthese, 203, 47.

Tomasik, B. (2014) “Do artificial reinforcement-learning agents matter morally?”, arXiv, 1410.8233 [acessado em 19 de janeiro de 2026].

Yetter-Chappell, H. (2026) “What a Bing really, really wants: Zigazig ah”, Journal of Consciousness Studies.

Notas

1 Ji, Z.; Lee, N.; Frieske, R.; Yu, T.; Su, D.; Xu, Y.; Ishii, E.; Bang, Y. J.; Madotto, A. & Fung, P. (2023) “Survey of hallucination in natural language generation”, ACM Computing Surveys, 55, pp. 1-38 [acessado em 22 de fevereiro de 2026]. Sebo, J. & Long, R. (2025) “Moral consideration for AI systems by 2030”, AI and Ethics, 5, pp. 591-606 [acessado em 5 de março de 2026].

2 Gabriel, I. (2020) “Artificial intelligence, values, and alignment”, Minds and Machines, 30, pp. 411-437 [acessado em 28 de fevereiro de 2026]. Ver también, Ji, J.; Qiu, T.; Chen, B.; Zhang, B.; Lou, H.; Wang, K.; Duan, Y.; He, Z.; Vierling, L.; Hong, D.; Zhou, J.; Zhang, Z.; Zeng, F.; Dai, J.; Pan, X.; Ng, K. Y.; O’Gara, A.; Xu, H.; Tse, B.; Fu, J.; McAleer, S.; Yang, Y.; Wang, Y.; Zhu, S.-C.; Guo, Y. & Gao, W. (2023) “AI alignment: A comprehensive survey”, arXiv, 2310.19852 [acessado em 27 de fevereiro de 2026].

3 Para excepciones ver, por ejemplo: Hagendorff, T.; Bossert, L. N.; Tse, Y. F. & Singer, P. (2023) “Speciesist bias in AI: how AI applications perpetuate discrimination and unfair outcomes against animals”, AI and Ethics, 3, pp. 717-734 [acessado em 26 de fevereiro de 2026]; Singer, P. & Tse, Y. F. (2023) “AI ethics: The case for including animals”, AI and Ethics, 3, pp. 539-551 [referência: 24 de fevereiro de 2026]; Tse, Y. F.; Moret, A.; Ziesche, S. & Singer, P. (2025) “AI alignment: The case for including animals”, Philosophy & Technology, 38, 139 [acessado em 24 de fevereiro de 2026].

4 Bai, Y.; Kadavath, S.; Kundu, S.; Askell, A.; Kernion, J.; Jones, A.; Chen, A.; Goldie, A.; Mirhoseini, A.; McKinnon, C.; Chen, C.; Olsson, C.; Olah, C.; Hernandez, D.; Drain, D.; Ganguli, D.; Li, D.; Tran-Johnson, E.; Perez, E.; Kerr, J.; Mueller, J.; Ladish, J.; Landau, J.; Ndousse, K.; Lukosuite, K.; Lovitt, L.; Sellitto, M.; Elhage, N.; Schiefer, N.; Mercado, N.; DasSarma, N.; Lasenby, R.; Larson, R.; Ringer, S.; Johnston, S.; Kravec, S.; El Showk, S.; Fort, S.; Lanham, T.; Telleen-Lawton, T.; Conerly, T.; Henighan, T.; Hume, T.; Bowman, S. R.; Hatfield-Dodds, Z.; Mann, B.; Amodei, B.; Joseph, N.; McCandlish, S.; Brown, T. & Kaplan, J. (2022) “Constitutional AI: Harmlessness from AI feedback”, arXiv, 2212.08073 [acessado em 24 de fevereiro de 2026].

5 Amodei, D.; Olah, C.; Steinhardt, J.; Christiano, P.; Schulman, J. & Mané, D. (2016) “Concrete problems in AI safety”, arXiv, 1606.06565 [acessado em 23 de fevereiro de 2026]. Ji, J.; Qiu, T.; Chen, B.; Zhang, B.; Lou, H.; Wang, K.; Duan, Y.; He, Z.; Vierling, L.; Hong, D.; Zhou, J.; Zhang, Z.; Zeng, F.; Dai, J.; Pan, X.; Ng, K. Y.; O’Gara, A.; Xu, H.; Tse, B.; Fu, J.; McAleer, S.; Yang, Y.; Wang, Y.; Zhu, S.-C.; Guo, Y. & Gao, W. (2023) “AI alignment: A comprehensive survey”, op. cit.

6 Guan, M. Y.; Joglekar, M.; Wallace, E.; Jain, S.; Barak, B.; Helyar, A.; Dias, R.; Vallone, A.; Ren, H.; Wei, J.; Chung, H. W.; Toyer, S.; Heidecke, J.; Beutel, A. & Glaese, A. (2025) “Deliberative alignment: Reasoning enables safer language models”, arXiv, 2412.16339 [acessado em 5 de março de 2026].

7 Bostrom, N. & Yudkowsky, E. (2018) “The ethics of artificial intelligence”, en Yampolskiy, R. V. (ed.) Artificial intelligence safety and security, Nueva York: Chapman and Hall, pp. 57-69. Owe, A. & Baum, S. D. (2021) “Moral consideration of nonhumans in the ethics of artificial intelligence”, AI and Ethics, 1, pp. 517-528.

8 Anthropic (2026) Claude’s constitution, San Francisco: Anthropic [acessado em 5 de março de 2026].

9 Singer, P. & Tse, Y. F. (2023) “AI ethics: The case for including animals”, op. cit. Tse, Y. F.; Moret, A.; Ziesche, S. & Singer, P. (2025) “AI alignment: The case for including animals”, op. cit.

10 O substratismo é uma forma de discriminação análoga ao especismo: consiste em tratar os interesses de certos indivíduos como menos importantes ou mesmo ignorá-los unicamente por causa do tipo de substrato. Assim, seres possivelmente sencientes podem ser excluídos da consideração moral por não serem feitos de tecidos biológicos, mas de silício ou outros materiais (ou por estarem implementados em sistemas digitais ou artificiais). Tal como o especismo, que discrimina injustificadamente com base na espécie, o substratismo toma uma característica que não é decisiva em si mesma (o suporte material) como razão para negar ou reduzir a consideração de interesses, como o interesse em ter experiências positivas e em não ter experiências negativas.

11 Para ejemplos de riesgos ver, por ejemplo: Ziesche, S. & Yampolskiy, R. (2018) “Towards AI welfare science and policies”, Big Data and Cognitive Computing, 3, 2 [acessado em 17 de fevereiro de 2026]; Baumann, T. (2022) Avoiding the worst: How to prevent a moral catastrophe, London: Center on Reducing Suffering.; Birch, J. (2024) The edge of sentience: Risk and precaution in humans, other animals, and AI, Oxford: Oxford University Press; Dung, L. (2025) “How to deal with risks of AI suffering”, Inquiry, 68, 7; Moret, A. (2025) “AI welfare risks”, Philosophical Studies, 09 June 2025 [acessado em 5 de março de 2026].