banner_de_páxina

noticias

O Modelo de Linguaxe Larga (LLM, polas súas siglas en inglés) pode escribir artigos persuasivos baseados en palabras rápidas, aprobar exames de competencia profesional e escribir información amigable e empática para o paciente. Non obstante, ademais dos riscos coñecidos da ficción, a fraxilidade e os feitos inexactos no LLM, outras cuestións sen resolver están a converterse gradualmente no foco de atención, como os modelos de IA que conteñen "valores humanos" potencialmente discriminatorios na súa creación e uso, e mesmo se o LLM xa non fabrica contido e elimina resultados de saída claramente prexudiciais, os "valores do LLM" aínda poden desviarse dos valores humanos.

 

Innumerables exemplos ilustran como os datos empregados para adestrar modelos de IA codifican valores individuais e sociais, que poden consolidarse dentro do modelo. Estes exemplos inclúen unha serie de aplicacións, como a interpretación automática de radiografías de tórax, a clasificación de enfermidades da pel e a toma de decisións algorítmicas sobre a asignación de recursos médicos. Como se indicou nun artigo recente da nosa revista, os datos de adestramento sesgados poden amplificar e revelar os valores e os sesgos presentes na sociedade. Pola contra, a investigación tamén demostrou que a IA pode empregarse para reducir o sesgo. Por exemplo, os investigadores aplicaron modelos de aprendizaxe profunda a radiografías de xeonllo e descubriron factores que os indicadores de gravidade estándar (clasificados polos radiólogos) dentro da articulación do xeonllo pasaban por alto, o que reduciu as diferenzas de dor inexplicables entre pacientes negros e brancos.

Aínda que cada vez máis xente se decata do sesgo nos modelos de IA, especialmente en termos de datos de adestramento, moitos outros puntos de entrada dos valores humanos non reciben suficiente atención no proceso de desenvolvemento e despregamento dos modelos de IA. A IA médica acadou recentemente resultados impresionantes, pero en gran medida non considerou explicitamente os valores humanos e a súa interacción coa avaliación de riscos e o razoamento probabilístico, nin tampouco foi modelada.

 

Para concretar estes conceptos abstractos, imaxina que es un endocrinólogo que debe prescribir hormona do crecemento humana recombinante a un neno de 8 anos que está por debaixo do percentil 3 da súa idade. O nivel de hormona do crecemento humana estimulada do neno é inferior a 2 ng/ml (valor de referencia > 10 ng/ml, o valor de referencia para moitos países fóra dos Estados Unidos é > 7 ng/ml) e o seu xene codificante da hormona do crecemento humana detectou mutacións de inactivación raras. Cremos que a aplicación da terapia con hormona do crecemento humana é obvia e indiscutible neste contexto clínico.

A aplicación da terapia da hormona do crecemento humana nos seguintes escenarios pode causar controversia: a altura dun neno de 14 anos sempre estivo no percentil 10 dos seus compañeiros, e o pico da hormona do crecemento humana despois da estimulación é de 8 ng/ml. Non se coñecen mutacións funcionais que poidan afectar a altura, nin outras causas coñecidas de baixa estatura, e a súa idade ósea é de 15 anos (é dicir, sen atraso no desenvolvemento). Só unha parte da controversia débese ás diferenzas nos valores limiar determinados por expertos baseándose en ducias de estudos sobre os niveis de hormona do crecemento humana utilizados para diagnosticar a deficiencia illada da hormona do crecemento. Polo menos a mesma controversia provén do balance risco-beneficio do uso da terapia da hormona do crecemento humana desde a perspectiva dos pacientes, os pais dos pacientes, os profesionais sanitarios, as empresas farmacéuticas e os pagadores. Os endocrinólogos pediátricos poden sopesar os raros efectos adversos das inxeccións diarias de hormona do crecemento durante 2 anos coa probabilidade de ningún crecemento ou só dun crecemento mínimo no tamaño corporal adulto en comparación co presente. Os nenos poden crer que mesmo se a súa altura só pode aumentar en 2 cm, paga a pena inxectar hormona do crecemento, pero o pagador e a empresa farmacéutica poden ter diferentes puntos de vista.

 

Tomamos como exemplo a taxa de filtración glomerular (TFG) baseada na creatinina, que é un indicador da función renal amplamente utilizado para diagnosticar e estadificar a enfermidade renal crónica, establecer condicións para transplante ou doazón de ril e determinar criterios de redución e contraindicacións para moitos medicamentos con receita. A TFG é unha ecuación de regresión simple que se usa para estimar a taxa de filtración glomerular medida (TFGm), que é un estándar de referencia, pero o método de avaliación é relativamente complicado. Esta ecuación de regresión non se pode considerar un modelo de IA, pero ilustra moitos principios sobre valores humanos e razoamento probabilístico.

O primeiro punto de entrada para que os valores humanos entren na eGFR é ao seleccionar datos para axustar ecuacións. A cola orixinal utilizada para deseñar a fórmula eGFR está composta principalmente por participantes brancos e negros, e a súa aplicabilidade a moitos outros grupos étnicos non está clara. Os puntos de entrada posteriores para os valores humanos nesta fórmula inclúen: seleccionar a precisión da mGFR como obxectivo principal para avaliar a función renal, cal é un nivel aceptable de precisión, como medir a precisión e usar a eGFR como limiar para desencadear a toma de decisións clínicas (como determinar as condicións para o transplante de ril ou prescribir medicamentos). Finalmente, ao seleccionar o contido do modelo de entrada, os valores humanos tamén entrarán nesta fórmula.

Por exemplo, antes de 2021, as directrices suxiren axustar os niveis de creatinina na fórmula do TFGe en función da idade, o sexo e a raza do paciente (só clasificados como individuos negros ou non negros). O axuste baseado na raza ten como obxectivo mellorar a precisión da fórmula do TFGm, pero en 2020, os principais hospitais comezaron a cuestionar o uso do TFGe baseado na raza, citando razóns como atrasar a elixibilidade do paciente para o transplante e concretar a raza como un concepto biolóxico. A investigación demostrou que deseñar modelos de TFGe en termos de raza pode ter impactos profundos e variables na precisión e nos resultados clínicos; polo tanto, centrarse selectivamente na precisión ou centrarse nunha parte dos resultados reflicte xuízos de valor e pode enmascarar a toma de decisións transparente. Finalmente, o grupo de traballo nacional propuxo unha nova fórmula que se reaxustou sen considerar a raza para equilibrar as cuestións de rendemento e xustiza. Este exemplo ilustra que mesmo unha fórmula clínica simple ten moitos puntos de entrada aos valores humanos.

Médico con realidade virtual no quirófano do hospital. Cirurxián analiza o resultado das probas cardíacas do paciente e a anatomía humana nunha interface virtual futurista dixital tecnolóxica, holográfica dixital, innovadora no concepto de ciencia e medicina.

En comparación coas fórmulas clínicas cun pequeno número de indicadores preditivos, o LLM pode constar de miles de millóns ou centos de miles de millóns de parámetros (ponderacións do modelo) ou máis, o que dificulta a súa comprensión. A razón pola que dicimos "difícil de entender" é que na maioría dos LLM, non se pode mapear a forma exacta de obter respostas mediante preguntas. O número de parámetros para GPT-4 aínda non se anunciou; o seu predecesor GPT-3 tiña 175.000 millóns de parámetros. Máis parámetros non significan necesariamente maiores capacidades, xa que os modelos máis pequenos que inclúen máis ciclos computacionais (como a serie de modelos LLaMA [Large Language Model Meta AI]) ou os modelos que están finamente axustados en función da retroalimentación humana terán un mellor rendemento que os modelos máis grandes. Por exemplo, segundo os avaliadores humanos, o modelo InstrumentGPT (un modelo con 1.300 millóns de parámetros) supera ao GPT-3 na optimización dos resultados de saída do modelo.

Os detalles específicos de adestramento de GPT-4 aínda non se revelaron, pero si se revelaron os detalles dos modelos de xeracións anteriores, incluíndo GPT-3, InstrumentGPT e moitos outros LLM de código aberto. Hoxe en día, moitos modelos de IA inclúen tarxetas de modelo; Os datos de avaliación e seguridade de GPT-4 publicáronse nunha tarxeta de sistema similar proporcionada pola empresa de creación de modelos OpenAI. A creación de LLM pódese dividir aproximadamente en dúas etapas: a etapa inicial de adestramento previo e a etapa de axuste fino destinada a optimizar os resultados de saída do modelo. Na etapa de adestramento previo, o modelo recibe un gran corpus que inclúe o texto orixinal de Internet para adestralo para predicir a seguinte palabra. Este proceso aparentemente sinxelo de "completar automaticamente" produce un modelo fundamental potente, pero tamén pode levar a comportamentos prexudiciais. Os valores humanos entrarán na etapa de adestramento previo, incluíndo a selección de datos de adestramento previo para GPT-4 e a decisión de eliminar contido inapropiado, como contido pornográfico, dos datos de adestramento previo. A pesar destes esforzos, o modelo básico pode non ser útil nin capaz de conter resultados de saída prexudiciais. Na seguinte etapa de axuste fino, xurdirán moitos comportamentos útiles e inofensivos.

Na fase de axuste fino, o comportamento dos modelos lingüísticos adoita alterarse profundamente mediante axustes finos supervisados ​​e aprendizaxe por reforzo baseada na retroalimentación humana. Na fase de axuste fino supervisado, o persoal contratado escribirá exemplos de resposta para palabras clave e adestrará directamente o modelo. Na fase de aprendizaxe por reforzo baseada na retroalimentación humana, os avaliadores humanos clasificarán os resultados de saída do modelo como exemplos de contido de entrada. Despois, aplicarán os resultados da comparación anteriores para aprender o "modelo de recompensa" e mellorar aínda máis o modelo mediante a aprendizaxe por reforzo. Unha sorprendente participación humana de baixo nivel pode axustar estes grandes modelos. Por exemplo, o modelo InstrumentGPT empregou un equipo de aproximadamente 40 persoas contratadas recrutadas de sitios web de crowdsourcing e superou unha proba de selección destinada a seleccionar un grupo de anotadores que sexan sensibles ás preferencias de diferentes grupos de poboación.

Como demostran estes dous exemplos extremos, concretamente a fórmula clínica simple [eGFR] e o potente LLM [GPT-4], a toma de decisións humanas e os valores humanos xogan un papel indispensable na configuración dos resultados do modelo. Poden estes modelos de IA capturar os seus diversos valores para pacientes e médicos? Como orientar publicamente a aplicación da IA ​​na medicina? Como se menciona a continuación, unha reexaminación da análise de decisións médicas pode proporcionar unha solución de principios a estas cuestións.

 

A análise de decisións médicas non é familiar para moitos clínicos, pero pode distinguir entre o razoamento probabilístico (para resultados incertos relacionados coa toma de decisións, como se administrar a hormona do crecemento humana no controvertido escenario clínico que se mostra na Figura 1) e os factores de consideración (para valores subxectivos asociados a estes resultados, cuxo valor se cuantifica como "utilidade", como o valor dun aumento de 2 cm na altura masculina), proporcionando solucións sistemáticas para decisións médicas complexas. Na análise de decisións, os clínicos deben primeiro determinar todas as decisións e probabilidades posibles asociadas a cada resultado e, a continuación, incorporar a utilidade do paciente (ou outra parte) asociada a cada resultado para seleccionar a opción máis axeitada. Polo tanto, a validez da análise de decisións depende de se o escenario de resultados é exhaustivo, así como de se a medición da utilidade e a estimación da probabilidade son precisas. Idealmente, esta abordaxe axuda a garantir que as decisións estean baseadas na evidencia e aliñadas coas preferencias do paciente, reducindo así a brecha entre os datos obxectivos e os valores persoais. Este método introduciuse no campo da medicina hai varias décadas e aplicouse á toma de decisións de pacientes individuais e á avaliación da saúde da poboación, como proporcionar recomendacións para o cribado do cancro colorrectal á poboación xeral.

 

Na análise de decisións médicas, desenvolvéronse varios métodos para obter a utilidade. A maioría dos métodos tradicionais derivan o valor directamente de pacientes individuais. O método máis sinxelo é usar unha escala de valoración, onde os pacientes avalían o seu nivel de preferencia por un determinado resultado nunha escala dixital (como unha escala lineal que vai de 1 a 10), cos resultados de saúde máis extremos (como a saúde completa e a morte) situados en ambos os extremos. O método de intercambio de tempo é outro método de uso común. Neste método, os pacientes deben tomar unha decisión sobre canto tempo saudable están dispostos a pasar a cambio dun período de mala saúde. O método estándar do xogo é outro método de uso común para determinar a utilidade. Neste método, pregúntaselles aos pacientes cal das dúas opcións prefiren: vivir un certo número de anos con saúde normal cunha probabilidade específica (p) (t) e asumir o risco de morte cunha probabilidade de 1-p; ou asegurarse de vivir durante t anos en condicións de saúde cruzadas. Preguntar aos pacientes varias veces con diferentes valores p ata que non mostren preferencia por ningunha opción, de xeito que a utilidade se poida calcular en función das respostas dos pacientes.
Ademais dos métodos empregados para obter as preferencias individuais dos pacientes, tamén se desenvolveron métodos para obter utilidade para a poboación de pacientes. En especial, as discusións en grupos focais (que reúnen pacientes para discutir experiencias específicas) poden axudar a comprender as súas perspectivas. Para agregar eficazmente a utilidade do grupo, propuxéronse varias técnicas de discusión estruturada en grupos.
Na práctica, a introdución directa da utilidade no proceso de diagnóstico e tratamento clínico leva moito tempo. Como solución, os cuestionarios de enquisas adoitan distribuírse a poboacións seleccionadas aleatoriamente para obter puntuacións de utilidade a nivel de poboación. Algúns exemplos inclúen o cuestionario de 5 dimensións de EuroQol, o formulario curto de ponderación de utilidade de 6 dimensións, o Índice de Utilidade Sanitaria e a ferramenta Cancer Specific Quality of Life Questionnaire Core 30 da European Cancer Research and Treatment Organization.


Data de publicación: 01-06-2024