Advances in the application of machine learning technology in the field of environmental health
-
摘要
随着环境和健康研究数据共享及可用性的不断提升,涉及环境与人体健康的数据集数量急剧增加。然而,这些环境健康大型数据集多样且复杂,传统的流行病学和环境健康模型难以有效分析,因此催生了一个环境健康研究的新手段。人工智能(AI)技术在环境健康领域的应用正迅速发展,为新污染物筛选和毒性预测、生物监测、风险评估和健康保护提供了新颖且强大的工具。其中,先进的机器学习(ML)算法能够揭示人类难以察觉的规律,在生物标志物识别、疾病预防和环境工程优化等方面表现出重要潜力,为环境健康研究和技术创新提供新的思路和突破口。然而,ML技术在环境健康领域的应用仍面临数据质量、模型解释性以及跨学科合作等挑战。本文将综述ML技术在环境健康领域的最新应用进展,探讨其优势、挑战以及未来的发展方向,以期为环境保护和公共健康领域的研究和实践提供有价值的参考。
AbstractAs the data sharing and availability in environmental and health research continue to improve, the number of large datasets for environmental and human health has increased dramatically. However, these large environmental health datasets are diverse and complex, and traditional epidemiological and environmental health models are difficult to effectively analyze, leading to the development of a new approach to environmental health research. The application of artificial intelligence (AI) technology in environmental health is rapidly developing, providing novel and powerful tools for new pollutant screening and toxicity prediction, biomonitoring, risk assessment, and health protection. Among them, advanced machine learning (ML) algorithms can reveal laws that are difficult for humans to detect, showing important potential in biomarker identification, disease prevention, and environmental engineering optimization. This can provide new ideas and breakthroughs for environmental health research and technological innovation. However, the application of ML technology in the field of environmental health still faces challenges such as data quality, model interpretability, and interdisciplinary cooperation. This paper will review the latest progress in the application of ML technology in the field of environmental health, discuss its advantages, challenges, and future development directions, with the aim of providing valuable references for research and practice in the fields of environmental protection and public health.
-
人类健康与环境密切相关,环境因素对人类健康有着重要的影响。随着社会经济的发展,新的环境污染物不断产生,旧的环境问题仍没有得到很好解决,化学物质进入环境的速度、数量和种类都在不断扩大,环境污染已经成为全球性的紧迫问题,引起世界各国的广泛关注。据世界卫生组织(World Health Organization, WHO)估计,70% 的疾病和40%的死亡人数与环境因素有关,而且环境因素相关疾病发病率呈不断增长趋势[1]。2019年全球疾病负担研究(global burden of disease 2019, GBD 2019)显示,全球居民患病和死亡具有明确因果关系的4大类11小类环境危险因素,统计显示2019年全球有1 127万例死亡归因于环境危险因素,占全球疾病负担的19.9%,伤残调整生命年(disability adjusted of life years, DALY)为36 199万人年,占全球疾病负担的14.3%[2]。然而,人类健康和环境之间的关系是复杂而多元的,受到多种因素的影响,准确找出暴露、暴露影响和其他因素(如遗传和疾病)之间的统计关联,需要整合大量内或外暴露及健康相关等多维数据[3]。如何从海量的数据中寻找到潜在有用的关键信息,如何重点污染物的健康效应、作用机制以及环境因素之间的相互影响,仅依靠传统技术实现环境健康促进的目标任务效率不高,成为解析环境健康领域的瓶颈问题[4]。随着信息技术的不断发展和应用,医工交叉融合的人工智能(artificial intelligence, AI)新手段为环境与健康研究和实践提供了广阔的可能性,可以将低剂量复杂暴露的环境污染物、人体健康和公共卫生政策制定链条式地整合。AI技术中,机器学习(machine learning, ML)技术通过分析和学习数据,建立模型而准确地提取有意义的结果并做出预测,可从多个角度解决环境与健康的复杂问题,广泛应用于环境暴露评估、环境健康风险评估和环境政策制定、管理等(图 1)。
1. AI及ML技术的概述
AI是研究、开发用于模仿、延伸和扩展人类思维过程和智能行为的理论、方法及应用系统的一门新的技术科学,对于解决高通量、多维度复杂数据难题表现出了强大的生命力。AI技术体系相当庞大,涵盖了多种技术系统、技术工具,主要包括机器人、语言识别、图像识别、自然语言处理、ML等。其中,ML是研究怎样使用计算机模拟或实现人类学习活动的科学,作为AI的核心,是使计算机具有智能的根本途径[5]。ML经历准备数据、特征过程、算法选择与模型训练、评估调参4个过程,根据学习经验重新组织已有的知识结构使之不断改善自身的性能,其代表算法有支持向量机、logistic回归、随机森林(random forest, RF)等[6]。深度学习(deep learning, DL)特指基于深层神经网络模型和方法的ML,是模拟人脑神经组织及其工作机制的人工神经网络,其由多层节点组成,卷积神经网络(convolutional neural network, CNN)是其典型模型之一[7]。DL最重要的技术特征是具有自动提取特征的能力,其通过传输和接收信号的方式,自主组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示,以此区别于传统ML,为决策者提供有力的数据支持,推动智能化决策的实现[8]。
2. ML技术在环境健康的积极作用
2.1 ML促进环境污染物的高通量筛选
近年来,随着人们日益增长的物质需求,大量合成化学品被开发,为经济发展和社会进步带来了显著的益处,但化学品的泛滥和乱弃可导致环境污染和健康风险,探明环境中都存在哪些污染物是新污染治理和健康保护的首要条件[9]。目前化学品管控存在着种类繁多、家底不清、来源不明等问题,进而实现有效筛选识别环境污染物,需要开发能在复杂的实际样品中发现未知或非目标化合物和材料的分析方法[10]。以往的研究主要依赖于分析化学方法、风险评估、参考环境法规和数据库等来筛选和识别环境污染物。分析化学方法充当着环境污染物检测的关键角色,最为常用的包括滴定分析、质谱分析法、光谱分析法等。基于质谱技术获得未知化合物峰值、保留时间、质量碎片模式、撞击横截面值等数据,与参考化合物数据参数比较来确认环境污染物[11]。然而,该检测技术在假阳性特征提取、参考数据库中已知化合物质量覆盖范围等方面存在局限性,不利于现代的环境污染物的筛选。传统的光谱数据分析方法过程繁琐且易出错,特别是对于化合物结构多样或者样品化学构成复杂的情况,需要耗费大量时间进行人工校正[12]。如今,ML,尤其是DL,能够自动识别和提取与环境污染物相关的关键特征,从而被应用于环境污染物的筛选和识别。例如,鉴于持久性有机污染物(persistent organic pollutants, POPs)、PMT/vPvM物质和农药在环境中含量低、品种多,传统检测方法存在缺陷,Zhao等[13]基于ML建立一个集成5个模型的筛选系统,成功应用于PMT/vPvM的高通量、快速筛选。另一项研究开发了一种深度CNN(DCNN)模型来筛选潜在的PBT/POPs样化学物质。对于每种化学物质,其使用基于2 424个分子描述符的二维分子描述符表示矩阵作为模型输入,经过监督学习算法进行训练,能够发现更多的PBT/POPs样化学物质[14]。近年来,微塑料在环境安全和人体健康造成的威胁是当今热点,确保能快速准确地检测和识别包括聚合物在内的微塑料是意义重大的。但降解对微塑料的红外光谱具有显著影响,阻碍了传统检测技术对微塑料的识别过程。继而有研究提出利用量子级联激光器记录了不同聚合物粒子的红外光谱。使用原始和风化颗粒的组合,训练两个监督ML模型,即子空间k-近邻(subspace k-nearest neighbor, Sub-kNN)和提升决策树(boosting decision tree, BDT),以识别标记颗粒的光谱特征,随后,使用非监督ML模型,即含噪声应用的基于密度的空间聚类,对无法从监督ML模型中标记的样本进行聚类,识别到更多的微塑料亚群[15]。针对空气污染,因其受复杂环境过程的影响,其来源本质上是非稳定的,尤其是空气颗粒物的组成成分与其来源息息相关。Li等[16]应用可解释ML(IML)来量化PM2.5的关键有毒成分和来源对氧化电位的影响。
2.2 ML联合组学阐明环境毒物毒性及关键分子事件
随着创新的组学技术不断涌现、现代高通量组学测量平台不断发展,研究人员能够获取来自基因组学、表观遗传组学、蛋白质组学、代谢组学等的多层次、大规模的分子信息。同时人们也意识到这些子系统并不是孤立的,因此,采取多组学方法来充分利用所测数据深入了解生物系统的复杂工作原理已成为生物医学领域的发展趋势。整合多组学在分析环境毒物毒性及关键分子事件研究领域正如火如荼地进行着。同样地,多组学数据的整合可以为环境和人体健康研究创造机会,从而促进对于环境污染及相关疾病的整体理解。Deng等[17]通过对大鼠转录组、代谢组和微生物组结合探索了2-溴-4, 6-二硝基苯胺暴露的致肝毒性作用的关键分子事件,揭示其可诱导肠肝循环中的炎症反应、脂质积累和胆汁酸合成,进而引起胆汁淤积性肝病。水生态环境中软骨藻酸的污染是一个全球性的海洋环境问题,自上而下的代谢模型、宏基因组和代谢组的综合分析,为人类了解软骨藻酸的生物转化过程提供了重要的见解[18]。多组学也应用在探究双酚A如何增加自身免疫性疾病和癌症等非传染性疾病的发病率的毒作用机制中[19]。多组学联合起来对环境污染物进行全面综合分析,突破单一组学研究的局限性,构建机体调控网络,深层次理解各个分子之间的调控及因果关系,促进了对环境毒物致病机制的深刻理解。
但面对数量庞大且结构复杂的多组学数据集,需要有效的算法来降低数据的维度,同时剖析数据背后的奥秘,而ML恰好具备这样的能力[20]。此外,多组学数据类型也从传统的结构化数据转变为非结构化、半结构化和异构体系结构。组学数据之间的关系更为复杂,既有线性关系,也有非线性关系。ML能有效地解决诸如“维度诅咒”、数据缺失、大数据可扩展性、类不平衡等问题。因此,ML能将组学数据紧密联系,有利于环境污染物筛选、毒性及潜在机制预测、毒性终点发生和进展的分子靶点或生物标志物的识别[21]。
2.2.1 环境毒物毒性机制阐明
大量的科学论文聚焦于环境污染物的毒性作用。毒性描述了环境因素的有害潜力,毒作用机制则解释了这种潜力是如何在生物体内实现的。研究环境污染物的毒性作用机制以便能更好地理解环境污染物的毒性作用,进行毒性预测。环境毒物在生物体内产生有害效应的具体生物学过程涉及多个层面,如基因突变、DNA甲基化、组蛋白修饰等,这些过程会损害细胞结构或干扰生物体内的正常代谢途径。因此,多组学是探究环境污染物毒性的重要手段之一。目前,毒性评价的标准方法是以动物实验为基础的,但受到时间、成本和伦理问题的限制。加之,通过动物实验对如此大量的环境化合物进行毒理学研究是不现实的。研究者们建立ML模型作为有效和快速的替代方法[22]。Peng等[23]选择反向传播神经网络(back propagation neural network, BPNN)和RF精确预测被工程纳米颗粒(engineered nanoparticles, ENPs)干扰的代谢途径,筛选出影响代谢途径的主要特征,这对评估纳米毒性至关重要,并将研究结果以决策树(decision tree, DT)的形式可视化,解决了传统毒理动物实验难以处理的纳米毒性数据源高度异质性问题,节省了时间和成本,大大提高了预测准确性。暴露于六价铬会损害DNA和染色体等遗传物质,进一步增加癌症的风险,但研究很少集中在相关免疫机制上,一项研究使用ML研究了免疫调节及其在铬酸盐诱导的遗传损伤中的潜在作用,提供了对复杂关系的见解[24]。ML提供了整合和分析各种组学数据的新技术,以便多角度、深层次理解环境毒物毒性机制,并利于发现新的生物标志物。
2.2.2 ML在生物标志物鉴定中的作用
生物标志物在环境毒物研究中扮演着重要角色,它们可作为反映生物体暴露和效应的指标进行检测。环境毒物的暴露可以改变正常的代谢途径,导致特定代谢物的水平升高或降低,这些变化可以作为毒性反应的生物标志物[25]。在环境暴露下,人体DNA修饰、mRNA和microRNA的异常表达可作为ML/DL建模的特征表征和功能图谱,用于发现生物标志物。Li等[26]集成8种流行的ML方法,提出了一种稳定的ML—递归特征消除(简称StabML-RFE)策略,用于从高通量基因表达数据中筛选稳健的生物标志物。关于蛋白质组学,如 http://OmicLearn.org,一个基于浏览器的开源ML工具,可以基于质谱(mass spectrometry, MS)的蛋白质组学识别生物标志物[27]。显然地,借助ML模型从组学数据中鉴定环境暴露的生物标志物将助力生物标志物的探索。理想生物标志物的选择除了考虑其特异性、灵敏度、稳定性、重复性外,实用性也是至关重要的。巨噬细胞中的碳颗粒是评估大气颗粒(如黑碳)暴露水平的潜在有价值的生物标志物,它补充了目前对巨噬细胞复杂的代谢和多变的暴露环境缺乏全面了解的空白。然而,繁琐且主观的定量方法限制了碳颗粒作为有效生物标志物的应用。基于DL和二值化算法开发的PyCoCa的创新工具打破了这一局面,它可以准确快速地自动识别巨噬细胞形态并量化碳颗粒负载[28]。由此,我们也受到启示,可以从ML和DL入手,为曾经因实用性而局限的生物标志物探寻新的检测工具。
2.3 ML应用于环境暴露的健康风险预测
疾病发生不仅涉及环境污染物暴露种类和剂量的问题,还存在暴露时间尺度上的延伸。环境暴露组学是一种研究方法,旨在综合考虑个体生命周期中所有环境暴露的测量,相较于传统的环境健康研究,它更真实和全面地反映现实环境中污染物、自然因素及生活方式等暴露因素的多样性[3, 29]。然而,由于收集的环境暴露因素过多,传统的统计模型可能难以捕捉到环境因素和疾病发生发展之间的复杂关系。研究人员将面临着确定在疾病发生发展过程中关键暴露因素的挑战。此外,暴露因素之间可能存在共线性,即它们之间存在高度相关性,这会导致模型的不稳定和解释性差,而ML可以帮助解决这些问题。首先,ML算法可以处理高维数据,识别和提取出对健康影响最为重要的因素。如主成分分析和因子分析等通过特征选择和重要性评估的方法,可以确定影响健康的核心成分,从而减少冗余信息,提高模型的预测能力和解释性[30]。其次,ML的方法可以揭示多个因素之间的网络关系。传统的统计模型往往假设因果关系是线性的,而实际情况下,环境暴露因素之间、环境因素与疾病之间的关系往往是非线性的、复杂的。ML算法,特别是DL,能够形成自适应非线性预测模型,发现变量之间的非线性关系和交互作用,帮助研究人员更好地理解多因素之间的复杂关系。最终利用ML的方法帮助实现环境暴露组学研究成果落地。
以重金属为例,目前大多数研究都集中于单一重金属暴露对健康的影响,但在实际生活环境中,金属多呈混合形式存在于人们的生活环境中,传统模型无法处理多个金属之间潜在的多重共线性。因此,有研究提出了一种不依赖于指标数据类型的无监督的ML方法,提取重金属暴露的联合特征,对人群进行k-medoids聚类和风险分层, 从而把握重金属之间的复杂交互作用,更加符合实际情况[31]。目前,我国空气污染出现了多种污染物共存且浓度超标的新形势,处于复合污染阶段。大气中的化学物质相互关联性高,且受季节性天气模式以及其他气象原因(例如湿度或花粉)的影响,造成了污染叠加效应,同时存在多尺度关联、多过程耦合、多介质影响等特征[32]。贝叶斯核机回归(BKMR)作为估计混合物对健康影响的一种新方法,Bobb等[33]开发了一个层次变量选择扩展BKMR中以解决混合物成分的共线性问题。将其应用于空气污染混合物和血液动力学的毒理学研究中,识别几种高度混合的环境中重要的成分,解释混合物的结构并系统地处理高度相关的暴露。
综上所述,ML的方法在暴露组学研究中具有重要的作用。它可以帮助梳理、归纳和总结多因素的网络关系,找出影响健康的核心成分,有助于更好地理解环境因素与疾病之间的关系。ML的应用也促进了环境暴露组“自上而下”和“自下而上”的途径研究,为环境保护和健康干预提供有效的支持。
2.4 环境监测结合ML构建风险预警模型
环境监测是为了特定目的,按照规范的技术标准、规范和规程,对一种或多种环境要素或指标进行间断或连续地观察、测定、分析其变化及对环境影响的过程。环境监测是环境保护工作的基础,是环境立法、环境规划和环境决策的依据。结合ML准确且及时地分析大数据,以形成全新的能灵活处理、整合数据、高效分析且具有学习能力的智能化预警模型。空气质量预测已成为大气污染治理和预防的重要手段。现今已出现较多空气质量监测的ML模型[34]。但大多数ML方法不能捕捉时间序列模式,也不能从空气污染物浓度的长期依赖关系中学习,缺乏能够高精度预测未来较长时间段空气质量预报方法。DL可以填补这个技术空白,一个基于DL的模型转移双向长短期记忆(bi-directional long short-term memory, BLSTM)模型被提出。BLSTM是一种改进的RNN,能够从前向和后向序列的时间序列数据的长期依赖中学习。将BLSTM的预测性能与其他常见的ML方法进行比较,对PM2.5进行监测,结果显示预测性能显著提高[35-36]。张宇等[37]构建多个ML模型,探究环境气象因素变化下呼吸系统疾病急诊量,为医院合理分配急诊医疗资源提供了参考。Kontos等[38]用RF、多层感知器和CNN算法来解决逆向建模问题,查明了地下水污染源。相较于大气污染和水污染,可获得的土壤污染数据相当有限,因为土壤条件变化缓慢,而污染具有累积和滞后效应。因此建立可靠的土壤污染监测与预警系统模型是极富有挑战性。由此看来,ML算法通过分析大量的传感器数据、卫星遥感数据,追踪溯源污染的来源,实时反馈环境中的污染物浓度和分布。这对于从根本解决污染、制定有针对性的控制策略具有重要意义。需要特别强调的是,DL技术从大规模数据中提炼要点特征构建高性能预测模型的能力,可以满足人们风险预防和污染物管理的要求。
3. 总结与展望
ML近年来逐渐成为引领新一轮科技革命和产业变革的战略性技术,对环境与人体健康领域的发展带来深远的影响。综合国内外研究可以发现,ML已逐步融入环境与人体健康的实践工作和科学研究中,并已经彰显出独特的优势,为环境与人体健康复杂多元数据处理、低丰度的环境有害因素筛选、生物标志物的挖掘、环境健康风险预测以及多组学数据的深入解析提供了新的技术手段。此外,ML可以通过对环境数据的分析和处理,实现对生态环境的智能监测和预警、智能治理和管理。然而,随着其应用范围的扩大和技术的发展,一些潜在的问题也逐步显现出来。例如,算法的难解释性、过拟合或者欠拟合问题、安全性问题等。复杂的模型如深度神经网络往往被称为“黑盒子”,因为很难理解模型是如何做出预测的,这导致了在一些需要高透明度和信任度的领域(如医疗诊断)的应用受到限制。模型可能会过度适应训练数据,以致泛化能力差;又或者模型过于简单,不能很好地捕捉数据中的模式。很多ML算法需要大量的标记数据来达到较好的性能,而信息采集和数据保存不当带来数据泄露将造成严重后果。提示ML在环境与人体健康领域中的应用不单应考虑技术属性,还需要综合考虑社会属性,才能更好应对机遇和挑战,推动其在环境健康领域的应用和推广。
-
[1] 江桂斌, 宋茂勇. 环境暴露与健康效应[M]. 北京: 科学出版社, 2020. [2] 刘静怡, 孟聪申, 韩京秀. 1990—2019年全球环境危险因素疾病负担—GBD2019数据再分析[J]. 环境卫生学杂志, 2023, 13(3): 170-176. [3] 支梦雪, 王建设. 暴露组学在识别环境污染物及其健康危害中的应用进展[J]. 色谱, 2024, 42(2): 142-149. [4] 李立明, 王波, 吕筠, 等. 我国公共卫生科技创新的现状与挑战[J]. 中国科学基金, 2024, 38(2): 303-307. [5] HANDELMAN G S, KOK H K, CHANDRA R V, et al. eD octor: machine learning and the future of medicine[J]. Journal of Internal Medicine, 2018, 284(6): 603-619. doi: 10.1111/joim.12822
[6] LIU B, DING M, SHAHAM S, et al. When machine learning meets privacy: a survey and outlook[J]. ACM computing surveys, 2022, 54(2): 1-36.
[7] DONG S, WANG P, ABBAS K. A survey on deep learning and its applications[J]. Computer science review, 2021, 40: 100379. doi: 10.1016/j.cosrev.2021.100379
[8] ALZUBAIDI L, ZHANG J, HUMAIDI A J, et al. Review of deep learning: concepts, CNN architectures, challenges, applications, future directions[J]. Journal of big data, 2021, 8(1): 53. doi: 10.1186/s40537-021-00444-8
[9] 郑玉新. 暴露评估与暴露组研究——探索环境与健康的重要基础[J]. 中华预防医学杂志, 2013, 47(2): 99-100. [10] 孟甜, 曹莹, 刘晓雪, 等. 环境应急监测技术研究进展与展望[J]. 环境保护, 2023, 14(51): 34-39. [11] MAGI E, DI CARRO M. Marine environment pollution: The contribution of mass spectrometry to the study of seawater[J]. Mass spectrometry reviews, 2018, 37(4): 492-512. doi: 10.1002/mas.21521
[12] 李艳, 吴欣宜, 王全龙, 等. 机器学习辅助光谱分析技术在环境微/纳塑料研究中的应用[J]. 中国无机分析化学, 2024, 14(8): 1137-1146. [13] ZHAO Q M, YU Y, GAO Y C, et al. Machine learning-based models with high accuracy and broad applicability domains for screening PMT/vPvM substances[J]. Environmental Science & Technology, 2022, 56(24): 17880-17889.
[14] SUN X, ZHANG X, MUIR D C G, et al. Identification of potential PBT/POP-like chemicals by a deep learning approach based on 2D structural features[J]. Environmental science & technology, 2020, 54(13): 8221-8231.
[15] TIAN X, BEÉN F, BÄUERLEIN P S. Quantum cascade laser imaging (LDIR) and machine learning for the identification of environmentally exposed microplastics and polymers[J]. Environmental research, 2022, 212: 113569. doi: 10.1016/j.envres.2022.113569
[16] LI R Y, YAN C Q, MENG Q P, et al. Key toxic components and sources affecting oxidative potential of atmospheric particulate matter using interpretable machine learning: Insights from fog episodes[J]. Journal of hazardous materials, 2024, 465: 133175. doi: 10.1016/j.jhazmat.2023.133175
[17] DENG F C, QIN G Q, CHEN Y Y, et al. Multi-omics reveals 2-bromo-4, 6-dinitroaniline (BDNA)-induced hepatotoxicity and the role of the gut-liver axis in rats[J]. Journal of hazardous materials, 2023, 457: 131760. doi: 10.1016/j.jhazmat.2023.131760
[18] LI Z L, WANG J, YUE H, et al. Applying metabolic modeling and multi-omics to elucidate the biotransformation mechanisms of marine algal toxin domoic acid (DA) in sediments[J]. Journal of hazardous materials, 2024, 472: 134541. doi: 10.1016/j.jhazmat.2024.134541
[19] PARK Y J, RAHMAN M S, PANG W K, et al. Systematic multi-omics reveals the overactivation of T cell receptor signaling in immune system following bisphenol A exposure[J]. Environmental pollution, 2022, 308: 119590. doi: 10.1016/j.envpol.2022.119590
[20] REEL P S, REEL S, PEARSON E, et al. Using machine learning approaches for multi-omics data analysis: A review[J]. Biotechnology advances, 2021, 49: 107739. doi: 10.1016/j.biotechadv.2021.107739
[21] LI R F, LI L X, XU Y G, et al. Machine learning meets omics: applications and perspectives[J]. Briefings in Bioinformatics, 2022, 23(1): bbab460. doi: 10.1093/bib/bbab460
[22] GUO W J, LIU J, DONG F, et al. Review of machine learning and deep learning models for toxicity prediction [J]. Experimental biology and medicine, 2023: 15353702231209421. doi: 10.1177/15353702231209421
[23] PENG T, WEI C H, YU F B, et al. Predicting nanotoxicity by an integrated machine learning and metabolomics approach[J]. Environmental pollution, 2020, 267: 115434. doi: 10.1016/j.envpol.2020.115434
[24] SU Z K, ZHANG Y L, HONG S Y, et al. Immune regulation patterns in response to environmental pollutant chromate exposure-related genetic damage: a cross-sectional study applying machine learning methods[J]. Environmental science & technology, 2024, 58(17): 7279-7290.
[25] LUAN H. Machine learning for screening active metabolites with metabolomics in environmental science[J]. Environmental science: advances, 2022, 1(5): 605-611. doi: 10.1039/D2VA00107A
[26] LI L, CHING W K, LIU Z P. Robust biomarker screening from gene expression data by stable machine learning-recursive feature elimination methods[J]. Computational biology and chemistry, 2022, 100: 107747. doi: 10.1016/j.compbiolchem.2022.107747
[27] TORUN F M, VIRREIRA WINTER S, DOLL S, et al. Transparent exploration of machine learning for biomarker discovery from proteomics and omics data[J]. Journal of proteome research, 2023, 22(2): 359-367. doi: 10.1021/acs.jproteome.2c00473
[28] WEI X R, TANG X W, LIU N, et al. PyCoCa: A quantifying tool of carbon content in airway macrophage for assessment the internal dose of particles[J]. Science of the total environment, 2022, 851(Part 1): 158103.
[29] 胡贵平, 陈章健, 唐仕川, 等. 生物监测在暴露组评价中的应用[J]. 中华预防医学杂志, 2018, 52(2): 945-948. [30] LIU X, LU D W, ZHANG A Q, et al. Data-driven machine learning in environmental pollution: gains and problems [J]. Environmental science & technology, 2022, 56(4): 2124-2133.
[31] 姚絮. 环境重金属联合暴露评价及其对重要健康结局的影响[D]. 合肥: 安徽医科大学, 2023. [32] 张俊鸿, 闫馨, 张俊. 空气污染与人体健康的关系[J]. 山西医药杂志, 2021, 50(24): 3339-3341. [33] BOBB J F, VALERI L, CLAUS H B, et al. Bayesian kernel machine regression for estimating the health effects of multi-pollutant mixtures[J]. Biostatistics, 2015, 16(3): 493-508.
[34] MÉNDEZ M, MERAYO M G, NÚÑEZ M. Machine learning algorithms to forecast air quality: a survey[J]. Artificial intelligence review, 2023, 56(9): 10031-10066.
[35] DU S D, LI T R, YANG Y, et al. Deep air quality forecasting using hybrid deep learning framework[J]. IEEE transactions on knowledge and data engineering, 2021, 33(6): 2412-2424.
[36] MA J, CHENG J C P, LIN C, et al. Improving air quality prediction accuracy at larger temporal resolutions using deep learning and transfer learning techniques[J]. Atmospheric environment, 2019, 214: 116885.
[37] 张宇, 万爽, 向准, 等. 基于环境气象因素的机器学习模型预测呼吸系统疾病急诊量[J]. 中国数字医学, 2023, 18(7): 40-45. [38] KONTOS Y N, KASSANDROS T, PERIFANOS K, et al. Machine learning for groundwater pollution source identification and monitoring network optimization[J]. Neural computing and applications, 2022, 34(22): 19515-19545.