ENNAVIA

博主： Zhai Silong
发布时间：2022 年 04 月 28 日
677次浏览
暂无评论
888字数
分类：读论文

# ENNAVIA is a novel method which employs neural networks for antiviral and anti-coronavirus activity prediction for therapeutic peptides

- Organization:
  - 都柏林大学
- Resources:
  - https://research.timmons.eu/ennavia
  - No Code
- Task: AVPs Activity Predictions
- Feature Engineering: Composition and Descriptor
- Model: ENNAVIA@ANN
- Strategy
  - Transfer Learning
  - CV
  - External Experiment Test Sets

## Abstract

本研究利用深度学习和化学信息学的进展，产生了一种新型的基于序列的深度神经网络分类器来预测抗病毒肽的活性。
该方法优于现有的同类最佳方法，在实验验证的肽活性数据集上，外部测试准确率为 93.9%，MCC 为 0.87，AUC 为 0.93。

## Results

肽序列的数据集被进行了氨基酸组成分析和残基位置偏好分析。
2D 可视化: 由肽的理化描述符、组成描述符和所有描述符组成的特征向量被构建 @ (PCA, t-SNE)。
用这两种方法绘制的图显示了正负两类的不完全分离。
最后，在数据集的特征向量上训练三种机器学习分类器，即 SVMs、RF 和 ANN，并对抗病毒活性预测结果进行评估。

### 氨基酸组成分析@可解释性

为了确定特定的氨基酸残基是否在抗病毒和抗冠状病毒肽中更普遍，进行了氨基酸残基组成分析。

抗冠状病毒肽、AVPs、实验验证的非抗病毒肽和随机非抗病毒肽序列的氨基酸组成。
统计分析采用 Chi-squared 检验；所有结果在 P<0.01 的显著性水平上都是显著的。
有趣的是，抗病毒和抗冠状病毒的肽富含半胱氨酸和疏水的异亮氨酸残基，而耗尽了脯氨酸和组氨酸。
虽然一般来说 AVPs 表现出赖氨酸和色氨酸的富集，但在专门的抗科罗纳病毒肽中没有观察到这一点。
同样，AVPs 在甘氨酸和缬氨酸中含量不足，而抗科罗纳病毒肽在这些残基中含量丰富。
虽然抗冠状病毒肽的氨基酸组成是基于有限的样本量，但它确实表明，肽具有抗冠状病毒活性的组成要求与抗一般病毒活性的组成要求不同。
此外，根据其作用方式对 AVPs 进行了氨基酸组成分析。
有趣的是，虽然 AVPs 一般不富含天冬氨酸或色氨酸，但作用于病毒膜的 AVPs 却富含天冬氨酸。

### Residue position preference analysis@可解释性

#### Descriptor-set specific results

为了确定一组给定的特征能在多大程度上有助于正确预测肽的抗病毒活性，在特征空间的子集上训练了神经网络。
这些在肽的理化特征、二肽组成、二肽 g-gap 组成和三肽组成上训练的神经网络得到的验证结果。
所训练的缩小的子集模型都没有达到比根据成分和物理化学描述符训练的混合模型更好的性能，验证了选择混合模型作为主要方法的正确性。

#### Di-peptide and tri-peptide composition@ {n-gram algrithm}

关于局部序列顺序的信息可以通过使用二肽和三肽组成描述符转达给机器学习方法。
一个肽的二肽和三肽组成可以被定义为一个特定的二肽或三肽在序列中的百分比。
这些特征还有一个额外的好处就是可以捕捉到肽的化学性质。
基于二肽的模型和基于三肽的模型都取得了良好的效果，准确率分别为 90.1% 和 89.8%，MCC 值为 0.80。

g-gap 成分，定义为一对氨基酸相隔 1、2 或 3 个残基的比例，是一个有用的描述符，因为它们对应于在三维空间中可能彼此相近的残基。
在 g-gap 二肽组成上训练的模型并不比在传统二肽组成上训练的模型表现更好，其准确率和 MCC 分别为 90.0% 和0.80。

根据物理化学特征训练的模型，如电荷、两亲性和电荷，分别达到了 88.3% 和 0.76 的准确率和 MCC。
尽管这一性能比根据成分特征训练的模型所取得的性能要差，但也只是差强人意，仍然显示了预测能力。

## Prediction based on selected features

使用 SVM 和随机森林对每个验证分割进行特征选择；选择具有最大绝对 SVM 权重的 500 个特征，以及具有最大 RF 特征重要性的 500 个特征。
在选定的特征集上构建和训练神经网络模型，结果见表 5。
在所有情况下得到的预测结果都不如在全部特征集上训练的模型，最明显的是在 ENNAVIAD 数据集上训练的模型。
这并不意外，考虑到在迁移学习之前对 ENNAVIA-B 数据集进行了特征选择，这似乎导致排除了对抗冠状病毒活性预测重要的特征。

## Links

- [Paper](https://academic.oup.com/bib/article/doi/10.1093/bib/bbab258/6326528)

最后修改：2022 年 04 月 28 日 04 : 14 PM

如果觉得我的文章对你有用，请随意赞赏