PGL 图学习之基于 GNN 模型新冠疫苗任务 [系列九]
PGL 图学习之基于 GNN 模型新冠疫苗任务[系列九]
项目链接:https://aistudio.baidu.com/aistudio/projectdetail/5123296?contributionType=1
数据 EDA
例如 deg_50C、deg_Mg_50C 这样的值全为 0 的行,就是我们需要预测的。
structure 一行,数据中的括号是为了构成边用的。
本案例要预测 RNA 序列不同位置的降解速率,训练数据中提供了多个 ground 值,标签包括以下几项:reactivity, deg_Mg_pH10, and deg_Mg_50
reactivity - (1x68 vector 训练集,1x91 测试集) 一个浮点数数组,与 seq_scores 有相同的长度,是前 68 个碱基的反应活性值,按顺序表示,用于确定 RNA 样本可能的二级结构。
deg_Mg_pH10 - (训练集 1x68 向量,1x91 测试集)一个浮点数数组,与 seq_scores 有相同的长度,是前 68 个碱基的反应活性值,按顺序表示,用于确定在高 pH (pH 10)下的降解可能性。
deg_Mg_50 - (训练集 1x68 向量,1x91 测试集)一个浮点数数组,与 seq_scores 有相同的长度,是前 68 个碱基的反应活性值,按顺序表示,用于确定在高温(50 摄氏度)下的降解可能性。
nfeat —— 节点特征
edges —— 边
efeat —— 边特征
labels —— 节点标签有三种,所以这可以看成是一个多分类任务
图数据可视化
模型训练 &预测
结果返回的是 MCRMSE 和 loss
{'MCRMSE': 0.5496759, 'loss': 0.3025484172316889}
版权声明: 本文为 InfoQ 作者【汀丶】的原创文章。
原文链接:【http://xie.infoq.cn/article/320412a5929ed2a8befc23648】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论