0. Abstract
- Large graphs에서 node embedding은 다양한 prediction 문제에 매우 유용하다.
- 기존의 방법들의 문제는 embedding을 학습하는 과정에서 모든 node가 필요하다는 것이다.
- 기존의 방법들은 transductive하고, 보지 못한 node에 대해 일반화를 하지 못한다.
- GraphSAGE는 Inductive한 방법이기 때문에 이러한 문제를 해결할 수 있다.
- Transductive vs Inductive
- Embedding을 만드는 function을 학습하는 방식이다.
- 여러 데이터셋에 SOTA 성능을 달성했다.
1. Introduction
- Node embedding의 기본적인 아이디어 → Dimensionality Reduction: 고차원의 정보를 dense vector embedding으로!
- 이전의 연구들은 고정된 그래프에 대한 embedding을 다루는데, 이는 현실에 적용하기 적합하지 않다.
- 계속해서 변하고 새로운 노드들을 다루는 상황에서는 inductive한 방식이 필요하다.
- 하지만 inductive한 방식에는 어려운 측면이 존재한다.
- unseen nodes에 대한 일반화는 새로 관측된 subgraph를 기존에 알고리즘이 최적화된 embedding에 맞게 “aligning” 하는 과정이 필요하기 때문이다.
- 기존의 방식들은 대부분 transductive 하고, inductive하게 수정할 경우 많은 계산비용이 든다.
- GCN 방법 또한 고정된 그래프에서의 transductive한 경우에서만 적용가능한 문제가 있다.
Present work
- GraphSAGE(SAmple and aggreGatE)는 node feature를 활용해서 unseen nodes에 대한 일반화를 해결하려고 한다.
- 학습 알고리즘에서 node features들을 통합하면서 node의 이웃들에 대한 topological structure와 이웃에 속한 node feature들의 distribution에 대해서도 학습한다.
- 각 node에 대해 embedding vector를 학습하기 보다는, 주변 이웃(local neighborhood)를 이용한 aggregator functions의 집합을 학습한다.
- 따라서 예측 단계에서도 학습한 aggregator functions를 이용해 embedding을 만들어낸다.
- 실제 다양한 citation, Reddit, protein-protein interactions 데이터에 대해 좋은 결과를 보인다.