캐시가 어렵다. 다행스럽게도 GPU의 장벽에는 데이터 의존성이있을 때 쉐이더 스레드가 겹치지 않게하는 것이 적어도 하나의 이유가 있습니다. 이것은 수천까지 크랭크 된 코어 수를 제외하고 CPU 스레드에 대해 이야기 할 때 땅콩 버터와 이전에 빵을 배치 한 것과 같은 시나리오입니다. 그러나 불행하게도 우리가 GPU에 대해 CPU와 반대되는 것에 관해 이야기 할 때 상황은 좀 더 복잡해집니다.개별 버퍼에 많은 데이터를 쓰는 PC CPU에서 실행되는 스레드 그룹을 시작하고 해당 스레드가 완료 될 때까지 대기하도록 스레드 장벽을 삽입 한 다음 출력을 읽는 두 번째 스레드 그룹을 시작한다고 가정 해 봅시다 스레드의 제 1 그룹의 데이터. 두 번째 작업의 읽기 작업이 너무 일찍 일어나지 않도록하기 위해 적절한 메모..