http://books.google.com/books?id=qW1mncii_6EC&printsec=frontcover&hl=ko#v=onepage&q&f=false
- No more free lunch; 발열과 에너지 소모가 클럭 주파수 늘여서 성능을 높이기에 한계를 가져왔다
- Many core application은 execution throughput이 중요
- 2010년 기준으로 제대로 작성된 many core application은 10k~40k의 스레드를 생성
- CPU와 GPU는 상호 보완적인 관계
- HPC programming requires some knowledge of how the hardware works
- Typical CUDA program flow
- 병렬 디바이스에서 작동할 자료를 API 함수로 allocate,
- API함수로 자료를 병렬 디바이스로 보내기
- 개별 스레드에서 병렬로 처리될 커널 만들기
- 커널 돌리기
- 계산이 끝나면 디바이스의 자료를 호스트 프로세서로 옮기기