http://books.google.com/books?id=qW1mncii_6EC&printsec=frontcover&hl=ko#v=onepage&q&f=false

  • No more free lunch; 발열과 에너지 소모가 클럭 주파수 늘여서 성능을 높이기에 한계를 가져왔다
  • Many core application은 execution throughput이 중요
  • 2010년 기준으로 제대로 작성된 many core application은 10k~40k의 스레드를 생성
  • CPU와 GPU는 상호 보완적인 관계
  • HPC programming requires some knowledge of how the hardware works
  • Typical CUDA program flow
    • 병렬 디바이스에서 작동할 자료를 API 함수로 allocate,
    • API함수로 자료를 병렬 디바이스로 보내기
    • 개별 스레드에서 병렬로 처리될 커널 만들기
    • 커널 돌리기
    • 계산이 끝나면 디바이스의 자료를 호스트 프로세서로 옮기기
,