CUDA 8.0 변경 사항
1. Pascal Architecture 지원
1.1. Pascal Architecture GPU 에서 쉽게 성능 향상을 볼 수 있음
1.2. 큰 데이터셋(datasets), 동시에 데이터에 접근하는 방법 등 통합된 메모리르 통한 프로그래밍 간소화
1.3. 새로운 데이터 병합 API를 통해 메모리 통합 최적화
1.4. NVLINK 를 통한 전체적인 속도 향상
2. 개발자 도구
2.1. Critical Path Analysis 를 통한 시스템 레벨에서의 잠재적인 병목현상(bottleneck) 탐지
2.2. NVCC 컴파일 속도를 2배로 향상시켜 생산성 향상
2.3. OpenACC 어플리케이션과 전체적인 host code 를 조절하여 새로운 자료 수집(profiling) 가능
3. 라이브러리(Libraries)
3.1. nvGRAPH 를 통한 그래프 분석
3.2. (내장된 함수 중) FP16, INT8 을 이용하여 딥러닝(Deep Learning) 속도 증가, cuBLAS(CUDA Basic Linear Algebra Subprograms) 에서의 batch operation 지원
FP32 - Single Precision(보통의 float), FP16 - Half Precision(float 절반의 정밀도), FP64 - Double Precision(보통의 double), INT8 - Integer 8bit(보통의 char), batch operation - 반복 연산이라 생각하면 됨. (수치 변화하며 프로그래밍 가능)
NVIDIA 홈페이지에 나와있는 것을 번역한 것이다.
<참고 문헌>
1. 엔비디아 홈페이지