교 향
Maximalism
교 향
전체 방문자
오늘
어제
  • 전체글
    • Coding
    • Linux
    • Docker
    • Python
    • AI
      • GPT
      • Pandas
      • Numpy
      • tensorflow
      • pytorch
      • openCV
      • Study
      • AIconnect - [GPT]한국어..
    • Data structure, OS
    • Competitions
    • Investment
    • Book
    • Health
    • Trip
    • Memo
    • 대학원

블로그 메뉴

  • 홈
  • 태그
  • 미디어로그
  • 위치로그
  • 방명록

공지사항

인기 글

태그

  • ActivationFunction #활성화함수 #인공지능면접
  • AI면접 #딥러닝면접 #인공지능면접 #기울기소실 #GradientVanishing

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
교 향

Maximalism

Python

리눅스(CentOS) GPU 사용 시 메모리 오류

2022. 11. 18. 11:40

Tensorflow-GPU 를 리눅스 GPU 서버 주피터 노트북에서 돌리는데,

최근 지속적으로 GPU 메모리 오류가 발생하였음.

 

오류 내용

ResourceExhaustedError:  SameWorkerRecvDone unable to allocate output tensor. Key: /job:localhost/replica:0/task:0/device:CPU:0;d7ea78dfeeeffe7a;/job:localhost/replica:0/task:0/device:GPU:0;edge_615_IteratorGetNext;0:0
 [[{{node IteratorGetNext/_2}}]]
Hint: If you want to see a list of allocated tensors when OOM happens, add report_tensor_allocations_upon_oom to RunOptions for current allocation info. This isn't available when running in Eager mode.
 [Op:__inference_test_function_27688]

https://iambeginnerdeveloper.tistory.com/69

 

tensorflow GPU 메모리 오류 해결 | ResourceExhaustedError : OOM when allocating tensor with shape

SRGAN을 활용하여 고해상도 이미지를 생성하는 프로젝트를 진행하다가 GPU 메모리 오류를 마주했다. ( 해당 프로젝트 노트북 파일 : https://github.com/YOOHYOJEONG/AIFFEL_LMS_project/blob/master/ex16/ex16_SRGAN.ipynb

iambeginnerdeveloper.tistory.com

위 글쓴이님을 참고하여 배치사이즈, 이미지 사이즈를 줄여보았으나 소용이 없었고

 

아래와 같은 오류가 발생하였음

ResourceExhaustedError: failed to allocate memory [Op:Mul]

 

어찌 되었든 요지는 GPU 메모리가 점유중이라는 뜻이기에 아래 글을 참조함

 

출처:

https://pulsar-kkaturi.tistory.com/entry/%EB%A6%AC%EB%88%85%EC%8A%A4-%ED%84%B0%EB%AF%B8%EB%84%90%EC%97%90%EC%84%9C-%EB%94%A5%EB%9F%AC%EB%8B%9D-%ED%95%99%EC%8A%B5-%EA%B0%95%EC%A0%9C-%EC%A4%91%EB%8B%A8%ED%96%88%EC%9D%84%EB%95%8C-GPU%EC%97%90-%EB%82%A8%EC%9D%80-%EB%A9%94%EB%AA%A8%EB%A6%AC-%EC%A0%95%EB%A6%AC%ED%95%98%EB%8A%94-%EB%B0%A9%EB%B2%95

 

리눅스 터미널에서 딥러닝 학습 강제 중단했을때 GPU에 남은 메모리 정리하는 방법

# 세줄요약 # ps aux | grep python 명령어를 사용하여 딥러닝 학습을 실행시킨 python 파일의 실행 ID를 찾는다. 찾은 아이디가 예를 들어 '1234' 라면, sudo kill -9 1234 명령어를 사용하여 Kill 명령어를 내린

pulsar-kkaturi.tistory.com

를 참조하여 할당된 메모리를 종료해 주었다

 

1. ps aux | grep python  명령어를 사용하여 딥러닝 학습을 실행시킨 python 파일의 실행 ID를 찾는다.
>>> ps aux | grep python

jovyan    4894 63.6 18.5 136732984 48807976 pts/2 Tl Apr06 565:54 python main.py

- 터미널에 명령어를 치면 위와 같이 나온다. python이 실행 중인 프로세스를 찾는 것.
- 실행 ID는 위의 예시의 경우에는 '4894'이다.

 

2. 찾은 아이디가 예를 들어 '1234' 라면,  sudo kill -9 1234  명령어를 사용하여 Kill 명령어를 내린다.
>>> sudo kill -9 4894
 

3. nvidia-smi 명령어로 GPU 메모리가 정리되었는지 확인한다. 
>>> nividia-smi

'Python' 카테고리의 다른 글

파이썬 string 앞에 0채우기  (0) 2022.12.20
이터레이터에서 왜 __iter__를 선언할까?  (0) 2022.11.25
[파이써닉한 코딩] 헷갈리는 이중중첩문  (0) 2022.10.26
백준 1152번 - 단어의 개수  (0) 2022.09.29
REPL 사용, 특정 경로 파일 카운트  (0) 2022.09.26
    'Python' 카테고리의 다른 글
    • 파이썬 string 앞에 0채우기
    • 이터레이터에서 왜 __iter__를 선언할까?
    • [파이써닉한 코딩] 헷갈리는 이중중첩문
    • 백준 1152번 - 단어의 개수
    교 향
    교 향
    AI/ML/DL

    티스토리툴바