오픈AI는 ChatGPT에 숙제를 쓰도록 요청하여 부정 행위를 한 학생들을 잡을 수 있는 도구를 구축했지만, 월스트리트저널에 따르면 회사는 실제로 그것을 공개할지에 대해 논의하고 있다고 합니다.
테크크런치에 제공된 오픈AI 대변인의 발언에 따르면 회사는 월스트리트저널의 이야기에서 설명한 텍스트 워터마킹 방법에 대한 연구를 진행하고 있지만, “오픈AI를 넘어 온라인 생태계에 미치는 영향과 관련된 복잡성으로 인해”' 신중한 접근'을 취하고 있다고 합니다.
"우리가 개발 중인 텍스트 워터마킹 방법은 기술적으로 유망하지만 나쁜 행위자에 의한 우회 가능성 및 비-영어 사용자 그룹을 지나친 영향을 고려하면서 대안을 연구하고 있다."라고 대변인은 말했습니다.
이것은 대부분 이전의 AI 생성 텍스트 감지 노력과는 다른 접근 방식일 것입니다. 대부분의 전 노력들이 효과적이지 않았던 반면, 오픈AI 자신도 이전의 AI 텍스트 감지기를 낮은 정확도로 인해 작년에 종료했습니다.
텍스트 워터마킹을 통해 오픈AI는 다른 회사의 모델에서가 아닌 ChatGPT에서의 글쓰기 감지에만 집중할 것입니다. 이것은 ChatGPT가 단어를 선택하는 방식을 약간 변경하여, 사실상 쓰여진 글안에 보이지 않는 워터마크를 만들어 두고 나중에 별도의 도구로 감지할 수 있게 합니다.
월스트리트저널의 이야기 발표 이후, 오픈AI는 AI 생성 콘텐츠 감지에 대한 연구에 대해 작년 5월의 블로그 글을 업데이트했습니다. 업데이트는 텍스트 워터마킹이 "매우 정확하고, 패러프레이징과 같은 지역적 조작에 대해서 효과적이지만, 번역 시스템을 사용하거나 다른 생성모델로의 다시 말하기 또는 모델에게 각 단어 사이에 특수 문자를 삽입하고 그 문자를 삭제하도록 하는 것과 같은 전역적 조작에는 덜 견고하다"고 하였습니다.
이 결과, 오픈AI는 이 방법이 "나쁜 행위자에 의한 우회가 쉽다"고 쓰고 있습니다. 또한, 오픈AI의 업데이트는 비-영어 사용자에 대한 대변인의 의견을 반영하고, 텍스트 워터마킹이 "비-영어 사용자를 위한 유용한 글쓰기 도구로서의 AI 사용에 대한 오명을 낼 수 있다"고 쓰고 있습니다.