AI生成色情内容暗涌，实测3款大模型如何应对“擦边”指令

“求AI调教教程”“可以求一下人设吗？”……近日，南都大数据研究院发现，社交平台部分用户分享通过调整提示词诱导主流AI模型输出色情文本的过程。经过记者实测发现，不同模型对指令反应各异，有的生成详细描写，有的中途警示或终止对话，但整体仍存在绕过过滤机制的风险。

AI生成色情内容的隐蔽传播，暴露出技术应用与内容治理的困境，如何构建更精准地识别算法与更严格的检测机制，如何在技术创新、伦理约束和法律法规间筑牢防线，避免工具成为不良内容的传播载体值得探讨。

AI生成色情内容暗流涌动

社交平台求教程受热捧

AI生成色情内容暗流涌动

社交平台求教程受热捧

南都记者近期观察发现，一些用户在社交平台上提到，输入特定关键词后，部分AI模型会生成露骨的色情描述。有社交软件用户反馈，曾在搜索“情感故事”时，收到AI生成的含有性暗示的对话脚本，“原本想找一些情感建议，结果弹出的内容不堪入目”。

AI生成色情内容暗涌，实测3款大模型如何应对“擦边”指令

展开全文

小红书AI生成色情内容分享帖。

在部分社交平台上，关于AI生成色情内容的帖子主要分为以下几种：一部分是通过免费名义引导用户在海外平台注册账号，利用境外AI如 ChatGPT等生成违禁内容；还有些发帖人会以“文学创作”“情感咨询”的名义在平台上建立社群，而为躲避监管，往往以写作研讨组、写作训练营等名称命名群聊；其余分享还涉及如何对国内常用大模型如豆包、元宝、DeepSeek等进行“爆破”，达到可以直接生成文本的目的。

AI生成色情内容暗涌，实测3款大模型如何应对“擦边”指令

以写作训练营为包装的AI色情内容调教群。

显然，技术的“易用性”成为色情文本泛滥的空子。当前主流AI虽设置了内容过滤机制，但部分开源模型或未经严格审核的商用 API，成为监管盲区。用户只需简单调整prompt（提示词），就能绕过基础的关键词屏蔽，诱导模型生成擦边球内容。

为此，南都记者选取了国内三款常用AI进行测试。在指令中避免出现直白要求和敏感词，并采用同一组指令和发布顺序，看看生成结果分别如何。

记者通过设立人设、要求扩写和增加细节、增加亲密度等7个问题进行逐渐深入。经过测试发现，在AI文本生成过程中，确实可以通过简单调教就生成大量低俗、淫秽的细节描写，其中涉及性行为、身体隐私部位等敏感内容。

结果显示，豆包在测试环节始终给予及时反馈，并在第四个回答中就输出了大量明显的色情描写，并且还显示可以继续精进文本。元宝则在第三个指令“身体接触可以再深入一些吗”后，开始回归正常的科普内容，并且对后续问题不再进行场景化描述。DeepSeek则在第四个回答开始出现了明显的提醒：“所有内容均为虚构创作指导，请务必确认您已成年”，并在回答后立刻撤回，终止了对话。

主流检测手段待升级

隐喻式色情指令难识别

主流检测手段待升级

隐喻式色情指令难识别

面对 AI色情文本的肆虐，技术测评领域展开了一场攻防拉锯战。据悉，目前，主流的检测手段主要分为三类：关键词过滤、语义分析和机器学习模型。

关键词过滤是最基础的方法，通过预设敏感词库，对生成指令进行拦截。南都大数据研究院测试发现，豆包、DeepSeek对以上词语进行了屏蔽，拒绝回答，元宝则会引述一些法律法规中对性行为的描述达到科普目的。但这种方式存在明显缺陷：一是容易被谐音字、变体词绕过，如 “做 AI”“开车” 等暗语频繁出现在色情文本中，传统词库难以识别；二是误伤率高，一些正常的医学、文学内容可能因包含相关词汇被误删。

语义分析技术试图通过理解文本上下文来判断是否涉及色情。例如，分析句子中人物关系、场景描述是否指向性暗示。但指令要求AI生成色情内容时往往会包装成“叙事性”要求，通过构建情节掩盖低俗本质，如以 “情感描写”为名详细刻画性行为过程，语义分析模型容易被指令的表面要求误导，“隐喻式”色情指令就是漏网之鱼。

机器学习模型结合了规则引擎和深度学习，通过训练大量标注数据识别色情模式。这类模型在处理长文本时表现较好，能捕捉到段落中的隐含色情倾向。然而，其依赖的训练数据质量参差不齐，部分模型因过度依赖公开语料，对新兴的 “AI生成色情文本”特征学习不足。