Nano Banana可以退位了,GPT Image2登场
今天下午把前几天写的科研绘图提示词(Nano Banana 科研技术配图提示词,拿走即用)丢到 ChatGPT 里跑了一下。
出图效果好到我有点不敢相信,怎么OpenAI悄摸着就放了个大招?
我真没想到GPT Image 2语义理解和指令遵循能力这么强,提示词里的每一点要求几乎都达到了,而且中文渲染也非常精准,真的是吊打 Nano Banana 2!
小香蕉的特点就是花里胡哨的,出个信息图真是有啥就放啥,浮夸的渐变和颜色压都压不住。
我之前一直觉得是提示词写的还不够精准,但同样的指令,一个字没改,丢给 GPT Image 2,生成的图档次一下就上来了,跟小香蕉完全不是一个维度。
对比下面这几个案例,你可以猜猜各自都是谁画的。
Banana ,还是GPT ?
案例一:InstructGPT技术路线:


--通用绘图风格指令省略--
需要绘制的内容 :
📄 论文: Training language models to follow instructions with human feedback (InstructGPT)
🎯 核心思想: 通过“人类反馈强化学习(RLHF)”技术,将预训练语言模型(如 GPT-3)的行为与人类的意图和价值观对齐。
🛠️ 技术路线与绘图拆解:
1. 整体架构布局(绘图建议:分为三个并列或递进的清晰阶段(Step 1, Step 2, Step 3))
2. Step 1: 监督微调 (SFT - Supervised Fine-Tuning)数据准备: 收集人类编写的“提示词 (Prompt)” + “高质量回答 (Demonstration)”。模型训练: 取一个预训练大语言模型 (Pretrained LLM) $xrightarrow{输入}$ 人类标注数据集 $xrightarrow{训练}$ 输出 SFT 模型 (Supervised Policy)。这一步确立了模型“应该如何规范回答”的基础。
3. Step 2: 奖励模型训练 (RM - Reward Model Training)数据采样: 从 Prompt 库中抽取提示词,使用 Step 1 的 SFT 模型生成多个不同的回答 (Outputs: A, B, C...)。人类排序: 人类标注员对这些回答按质量进行排序 (比如 $D > C > A = B$)。模型训练:以 SFT 模型去掉最后的分类层作为基础,改为输出一个标量值 (Scalar Reward)。输入“Prompt + 回答”,使用成对排序损失 (Pairwise Ranking Loss) 优化网络。产出: 奖励模型 (Reward Model, RM)(相当于一个模拟人类喜好的裁判)。
4. Step 3: 强化学习优化 (RL - PPO 算法)初始化: 复制一份 SFT 模型作为当前的 强化学习策略 (RL Policy)。交互循环(画一个闭环):从库中抽取新 Prompt $xrightarrow{输入}$ RL Policy $xrightarrow{生成}$ 回答 (Response)。Prompt + 回答 $xrightarrow{输入}$ Reward Model (裁判) $xrightarrow{打分}$ 得到标量奖励分数 (Reward Score)。利用打分,使用 PPO (Proximal Policy Optimization) 算法更新 RL Policy 的参数,最大化奖励。惩罚机制 (KL Penalty): 在 PPO 优化的同时,计算当前 RL Policy 与初始 SFT 模型的 KL 散度 (KL Divergence),作为惩罚项加入,防止模型为了刷高分而“面目全非”(过度拟合奖励模型)。
案例二:Text-to-SQL技术路线:


--通用绘图风格指令省略--
需要绘制的内容(从中提取关键信息) :
本文围绕 Text-to-SQL 任务中“语义理解不充分、推理过程不清晰、SQL结构易出错”等关键问题,提出一种基于自动线索生成的提示方法 Hint-SQL,构建“线索生成—SQL生成”两阶段协同的技术路线体系。该方法以线索生成智能体 HAgent 为核心,通过动态生成多层次线索,引导大语言模型完成从自然语言到 SQL 的高质量映射。
在整体流程上,首先以数据库模式信息与用户自然语言问题作为输入,在第一阶段中由 HAgent 采用递进式策略自动生成三类定制化线索,包括语义线索、操作线索与结构线索。其中,语义线索通过对用户问题进行重述与消歧,实现查询意图与数据库模式元素的精确对齐;操作线索在语义理解基础上,按照 SQL 逻辑对查询过程进行分解,形成清晰的操作步骤序列;结构线索则进一步将操作步骤映射为 SQL 抽象语法结构或语句骨架,实现从逻辑到结构的过渡。三类线索在生成过程中具有严格的递进依赖关系,即语义线索作为操作线索的前提,语义与操作线索共同作为结构线索的生成依据,从而在降低单步生成复杂度的同时保证整体逻辑一致性。
为实现高质量线索的自动生成,本文设计了 HAgent 的两阶段微调训练框架。首先,在监督微调阶段,通过解析已有数据集中的 SQL 语句并结合大语言模型能力自动合成训练数据,构建包含“数据库模式—用户问题—线索”三元组的样本集合,使模型学习从问题到线索的基础映射关系;随后,在偏好学习阶段,引入基于执行结果反馈的线索质量评估机制,通过构建“正例线索—负例线索”的偏好数据对,采用直接偏好优化方法进一步提升模型对细粒度语义与逻辑差异的判别能力,从而显著提高线索生成的准确性与可靠性。该训练机制实现了无需人工标注的数据驱动优化过程,增强了方法的可扩展性。
在第二阶段的 SQL 生成过程中,将生成的语义线索、操作线索与结构线索嵌入到大语言模型的提示词中,与数据库模式、用户问题以及示例样本共同构成完整输入。多类型线索从“语义理解—逻辑推理—结构约束”三个层面对模型生成过程进行协同引导,使模型能够在理解查询意图的基础上,按照规范的推理路径逐步构建 SQL 语句,从而有效提升生成结果在语义一致性与结构正确性方面的表现。
案例三:3D-GloBFP技术路线:


--通用绘图风格指令省略--
需要绘制的内容(从中提取关键信息):
1. 特征准备阶段 (Feature Preparation)
研究者并没有依赖单一的数据源,而是构建了一个高维度的特征池(共 114 个特征),主要包括:
遥感影像特征 (Remote Sensing Features):
雷达数据:利用 Sentinel-1 的 VV 和 VH 双极化回波强度,这些信号对建筑物的表面粗糙度和结构高度非常敏感 。同时辅以 PALSAR (HH, HV) 数据 。
光学数据:利用 Sentinel-2 的蓝、绿、红及近红外波段 。近红外波段能通过反射地表材料的热辐射能力来间接提供高度信息 。
地形数据:利用 SRTM DEM 和 ALOS DSM,计算两者的差值 (nDSM),这能直接反映地表物体的垂直高度 。
社会经济特征 (Socio-economical Features):集成 WorldPop 人口分布和 VIIRS 夜间灯光数据作为辅助信息,反映人类活动的强度与建筑密度的关联 。
建筑形态特征 (Morphology Features):基于建筑矢量底图,计算了面积、周长、紧凑度 (Compactness)、碎形维数 (Fractality) 和 Cooke JC 指数等指标 。这些几何指标对于区分不同功能的建筑(如商业区高楼与居住区低层建筑)至关重要 。
2. 模型开发阶段 (Height Model Development)
为了处理全球范围内巨大的建筑异质性,研究者采取了“分而治之”的策略:
子区域划分 (Subregion Division):全球被划分为 33 个子区域(包括中国的 21 个细分区),目的是确保每个区域的模型都能学习到当地独特的建筑风格和发展模式 。
算法选择:选用 XGBoost (极限梯度提升) 回归方法 。该算法在处理复杂非线性关系和大尺度数据集方面表现卓越 。
采样策略与调优:
采用分层抽样 (Stratified Sampling),确保训练集中不同高度区间(低层、高层)的样本分布比例符合实际情况 。
利用 GridSearchCV (网格搜索) 对学习率、树的最大深度等超参数进行寻优,最终为 33 个区域分别训练了最优模型 。
3. 数据生成与评估阶段 (Mapping & Accuracy Assessment)
全球测绘:将训练好的模型应用于全球 13 亿个建筑脚印,生成 3D-GloBFP 矢量数据集 。
多维度验证:
交叉验证:计算 $R^2$ 和 RMSE 值。结果显示 62% 的区域 RMSE 低于 10 m 。
实测数据对比:通过 Google Earth 街景手动测量了 14 个城市的 700 栋建筑,验证了模型在现实世界中的可靠性($R^2 = 0.85$)。
同类数据集横比:将结果与 WSF 3D、GHSL-H 等现有的全球格网数据集进行对比,证明了 3D-GloBFP 在捕捉城市微观形态(如 CBD 高层中心)方面的优势 。
4. 基础设施分析 (Built-up Infrastructure Analysis)
技术路线的最后一步是将生成的“点位”数据转化为“宏观”洞察:
通过计算每个建筑的体积(面积 $ imes$ 高度)并求和,得出全球各国和城市的建筑总体积 。
分析全球基础设施的地理差异,例如中国(23.9%)和美国(17.6%)在全球建筑存量中的占比 。
🤔旧王落幕,新王登基[玫瑰]
经常用小香蕉做图的应该很容易看出来,这几个案例对比中,靠上面颜色更加鲜艳,图示更刺眼的就是香蕉出品。
而底下看着比较简洁干净的就是GPT Image 2的杰作了,这几张图都是一次直出,没有抽卡。两个模型出图风格差异很明显:一个浓妆艳抹,扑面而来;一个清水芙蓉,简约克制。
GPT Image 2是真的懂什么叫克制,什么叫留白。虽然其他很多场景我没测试,但就凭这三次零抽卡出80分图结果来看,图像模型的新王要登基了。
对于信息复杂,要求严谨的科技信息图、技术图,GPT image 2 当之无愧王中王。
不过现在是灰度测试阶段,比较意外我免费的账号竟然被灰度到,问了很多充了会员的朋友,他们还是上一代老模型……这就很迷。
OpenAI你真的再次赢得了我的尊重。至于怎么测试你有没有被灰度到呢?
打开ChatGPT,勾选创建图片,让它生成一张带中文的复杂信息图,如果文字能够全部准确渲染,排版布局也不崩坏,那就是二代没跑了。

想起去年底Nano Banana Pro刚出道是真惊艳,大家都感慨图像模型竟然能做到这一步。
没想到这几个月王座屁股刚坐热乎,Google就开始给模型降智,Gemini现在惨不忍睹,把会员当傻子。
OpenAI此刻支棱起来,来得正好,恰逢其时。这个时代AI产品没有用户忠诚度,谁好,就用谁。