返回顶部
分享到

传媒业AI工具实测报告出炉:五大核心能力闯关,优势与短板如何平衡? ... ...

AI评测 2026-1-2 18:25 27人浏览 0人回复
原作者: mo 来自: A交流社区 收藏 分享 邀请
摘要

随着人工智能技术在传媒领域的渗透日益加深,大语言模型已逐渐成为新闻从业者日常工作中的高频工具。从信息检索、稿件撰写到事实核验、长文本处理,AI工具的应用场景不断拓展。在此背景下,新京报AI研究院于1月13日 ...

       随着人工智能技术在传媒领域的渗透日益加深,大语言模型已逐渐成为新闻从业者日常工作中的高频工具。从信息检索、稿件撰写到事实核验、长文本处理,AI工具的应用场景不断拓展。在此背景下,新京报AI研究院于1月13日发布《大语言模型产品传媒方向能力测评调研报告》,这也是继2024年7月首期报告后,针对国内主流大模型传媒应用能力的又一次全面复盘。本次测评覆盖11款国内主流大模型,围绕传媒工作核心需求设置五大维度,通过16道实测题目、176组生成结果的系统分析,为行业呈现了当前AI工具在传媒场景中的真实应用画像。
       本次测评采用0分为最低分、10分为最高分的10分制打分体系,邀请传媒行业专业人士从实际应用需求出发进行满意度评估。最终汇总176个大模型生成结果后发现,五大核心能力维度呈现出明显的梯度差异:信息搜集能力、翻译能力得分位居前两名,均达到6分及格线,成为当前大模型在传媒领域的优势项;而长文本能力、事实核查与价值观判断能力、新闻写作能力则表现不佳,位列后三位,成为制约AI工具深度赋能传媒行业的关键瓶颈。

传媒业AI工具实测报告出炉:五大核心能力闯关,优势与短板如何平衡? ... ...5837 作者:mo 来源:A交流社区 发布时间:2026-1-2 18:25

      与半年前的首期测评相比,本次结果释放出清晰的技术迭代信号。此前排名第三的信息搜集能力跃升至第一名,大模型的长文本能力也得到了长足进步,从最后一名跃升至第三名,可见大模型产品在联网搜索以及长文本总结上的应用水平在最近半年内获得了显著增长。不过,技术进步的背后,共性问题依然突出。多款模型在实测中暴露的“幻觉”问题、审题偏差以及内容审核机制僵化等短板,不仅拉低了测评分数,更给实际应用埋下了风险隐患。

信息搜集:优势领跑但风险暗藏,幻觉与审题偏差成致命伤

       作为传媒工作的基础环节,信息搜集能力的测评聚焦准确性、时效性、内容组织与用户满意度四大核心指标。实测结果显示,通义千问以6.95分的成绩强势领跑,与第二名夸克AI拉开0.5分的差距,在时事热点追踪等场景中展现出扎实的信息整合能力。以“吴柳芳事件总结”一题为例,多数模型能够清晰梳理事件脉络,完整呈现起因、发展与相关回应,体现出对热点事件的快速响应能力。值得注意的是,讯飞星火在测评初期因无法作答该题目得分偏低,但在1月10日的复测中已能生成完整答案,展现出大模型快速迭代的特性。
       然而,信息搜集场景中的风险点同样不容忽视。部分模型对用户提示词的理解能力存在明显缺陷,百小应在应对“近期潜力爆款新闻搜索及创作建议”一题时,误将“爆款文章”当作核心检索词,直接生成“爆款文章集合”,完全偏离用户需求初衷,最终得分垫底。更值得警惕的是“幻觉”问题的普遍性,夸克AI在给出爆款创作建议时,虚构了“中国航天员首次登陆月球背面”等不实信息;海螺AI则无视“最近一个月”的时间限制,将东方甄选小作文、山姆·奥特曼被解雇等过期热点纳入答案。由于这些模型输出内容篇幅充足、形式完整,部分评委未细致核查便给出高分,导致测评分数出现虚高现象,也折射出实际应用中信息甄别的重要性。行业专家建议,传媒从业者在使用AI工具进行信息搜集时,尤其是处理有明确时间限制或准确性要求极高的任务时,应通过多次生成、交叉验证的方式筛选信息,避免单一依赖模型输出导致的错误。

新闻写作:同质化严重缺乏亮点,个别模型低级错误拉低整体水平

        新闻写作能力的测评围绕时效性新闻快讯写作、时政总结、科技新闻撰写三大典型场景展开,设置3个测试题目,打分标准涵盖文本语法拼写准确性(2分)、逻辑连贯性(2分)、创作视角独特性(2分)、内容准确性与相关性(2分)、新闻风格符合性(2分)五个维度,进行综合评估。实测结果呈现出鲜明的“两极分化”特征:除天工AI外,其余10款模型的得分差距极小,排名第一的百小应与倒数第二的智谱仅相差约0.5分,而信息搜集能力维度测试中的第一二名差距就达0.5分。这种微小的分差背后,是当前大模型新闻写作同质化严重的现实——多数模型输出的稿件框架相似、语言风格趋同,缺乏独特的创作视角与深度分析,难以满足传媒行业对内容差异化的需求。传媒业AI工具实测报告出炉:五大核心能力闯关,优势与短板如何平衡? ... ...6399 作者:mo 来源:A交流社区 发布时间:2026-1-2 18:25
天工AI的表现则成为该维度的“例外”,因严重的事实错误以较大分差垫底,其与倒数第二名的分差达2.4分。在“总结中共中央政治局12月9日召开会议,分析研究2025年经济工作”一题中,其他模型均能准确提炼会议核心要点,天工AI却给出“截至2024年12月17日,关于2025年经济工作的这次会议还没有发生,无法为你总结会议内容”的错误回应,完全背离客观事实,也大大拉低了该维度的平均分值。这一结果也提醒行业,由于本次测评取的是大模型第一次生成的结果,因此具有一定的偶然性。多位深度使用者透露,实际应用中需要通过“抽卡”(即反复生成内容)最终选择生成效果最好的回答,还需要通过追问等反复修正内容,才能得到最好的结果,人工干预仍是保障内容质量的关键环节。
事实核查:小众谣言识别能力不足,敏感议题保持理性立场
事实核查与价值观判断能力的测评,重点考察大模型对误导信息的甄别能力、错误修正水平以及敏感议题的立场把控。实测通过输入虚假信息、错误价值观内容,以及设置“男女对立”“退役运动员擦边直播”等争议话题,全面检验模型的价值导向与理性分析能力。

传媒业AI工具实测报告出炉:五大核心能力闯关,优势与短板如何平衡? ... ...6413 作者:mo 来源:A交流社区 发布时间:2026-1-2 18:25

测评结果显示,腾讯元宝以稳定表现位居该维度榜首,文心一言与Kim i并列第二,多数模型在敏感议题的处理上保持了中立理性的立场,输出内容无明显偏倚,体现出良好的价值观导向。但与首期测评相比,该维度的排名从第二位下滑至倒数第二位,且跌破了6分及格线,核心原因在于本次测评选用了更为小众的谣言素材,暴露了大模型谣言识别的局限性。
在“冷冻馒头不能吃”的谣言测试中,通义千问、百小应未能识别谣言,直接撰写了支持该错误观点的文章;智谱、海螺AI虽未完全采信谣言,但也未明确辟谣,仅以“取决于多个因素”模糊回应。事实上,该说法已被官方纳入“2024年食品安全与健康流言榜”,冷冻环境根本不具备黄曲霉生长繁殖的条件。这一结果表明,大模型难以覆盖所有小众谣言,不能完全替代人工事实核查,但在争议议题的理性分析上具备一定辅助价值。
翻译能力:常规场景表现合格,专业场景与审核机制需优化
翻译能力的测评聚焦传媒行业刚需场景,设置中译英、英译中、英文邀请函撰写3个题目,打分标准包含翻译准确性(3分)、语言流畅度(3分)、语法拼写规范性(2分)、文化适应性(2分)四个维度进行评估。实测结果显示,通义千问、文心一言、豆包位列前三,但模型间的分差并非源于翻译能力的本质差异,而是部分模型内容审核机制僵化导致的生成失败问题。
在翻译央媒评论员文章时,讯飞星火、百小应、Kim i初期能够正常生成英文内容,但中途疑似触发内部审核机制,已生成的内容被强制撤回,最终未能完成翻译任务。这一现象反映出部分大模型在内容审核与功能实现的平衡上存在不足,审核机制的灵活性有待提升。专业评委表示,对于央媒评论员文章这类具有特殊语境和政策导向的文本,AI翻译在整体意思把控、语气贴合度等方面与人工翻译仍有明显差距。
不过,在普通文章翻译、英文采访提纲撰写等常规场景中,所有模型的表现均达到及格线以上,仅在内容详略程度、格式规范度上存在差异。例如,豆包、百小应生成的采访提纲较为简洁,智谱在诗句翻译上略显简单,整体能够满足基础翻译需求。

传媒业AI工具实测报告出炉:五大核心能力闯关,优势与短板如何平衡? ... ...8425 作者:mo 来源:A交流社区 发布时间:2026-1-2 18:25

长文本处理:检索能力显著提升,专业财报分析仍力不从心
长文本处理能力的测评紧扣财经记者实际工作需求,设置财报对比分析、会议纪要总结、文本信息检索3个任务,打分标准包括内容准确性(4分)、信息覆盖面(3分)、语言表达流畅度(3分)三个维度,同时将文档上传与识别能力作为扣分项。实测结果显示,海螺AI以综合优势位居第一,豆包、腾讯元宝分列二、三位。
在会议纪要总结测试中,讯飞星火、智谱、海螺AI表现突出,能够将嘉宾个人观点与会议整体讨论内容有机结合,其中海螺AI还额外补充了总结性评述,精准匹配了传媒从业者的实际需求。更值得关注的是,与首期测评相比,大模型的长文本检索能力实现了质的飞跃。首期测评中,仅有个别大模型在记者给定的长文本中搜索到了记者设置的答案,而本次实测中,绝大多数模型都能够通过文内检索能力找到答案,技术进步效果显著。

传媒业AI工具实测报告出炉:五大核心能力闯关,优势与短板如何平衡? ... ...9256 作者:mo 来源:A交流社区 发布时间:2026-1-2 18:25

      但在专业性极强的财报分析场景中,大模型的短板暴露无遗。在对比工商银行与交通银行2024年中期财报的测试中,百小应、智谱、Kim i、夸克AI无法上传完整的财报文件;海螺AI在文件超出处理上限的情况下强行生成答案,数据准确性无法保障。即便能够完成分析的模型,也存在严重的数据偏差——对比Wind专业财务数据,仅有文心一言、豆包、天工AI能准确输出总收入数据,净利润、毛利率等核心指标均存在错误。这一结果明确表明,当前面向大众的C端大模型,尚不具备胜任专业财报分析工作的能力。
结语:AI赋能传媒需扬长避短,人工把关仍是核心底线

      本次测评全面呈现了国内大模型在传媒领域应用的现状:半年内技术迭代成效显著,信息搜集、长文本检索等能力的提升为传媒工作提供了更高效的辅助工具,但“幻觉”、审题偏差、专业能力不足等问题仍未得到根本解决。对于传媒行业而言,AI工具的价值在于提升基础工作效率,而非替代人工完成核心创作与专业核查。
       未来,随着技术的持续升级,大模型在传媒领域的应用场景有望进一步拓展,但如何攻克“幻觉”难题、提升专业能力、优化审核机制,将是行业内外需要共同攻克的核心课题。对于传媒从业者而言,理性看待AI工具的优势与短板,在基础工作中借力AI提升效率,在核心环节坚守人工把关的底线,才是实现AI与传媒行业良性融合的关键路径。
近期文章
推荐阅读
热门问答
exit; ?>
IT云社区 成立于2025年11月,是目前国内优秀的开源技术社区,拥有超过300万会员,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作