首页 > 3D快报内容详情

Kimi多模态图片理解模型API发布:图像识别与文字理解新突破,低至12元/百万Tokens

2025-01-15 13:38:53 178 大屏时代

2025年1月15日,月之暗面发布了其全新的Kimi多模态图片理解模型API,以进一步增强其在AI视觉领域的能力。这一新发布的API基于moonshot-v1-vision-preview(以下简称“Vision模型”),使得多模态图片理解成为可能。通过这款模型,用户可以在图像识别、文字提取与理解、以及更多复杂场景下,体验到前所未有的准确性与便捷性。该API通过按量计费模式提供服务,用户只需支付低至12元/百万tokens的费用,就能享受强大的图像和文字处理功能。

8CE967C5AE6808F45C669C1BBC6B7BCC9C81693B_size75_w1080_h845.jpg

Vision模型的强大能力

1. 高精度图像识别

Vision模型的核心能力之一是其卓越的图像识别功能。无论是常见的物体、动物,还是细微的差异,模型都能精准识别。举个例子,官方展示了16张蓝莓松饼与吉娃娃的图片,虽然这些图片对人眼来说相似度很高,但Vision模型却能够毫不费力地从中辨认出不同的对象。这个功能在需要精确区分相似物体的场景中尤其重要,适用于食品、动物、商品等多个行业的图像识别需求。

2. 高级OCR与文字理解

除了图像识别,Vision模型在OCR(光学字符识别)和图像理解方面也表现出色。它能够准确识别手写内容、潦草的文字,甚至是复杂的图表与数据。例如,官方展示了一张期末考试成绩的柱状图,模型不仅能提取出每个科目的分数,还能分析图表的样式、颜色等美学特征。这对于需要从复杂数据中提取信息的行业(如教育、金融、医疗)来说,提供了强有力的技术支持。

3. 多模态能力与语境理解

作为一款多模态AI,Vision模型能够同时处理图像与文字信息,支持对图片内容的语义理解。这使得它不仅限于识别物体,还可以深入理解图片背后的语境与情感。例如,除了分析图表中的数据,Vision模型还能从视觉元素中推断出图表的目的与含义,为用户提供更多层次的信息。

模型定价与计费方式

Vision模型的计费采用按量付费的方式,具体的价格与使用的tokens数量相关。根据不同的模型版本,价格有所不同:

  • moonshot-v1-8k-vision-preview:每百万tokens ¥12
  • moonshot-v1-32k-vision-preview:每百万tokens ¥24
  • moonshot-v1-128k-vision-preview:每百万tokens ¥60

这种灵活的计费模式为开发者和企业提供了高效且成本可控的选择,尤其适合那些有大规模图像处理需求的项目。

模型的特点与使用限制

支持的特性:

  • 多轮对话:用户可以与API进行多轮交互,获得更为精细化的分析与反馈。
  • 流式输出:支持逐步返回结果,适合需要实时处理的场景。
  • 工具调用与JSON模式:集成化的API功能,使得开发者能够方便地调用工具,获取符合JSON格式的分析结果。
  • 部分模式:支持通过特定模式,处理和生成部分内容。

暂不支持的功能:

  • 联网搜索:目前API不支持实时的网络搜索功能,所有的识别与分析基于已上传的图像内容。
  • Context Caching:API暂时不支持创建带图片内容的Context Cache,虽然可以使用已经创建成功的缓存进行模型调用。
  • URL格式的图片:目前仅支持使用base64编码格式的图片进行处理,暂不支持URL链接的图片。

企业级功能与平台更新

除了API本身的技术优势,Kimi多模态图片理解模型的发布还带来了对企业用户的优化。企业可以通过平台的组织项目管理功能,高效管理多个项目与团队。新增的文件资源管理功能让企业能够更加直观地查看和管理文件资源,优化了资源管理的效率。对于需要多个账号管理的大型企业,新的企业实体认证多账号功能也使得平台的使用更加灵活和便捷。

此外,平台还对资源管理列表进行了优化,用户在鼠标悬浮时能够快速复制文件链接,提升操作便捷性。

随着人工智能和图像处理技术的不断发展,多模态图片理解模型的发布无疑为行业带来了全新的可能性。无论是在图像识别、文字提取、还是复杂的数据分析中,Kimi的Vision模型都展现了强大的技术能力。通过合理的定价与灵活的计费方式,这一技术将为更多企业和开发者提供高效的解决方案。

随着AI技术的不断进步,Vision模型的应用场景将更加广泛,帮助各行各业更好地处理和理解图像数据,推动产业的智能化发展。

相关标签: 模型 Vision API 图片 图像识别 理解 模态 tokens 功能 计费