Project Icon

jina

帮助开发者构建和部署多模态AI应用的开源框架

Jina是一个强大的开源框架,帮助开发者构建和部署多模态AI应用。它支持通过gRPC、HTTP和WebSockets通信,并且可以轻松扩展和部署到生产环境。无需担心底层基础设施的复杂性,开发者可以专注于逻辑和算法。Jina支持任何数据类型和主流深度学习框架,提供Pythonic体验,从本地部署到使用Docker-Compose、Kubernetes或Jina AI Cloud的高级编排。此外,Jina的流水线功能允许多个微服务容器化并独立扩展,实现高性能服务设计。

Jina logo: Build multimodal AI services via cloud native technologies · Model Serving · Generative AI · Neural Search · Cloud Native

使用云原生技术构建多模态AI应用程序

PyPI PyPI - Downloads from official pypistats Github CD status

Jina让你可以构建通过gRPC、HTTP和WebSockets进行通信的多模态AI服务管道,然后将它们扩展并部署到生产环境。你可以专注于逻辑和算法,而不必担心基础设施的复杂性。

Jina为机器学习模型提供了从本地部署到高级编排框架(如Docker-Compose、Kubernetes或Jina AI Cloud)的一流Python体验。Jina使高级解决方案工程和云原生技术对每个开发者都变得易于访问。

等等,Jina与FastAPI有什么不同? Jina的价值主张似乎与FastAPI非常相似。然而,它们之间存在几个根本性的区别:

数据结构和通信协议

  • FastAPI的通信依赖于Pydantic,而Jina依赖于DocArray,使得Jina能够支持多种协议来公开其服务。gRPC协议的支持特别适用于数据密集型应用程序,例如嵌入服务,其中嵌入和张量可以更高效地序列化。

高级编排和扩展能力

  • Jina允许你轻松地将服务和模型容器化并编排,提供并发性和可扩展性。
  • Jina允许你部署由多个微服务组成的应用程序,这些微服务可以独立容器化和扩展。

云端之旅

  • Jina提供了从本地开发(使用DocArray)到本地服务(使用DeploymentFlow)的平滑过渡,最终通过使用Kubernetes的容器生命周期编排功能获得生产就绪的服务。
  • 通过使用Jina AI Cloud,你可以通过一条命令访问可扩展的无服务器部署。

文档

安装

pip install jina

Apple Silicon/Windows上找到更多安装选项。

入门

基本概念

Jina有三个基本层:

  • 数据层:BaseDocDocList(来自DocArray)是Jina中的输入/输出格式。
  • 服务层:Executor是一个Python类,用于转换和处理文档。通过简单地将你的模型包装到Executor中,你就可以让它们被Jina服务和扩展。Gateway是确保连接Flow中所有Executor的服务。
  • 编排层:Deployment服务于单个Executor,而Flow则服务于链接到管道中的Executor。

这里解释了完整的术语表

服务AI模型

让我们构建一个快速、可靠且可扩展的基于gRPC的AI服务。在Jina中,我们称之为**Executor。我们的简单Executor将包装来自Stability AI的StableLM LLM。然后我们将使用Deployment**来服务它。

让我们实现服务的逻辑:

executor.py
from jina import Executor, requests
from docarray import DocList, BaseDoc

from transformers import pipeline


class Prompt(BaseDoc):
    text: str


class Generation(BaseDoc):
    prompt: str
    text: str


class StableLM(Executor):
    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        self.generator = pipeline(
            'text-generation', model='stabilityai/stablelm-base-alpha-3b'
        )

    @requests
    def generate(self, docs: DocList[Prompt], **kwargs) -> DocList[Generation]:
        generations = DocList[Generation]()
        prompts = docs.text
        llm_outputs = self.generator(prompts)
        for prompt, output in zip(prompts, llm_outputs):
            generations.append(Generation(prompt=prompt, text=output))
        return generations

然后我们用Python API或YAML部署它:

Python API: deployment.py YAML: deployment.yml
from jina import Deployment
from executor import StableLM

dep = Deployment(uses=StableLM, timeout_ready=-1, port=12345)

with dep:
    dep.block()
jtype: Deployment
with:
  uses: StableLM
  py_modules:
    - executor.py
  timeout_ready: -1
  port: 12345

然后通过CLI运行YAML Deployment:jina deployment --uses deployment.yml

使用Jina客户端向服务发送请求:

from jina import Client
from docarray import DocList, BaseDoc


class Prompt(BaseDoc
```yaml
jtype: TextToImage
py_modules:
  - executor.py
metas:
  name: TextToImage
  description: 基于StableDiffusion的文字转图片生成执行器
  url:
  keywords: []
diffusers
accelerate
transformers

然后通过执行 jina hub push TextToImage 将执行器推送到Hub。

这将生成一个URL,您可以在 DeploymentFlow 中使用该URL来使用已推送的执行器容器。

jtype: Flow
with:
    port: 12345
executors:
  - uses: jinai+docker://<user-id>/StableLM
  - uses: jinai+docker://<user-id>/TextToImage

快速进入云原生

使用Kubernetes与Jina很容易:

jina export kubernetes flow.yml ./my-k8s
kubectl apply -R -f my-k8s

Docker Compose同样简单:

jina export docker-compose flow.yml docker-compose.yml
docker-compose up

注意 您还可以将部署YAML导出到 KubernetesDocker Compose

这还不是全部。我们还支持 OpenTelemetry, Prometheus, 和 Jaeger

哪种云原生技术对您来说仍然具有挑战性?告诉我们,我们会处理复杂性并使其变得简单。

部署到JCloud

您还可以将Flow部署到JCloud,在那里您可以通过一个命令轻松享受自动扩展、监控等功能。

首先,通过指定资源需求并使用容器化的Hub执行器,将 flow.yml 文件转换为 JCloud兼容的YAML

然后,使用 jina cloud deploy 命令部署到云端:

wget https://raw.githubusercontent.com/jina-ai/jina/master/.github/getting-started/jcloud-flow.yml
jina cloud deploy jcloud-flow.yml

警告

在完成本教程后,请确保删除/清理Flow以节省资源和积分。

阅读更多关于 将Flow部署到JCloud 的信息。

为LLM提供流式服务

大型语言模型可以为从聊天机器人到助手和智能系统的广泛应用提供动力。然而,这些模型可能很庞大且运行缓慢,而用户希望系统既智能又快速!

大型语言模型通过将您的问题转化为标记(tokens),然后一个一个地生成新标记,直到模型决定停止生成为止。这意味着您需要流式传输由大型语言模型生成的输出标记到客户端。在本教程中,我们将讨论如何通过Jina中的流式端点实现这一目标。

服务架构

第一步是定义流式服务的架构,就像在任何其他服务框架中一样。服务的输入是提示和要生成的最大标记数量,而输出只是标记ID:

from docarray import BaseDoc

class PromptDocument(BaseDoc):
    prompt: str
    max_tokens: int

class ModelOutputDocument(BaseDoc):
    token_id: int
    generated_text: str

服务初始化

我们的服务依赖于一个大型语言模型。作为示例,我们将使用 gpt2 模型。这是您如何在执行器中加载此类模型:

from jina import Executor, requests
from transformers import GPT2Tokenizer, GPT2LMHeadModel
import torch

tokenizer = GPT2Tokenizer.from_pretrained('gpt2')

class TokenStreamingExecutor(Executor):
    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        self.model = GPT2LMHeadModel.from_pretrained('gpt2')

实现流式端点

我们的流式端点接受 PromptDocument 作为输入,并流式传输 ModelOutputDocument。要将文档流式传输回客户端,在端点实现中使用 yield 关键字。因此,我们使用模型生成最多 max_tokens 个标记并逐个传输,直到生成停止:

class TokenStreamingExecutor(Executor):
    ...

    @requests(on='/stream')
    async def task(self, doc: PromptDocument, **kwargs) -> ModelOutputDocument:
        input = tokenizer(doc.prompt, return_tensors='pt')
        input_len = input['input_ids'].shape[1]
        for _ in range(doc.max_tokens):
            output = self.model.generate(**input, max_new_tokens=1)
            if output[0][-1] == tokenizer.eos_token_id:
                break
            yield ModelOutputDocument(
                token_id=output[0][-1],
                generated_text=tokenizer.decode(
                    output[0][input_len:], skip_special_tokens=True
                ),
            )
            input = {
                'input_ids': output,
                'attention_mask': torch.ones(1, len(output[0])),
            }

了解更多关于 流式端点 的信息,见 Executor 文档。

提供服务并发送请求

最后一步是提供执行器服务并使用客户端发送请求。 要使用gRPC提供执行器服务:

from jina import Deployment

with Deployment(uses=TokenStreamingExecutor, port=12345, protocol='grpc') as dep:
    dep.block()

要从客户端发送请求:

import asyncio
from jina import Client

async def main():
    client = Client(port=12345, protocol='grpc', asyncio=True)
    async for doc in client.stream_doc(
        on='/stream',
        inputs=PromptDocument(prompt='法国的首都是什么?', max_tokens=10),
        return_type=ModelOutputDocument,
    ):
        print(doc.generated_text)

asyncio.run(main())
The
The capital
The capital of
The capital of France
The capital of France is
The capital of France is Paris
The capital of France is Paris.

支持

加入我们

Jina由 Jina AI 支持,并根据 Apache-2.0 许可发布。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号