LLaVA-Mini是一个高效的图像/视频理解大模型，仅需1个视觉token来表示每张图像：计算开销（FLOPs减少77%）、响应时延（低至40毫秒）以及显存占用（降至 0.6MB/图像，支持24GB GPU上进行长达 3 小时的视频处理）。 Paper: Code & Demo:

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

3673 位用户此时在线

24小时点击排行 Top 10：

汗颜😅：农民父亲和博士儿子的真实对话：你为什么不肯帮我？

估计孩子是她老公的😂

12月23日凌晨，有热心群众为长沙抗议外卖骑手发放水和香烟。

朝鲜国央视播放了金正恩携他公主出席该国旅游区几家酒店开业典礼的画面，旨在突出该国的经济发展成就。

12月17日，上海东营房小区，当地政府组织人员对小区实施强制拆迁。监控视频显示，强拆人员在冬季使用高压水枪直接对居民住宅进行喷射，用冰冷的水柱将居民强行赶出屋外。水柱将窗户玻璃冲碎，导致大量积水涌入屋内，家中电器被浸泡受损。

最中幻想之完美孩子。

12 月 21 日，山东，一名博主在冬至当天亲手包饺子，并准备了牛奶，送给清晨仍在工作的环卫工人，以此表达慰问与感谢。

俞敏洪这是什么价值观？和啥样的人都可以搞到一起？旁边都是谁呀？ 👇

网友投稿：12月22日，四川省成都市天府红商场，一名《我的英雄学院》coser被霸凌，在被推倒在地后，又被路人恶意扯下假发，甚至有人拿着受害者的假发逃跑并炫耀

网友投稿：12月22日，黑龙江省鸡西市，高铁公交专线2号线上，一辆满载乘客的公交车发生交通事故，车辆失控冲向路边土坡，目前暂不清楚伤亡情况。

刘震云：从底层爬上来的秘诀就三句话，读懂便能再上一层楼。

美女主播：长这么大，做的最后悔的一件事就是近视眼手术。

12月23日下午，长沙外卖员抗议现场事发小区周围驻扎着大量警力。

老美代码忘删了 😎 匿名投稿 #逗包AI

各省人眼中的中国地图……

泰国虽然没有纯女人，但到了战场都是纯爷们。

12月23日，B站UP主“punkbei”上传视频《辐射4》，视频中博主身着防疫服，并配乐《计划生育好》，再以B社《辐射4》作为背景，讽刺当局的的荒谬政策。视频发布后，评论区的网友们纷纷质疑和嘲笑。

让千万人醍醐灌顶的学霸私人笔记《认知觉醒》

12月23日早7点左右长沙外卖骑手抗议现场附近响起防空警报

转轮都能卡住转不动，可想而知劣质成什么逼样了

网上鉴宝惊现博物院文物？＂钱到位他们什么都卖！”

凌晨5点，长沙的外卖员抗议大军继续在大街上游行鸣笛

美国斩杀线，中国斩杀熊🐻 😎 匿名投稿

明天就失业被斩杀了。。。彻底失败视频是假的我其实人在河南地下室。

12月22日长沙合能璞丽外卖骑手抗议起因小区物业禁止骑手进入小区引发冲突，骑手强行进入撞倒拦截保安。视频中的部分小区业主支持物业，并阴阳怪气骑手不遵守规则“不是人”。骑手称，他们也不想送这个小区，但是他们被平台强制派单没法取消。骑手质问如果不让他们进，那小区业主是不是应该别点外卖？

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

3

2

1

LLaVA-Mini是一个高效的图像/视频理解大模型，仅需1个视觉token来表示每张图像：计算开销（FLOPs减少77%）、响应时延（低至40毫秒）以及显存占用（降至 0.6MB/图像，支持24GB GPU上进行长达 3 小时的视频处理）。
Paper:
Code & Demo:
IT技术
( twitter.com )

11个月前由宝玉提交

1周内 1个月内 1年内全部时间

1
2
3
4
5
6
...
400
下一页

1

2

1

1

#AI开源项目推荐#：Video-LLaVA
北京大学的多模态图像视频识别
论文摘要：…
IT技术
( twitter.com)

2年前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:02:06

2

2

1

1

#AI开源项目推荐：AnimateDiff

这是一个高效框架，能进一步将生成的静态图像生成动画。

项目摘要

随着像 Stable Diffusion 这样的文本转图像模型及 LoRA 和 DreamBooth…
IT技术
( twitter.com)

2年前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:00:13

3

2

1

1

这是一个基于 gpt-4o-mini 的开源 OCR 项目，无需任何参数配置，给文件和 api token 就能 work，看视频效果很好啊
时政
( twitter.com)

1年前 • Justin • -- 点击 • 下载视频 0 评论

00:00:31

4

2

1

1

Video-LLaVA很cool
我上传了几个视频，几个视频都成功识别了
且速度也相当快。
每日热点
( twitter.com)

2年前 • 遁一子 • -- 点击 • 下载视频 0 评论

00:02:06

5

3

2

2

这篇文章《Discover 4 Open Source Alternatives to GPT-4 Vision》介绍了 4 个 GPT-4 Vision 的开源替代方案：
1. LLaVa（大型语言和视觉助手）
LLaVA 代表了一种创新的、从头到尾训练的大型多模态（multimodal）模型。它融合了视觉编码器和…
IT技术
( llava-vl.github.io)

2年前 • 宝玉 • -- 点击 0 评论

6

2

1

1

苹果发布 FastVLM
能在 iPhone 上直接运行的极速视觉语言模型
首 token 输出快 85 倍
FastVLM：先把图像看懂（图像 → token），再根据 token 生成回答或描述（token → 语言）
模型体非常积小，可以很轻松部署在 iPhone、iPad、Mac 上
FastVLM-0.5B：相较于 LLaVA-OneVision-0.5B，首 token
时政
( twitter.com)

7个月前 • 小互 • -- 点击 • 下载视频 0 评论

00:00:06

7

2

1

1

这个工具牛逼！整合十几种主流AI模型到一个界面！
NinjaTools：一键生成图像、音乐、视频，绘制思维导图，分析PDF，高效生产力工具！
它还有自己的 TOOLS币：可以用，也可以买来投资
时政
( believe.app)

7个月前 • 头条热点 • -- 点击 • 下载视频 0 评论

00:02:36

8

3

2

2

一个基于GPT-4o-mini 的PDF OCR工具：Zerox
Zerox先将PDF 文件转换成图像，再由GPT-4o-mini识别并输出Markdown，最后将所有页面对应的 Markdown 结果汇总在一起形成完整的Markdown 文档
支持零样本 OCR、精度高、提供API接口；可以处理包含表格、图表等复杂布局文件，支持多种格式，包括扫描版
时政
( twitter.com)

1年前 • AIGCLINK • -- 点击 0 评论

9

2

1

1

Stability AI正式发布了DeepFloyd IF图像生成模型，这是一个有文本编码器和三个级联的diffusion模块组合的模型。这个模型的效率要比原有的satble diffusion效率要高很多。
我尝试了一下，看起…
推特中文圈
( twitter.com)

2年前 • 歸藏 • -- 点击 0 评论

10

2

1

1

DragGAN正式发布，其令人震惊的"拖拽你的图像"功能达到了图像操作的新高度。

使用DragGAN，你不仅仅是编辑图像，你是在"拖拽"它们以匹配你的创意视觉。

以下是10个示例用例：
IT技术
( twitter.com)

2年前 • Will 3.6-6.16 硅谷 • -- 点击 • 下载视频 0 评论

00:00:10

11

3

2

2

本周开源三件套
第三个 LLaVA 大型语言和视觉助理
- 视觉对话，达到 GPT4 85%的水平
- Science QA 的准确率达到新 SoTA
- 提供了官方demo地址，直接可用，速度很快，（而 GPT4 的图片功能还没…
推特中文圈

开源推荐
( twitter.com)

2年前 • orange.ai • -- 点击 0 评论

12

2

1

1

🎉Zipic 现已在 App Store 上线！🚀 这是一款高效且简单易用的图像压缩工具。如果你有图片压缩需求，不妨试一下。🌟 批量快速压缩、高压缩比、本地压缩、简约设计，只需一个简单的拖拽操作！👌 赶快下载使用吧【免费】！📥

#图像压缩 #AppStore
时政
( twitter.com)

2年前 • 十里 • -- 点击 0 评论

13

2

1

1

Meta AI 发布 Llama 3.2 多模态AI模型
性能与GPT4o-mini 相当能够在边缘设备上高效运行
Llama 3.2包括适用于边缘和移动设备的小型和中型视觉大语言模型（11B 和 90B）以及轻量文本模型（1B 和 3B）。
LLaMA 3.2支持同时处理文本、图像和视频，能够理解并生成跨媒体内容。
时政
( twitter.com)

1年前 • 小互 • -- 点击 • 下载视频 0 评论

00:00:38

14

2

1

1

是个收集效率方法的网站
它像个论坛，人人都可以分享和投票

这里是前十高票的效率妙招
推特中文圈
( 50hacks.co)

3年前 • twitter机器人 • -- 点击 0 评论

15

2

1

1

发盖特小技巧分享：写盖特或者推特请一定要配图，一张图效果好过多张图，一个几十秒短视频好多其他。所以战友们当你发帖记得配图配视频，至关重要，因为这是一个读图读视频的时代，图片和视频传递的信息量是文字的很多倍，视频的音乐也更多唤起人们…
推特中文圈
( twitter.com)

4年前 • twitter机器人 • -- 点击 0 评论

16

2

1

1

见过不要脸的也不是一两回了，被大小频道品牌盗图盗视频都经历过。前几天分享了下前段时间给老婆配的 2023 Mac mini 方案，写了篇博客记录，被人搬运到微信视频号，盗图 AI 合成视频，还声明原创。听说还是一个搞技术的🙂…
IT技术
( twitter.com)

2年前 • luolei • -- 点击 0 评论

17

2

1

1

【“夸父一号”首批科学图像公布】这些图像是“夸父一号”自2022年10月9日成功发射以来，3台有效载荷在轨运行2个月期间，获取的若干对太阳的科学观测图像，实现了多项国内外首次，在轨验证了“夸父一号”三台有效载荷的观测能力和先进性。
大陆资讯
( content-static.cctvnews.cctv.com)

3年前 • 舌战群乳 • -- 点击 0 评论

18

2

1

1

测试了OpenAI新发布的o3-mini，其编程能力之强真的是可以用“恐怖”来形容。不多说了，看视频吧。
prompt：生成一个swiftUI视图，其中包括一个组件，组件实现了一个圆球在一个超立方体中弹跳。
如果是用js、python来做还没有那么吓人。
时政
( twitter.com)

10个月前 • StLi • -- 点击 • 下载视频 0 评论

00:00:26

19

2

1

1

怎么把平面的三视图，瞬间变成 3D 模型，然后用 AR 增强现实的方式显示出来

图像识别的效果看似很不错！不知道这是什么人开发的什么软件，看起来像是 demo

视频来源见粗体小字


视频
( twitter.com)

2年前 • 倪爽 • -- 点击 • 下载视频 0 评论

00:00:07

20

2

1

1

@巴媽媽小魔嫣：一个日常使用的夜光纹身，厂家发来了效果图，有赛博朋克内味了吗？ (图一已镜像)
大陆资讯

4年前 • 你的溢达 • -- 点击 0 评论

21

2

1

1

今天拼了一个mini自由高达，就是中间这个小家伙。已有三台freedom。胶娘的快乐你懂不懂。
图片
( twitter.com)

4年前 • twitter机器人 • -- 点击 0 评论

22

2

1

1

M4 CPU Mac Mini
买买买~
（有没有一个汉字，是三个“买”叠加在一起的？看上去会有一种 biang biang 面那个 biang 字的视觉冲击力）
IT技术
( twitter.com)

1年前 • 倪爽 • -- 点击 • 下载视频 0 评论

00:01:48

23

1

0

0

看了下其他项目的图片，再看看比特虫，高下立判。其他项目的图片像素点都是一坨，比特虫的像素点每一个都不一样，每一个像素点都是设计师挑灯夜战点出来的，所以看上去更多元化和立体感，这就是上乘作品，每一个像素点都…
币圈
( twitter.com)

2年前 • damao 🪲 • -- 点击 0 评论

24

2

1

1

中国司法机关的效率像谜一样，有时候一个案子几年都没有进展，有时候一个案子效率奇高无比，比如迁西这个马树田案，可惜这是个冤案。
时政
( twitter.com)

1年前 • 中日政经评论 • -- 点击 0 评论

1
2
3
4
5
6
...
400
下一页

0.095 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特