GPT-4o 的高級語音模式迎來重大更新,新增唱歌功能,同時提升了自然語音交互能力。盡管唱歌表現仍有待優化,但其多模態交互能力和情感表達已經展現了巨大潛力。
VITA-MLLM團隊最近推出了VITA-1.5,這是對VITA-1.0的重大升級,旨在提升多模態交互的實時性和準確性。
多模態大模型在聽覺上,居然也出現了「9.11>9.8」的現象,音量大小這種簡單問題都識別不了!港中文、斯坦福等大學聯合發布的AV-Odyssey基準測試,包含26個視聽任務,覆蓋了7種聲音屬性,跨越了10個不同領域,確保測試的深度和廣度
近日,上海 AI 實驗室宣布推出書生·萬象InternVL2.5模型。
AIbase基地
書生·萬象多模態大模型大模型GPT-4o模型
微軟于 11 月 26 日發布博文,宣布在其 LlamaParse 中集成 Azure OpenAI 端點,利用 GPT-4o 系列模型,增強提取非結構化數據和解析多模態文檔,并無縫銜接 Azure AI Search 向量數據庫,構建完整的檢索增強生成(RAG)工作流程。
以全面提升的創意寫作、技術支持和文件處理能力,再次奪回 Chatbot Arena 的榜首寶座。
今天凌晨,法國著名開源大模型平臺Mistral.ai,開源了超大多模態模型——Pixtral Large。
Anthropic 宣布開發者可以通過第一方 API、Amazon Bedrock 和GoogleCloud 的 Vertex AI,調用 Claude 3.5 Haiku 模型。
最近,一項由 OpenAI 進行的研究顯示,盡管人工智能技術飛速發展,當前最先進的語言模型在回答事實問題時的成功率卻遠低于預期。
實時語音通話早已不是什么新奇功能了,ChatGPT、智譜清言、字節豆包、百度文小言、訊飛星火等海內外友商陸續發布,只不過效果各有千秋。
全球AI領導者英偉達(Nvidia)開源了超強大模型——Llama-3.1-Nemotron-70B-Instruct。
今天凌晨,阿里巴巴官宣了史上最大規模的開源發布,推出了基礎模型Qwen2.5、專用于編碼Qwen2.5-Coder和數學的Qwen2.5-Math。
在剛剛召開的“KDDI SUMMIT2024”大會上,OpenAI日本首席執行官長崎忠雄表示,截止至今年8月底,ChatGPT的月活用戶數量突破2億大關,成為史上最快達到這一成就的軟件產品。
今年8月19日,科大訊飛發布了星火極速超擬人交互技術,在響應和打斷速度、情緒感知情感共鳴、語音可控表達、人設扮演四個方面實現巨大突破。這項技術將于今年8月底在訊飛星火App上全民開放使用,普通用戶也能親自感知。
OpenAI宣布從今天開始到9月23日,免費為4級、5級用戶提供GPT-4omini微調服務,幫助開發者打造特定業務用例的生成式AI應用。
據機器之心報道,剛剛,OpenAI 突然宣布了「Mini」版本的 GPT-4o 模型。該公司表示,新的輕量級版本旨在讓更多公司和項目能夠獲得最先進的技術。
微軟Azure首席技術官Mark Russinovich在官網分享了新型大模型入侵技術——“Skeleton Key”(萬能鑰匙)。
-------------沒有了-------------