Gemini 和 GPT 都是当前自然语言处理(NLP)领域中非常受欢迎的模型,它们在不同的应用场景中都有出色的表现。但是,在 OCR(光学字符识别)方面,哪个模型更好需要根据具体的任务和数据集来评估。
总的来说,GPT-4 在多模态复杂数据问题和汉字的 OCR 方面表现较好,而 Gemini 在原生多模态能力和与搜索生态结合方面有一定的优势。但是,对于中文的理解能力,GPT-4 可能更胜一筹。
需要注意的是,以上结论是基于已有数据和相关文章得出的,具体表现还需要根据实际应用场景进行评估。
Claude3GPT4gemini1.5proClaude3GPT4多模态复杂数据问题汉字的OCR比GPT4强
参考原文:https://zhuanlan.zhihu.com/p/670929510MMLU测试中,Gemini结果下面灰色小字标称CoT@32,展开来代表使用了思维链提示技巧、尝试了32次选最好结果。总结:综合看还是GPT4好
云中江树[道阻且长——谷歌最新的Gemini多模态模型体验](https://m.okjike.com/originalPosts/65712609d027b7ac8cd169ad?s=eyJ1IjoiNjQyM2IwMDE4NDg5Njk1NGJjYzhkNWU1In0%3D&utm_source=wechat_session)谷歌最新的Gemini多模态模型系列包括Ultra、Pro和Nano三种型号,能够处理图像、音频、视频和文本。Gemini的优势在于原生多模态能力,一个模型即可完成多种任务。目前Gemini的多模态能力有限,幻觉问题和多语言表现不佳仍存在。Gemini的体验不如ChatGPT,特别是对中文的理解能力较弱。然而,谷歌在生成质量和与搜索生态结合方面有显著进步,体验比bing和GPT好。